PHP 및 PhpsPider를 사용하여 웹 페이지 정보를 효율적으로 추출하는 실용 튜토리얼

gitbox 2025-06-15

PHP 및 PhpsPider를 사용하여 웹 페이지에서 필요한 정보를 추출하는 방법은 무엇입니까?

인터넷이 개발되면 웹 페이지 정보의 양이 급격히 증가했습니다. 필요한 데이터를 효율적이고 정확하게 캡처하는 방법은 개발자에게 핵심 과제가되었습니다. PHP는 인기있는 웹 개발 언어로서 강력한 PhpsPider 크롤러 프레임 워크로 데이터 추출을위한 편리함을 제공합니다.

이 기사는 Crawlers를 신속하게 구축하고 PHP 및 PhpsSpider를 사용하여 착륙 웹 컨텐츠를 추출하는 방법을 단계별로 소개합니다.

1. phpspider를 설치하십시오

먼저 PHP를 기반으로 한 고성능 크롤러 프레임 워크 인 PhpsSpider를 설치해야합니다. 작곡가 도구를 통해 실행 :

 <span class="fun">작곡가는 PHP- 스파이더/phpspider가 필요합니다</span>

2. 크롤러 코드를 쓰십시오

파일 Spider.php를 만들고 phpsSpider를 소개하여 파일을 자동으로로드하십시오.

 <?php
require 'vendor/autoload.php';
<p>use phpspider\core\phpspider;</p>
<p>// 크롤러 개체를 만듭니다<br>
$spider = new phpspider();</p>
<p>// 설정 시작URL<br>
$spider->add_start_url('<a rel="noopener" target="_new" class="" href="http://www.example.com">http://www.example.com</a>');</p>
<p>// 페이지 추출을위한 콜백 함수를 정의하십시오<br>
$spider->on_extract_page = function($page, $data) {<br>
// 여기에 추출 로직을 작성하십시오<br>
return $data;<br>
};</p>
<p>// 크롤러를 시작하십시오<br>
$spider->start();<br>

위의 코드는 크롤러를 초기화하고 시작 주소를 지정하며 페이지 데이터 추출을위한 처리 콜백을 설정합니다.

3. 필요한 정보를 포지셔닝 및 추출합니다

콜백 함수에서 대상 요소는 정규 표현식, XPath 또는 CSS 선택기를 사용하여 위치합니다. 예제는 페이지 제목과 신체 텍스트를 추출하는 다음과 같습니다.

 $spider->on_extract_page = function($page, $data) {
    // 제목을 얻으십시오
    $title = $page['raw']['headers']['title'][0];
    // 텍스트의 내용을 얻으십시오
    $content = $page['raw']['content'];
$data['title'] = $title;
$data['content'] = strip_tags($content);

return $data;

};

4. 추출 결과를 저장하십시오

간단한 후속 처리를 위해 크롤링 된 데이터를 로컬 파일에 저장하십시오.

 $spider->on_extract_page = function($page, $data) {
    $title = $page['raw']['headers']['title'][0];
    $content = $page['raw']['content'];
$data['content'] = strip_tags($content);

// 텍스트 파일에 추가하십시오
file_put_contents('extracted_data.txt', var_export($data, true), FILE_APPEND);

return $data;

};

5. 크롤러 달리기

코드를 저장 한 후 명령 줄에서 코드를 실행하십시오.

 <span class="fun">PHP Spider.php</span>

크롤러는 자동으로 크롤링 데이터를 시작하고 규칙을 저장하기위한 정보를 추출합니다.

요약

Phpspider 프레임 워크와 결합 된 PHP를 통해 강력한 웹 크롤러를 신속하게 구축 할 수 있으며 자동화 된 데이터 추출을 달성 할 수 있습니다. 이 기사의 예는 설치, 코드 작성, 데이터 추출 및 결과 보존의 핵심 프로세스를 다루며 개발자가 신속하게 시작할 수 있도록합니다. 크롤링 효율과 데이터 품질을 향상시키기 위해 프로젝트 요구 사항에 따라보다 고급 기능을 유연하게 구성 할 수 있습니다.