인터넷이 개발되면 웹 페이지 정보의 양이 급격히 증가했습니다. 필요한 데이터를 효율적이고 정확하게 캡처하는 방법은 개발자에게 핵심 과제가되었습니다. PHP는 인기있는 웹 개발 언어로서 강력한 PhpsPider 크롤러 프레임 워크로 데이터 추출을위한 편리함을 제공합니다.
이 기사는 Crawlers를 신속하게 구축하고 PHP 및 PhpsSpider를 사용하여 착륙 웹 컨텐츠를 추출하는 방법을 단계별로 소개합니다.
먼저 PHP를 기반으로 한 고성능 크롤러 프레임 워크 인 PhpsSpider를 설치해야합니다. 작곡가 도구를 통해 실행 :
<span class="fun">작곡가는 PHP- 스파이더/phpspider가 필요합니다</span>
파일 Spider.php를 만들고 phpsSpider를 소개하여 파일을 자동으로로드하십시오.
<?php
require 'vendor/autoload.php';
<p>use phpspider\core\phpspider;</p>
<p>// 크롤러 개체를 만듭니다<br>
$spider = new phpspider();</p>
<p>// 설정 시작URL<br>
$spider->add_start_url('<a rel="noopener" target="_new" class="" href="http://www.example.com">http://www.example.com</a>');</p>
<p>// 페이지 추출을위한 콜백 함수를 정의하십시오<br>
$spider->on_extract_page = function($page, $data) {<br>
// 여기에 추출 로직을 작성하십시오<br>
return $data;<br>
};</p>
<p>// 크롤러를 시작하십시오<br>
$spider->start();<br>
위의 코드는 크롤러를 초기화하고 시작 주소를 지정하며 페이지 데이터 추출을위한 처리 콜백을 설정합니다.
콜백 함수에서 대상 요소는 정규 표현식, XPath 또는 CSS 선택기를 사용하여 위치합니다. 예제는 페이지 제목과 신체 텍스트를 추출하는 다음과 같습니다.
$spider->on_extract_page = function($page, $data) {
// 제목을 얻으십시오
$title = $page['raw']['headers']['title'][0];
// 텍스트의 내용을 얻으십시오
$content = $page['raw']['content'];
$data['title'] = $title;
$data['content'] = strip_tags($content);
return $data;
};
간단한 후속 처리를 위해 크롤링 된 데이터를 로컬 파일에 저장하십시오.
$spider->on_extract_page = function($page, $data) {
$title = $page['raw']['headers']['title'][0];
$content = $page['raw']['content'];
$data['content'] = strip_tags($content);
// 텍스트 파일에 추가하십시오
file_put_contents('extracted_data.txt', var_export($data, true), FILE_APPEND);
return $data;
};
코드를 저장 한 후 명령 줄에서 코드를 실행하십시오.
<span class="fun">PHP Spider.php</span>
크롤러는 자동으로 크롤링 데이터를 시작하고 규칙을 저장하기위한 정보를 추출합니다.
Phpspider 프레임 워크와 결합 된 PHP를 통해 강력한 웹 크롤러를 신속하게 구축 할 수 있으며 자동화 된 데이터 추출을 달성 할 수 있습니다. 이 기사의 예는 설치, 코드 작성, 데이터 추출 및 결과 보존의 핵심 프로세스를 다루며 개발자가 신속하게 시작할 수 있도록합니다. 크롤링 효율과 데이터 품질을 향상시키기 위해 프로젝트 요구 사항에 따라보다 고급 기능을 유연하게 구성 할 수 있습니다.