인터넷 정보 볼륨의 폭발적인 성장으로 인해 많은 웹 페이지에서 대상 데이터를 빠르고 정확하게 캡처하는 방법이 개발자의 초점이되었습니다. 널리 사용되는 백엔드 개발 언어로서 PHP는 웹 페이지 데이터 수집 프로세스를 단순화하고 PhpsPider 크롤러 프레임 워크의 효율성을 향상시킬 수 있습니다.
이 기사에서는 PhpsPider를 설치하고 크롤러 스크립트를 작성하며 예제를 사용하여 웹 페이지에서 주요 정보를 찾아 추출하는 방법을 보여줍니다.
PhpsPider는 PHP를 기반으로 한 오픈 소스 크롤러 프레임 워크이며 설치가 매우 쉽습니다. 작곡가를 통해 명령을 실행합니다.
<span class="fun">작곡가는 PHP- 스파이더/phpspider가 필요합니다</span>
설치가 완료된 후 Spider.php 라는 파일을 만들고 자동로드 파일을 소개하고 크롤러 개체를 인스턴스화합니다.
<?php
require 'vendor/autoload.php';
<p>use phpspider\core\phpspider;</p>
<p>// 크롤러 개체를 만듭니다<br>
$spider = new phpspider();</p>
<p>// 크롤러의 시작을 설정하십시오URL<br>
$spider->add_start_url('<a rel="noopener" target="_new" class="" href="http://www.example.com">http://www.example.com</a>');</p>
<p>// 페이지 컨텐츠를 추출하는 콜백 함수를 정의하십시오<br>
$spider->on_extract_page = function ($page, $data) {<br>
// 여기에 추출 로직을 작성하십시오,규칙 성을 사용하십시오、XPath또는CSS선택기는 데이터를 추출합니다<br>
return $data;<br>
};</p>
<p>// 크롤러를 시작하십시오<br>
$spider->start();<br>
콜백 함수에서 CSS 선택기를 사용하여 웹 페이지에서 제목과 본문을 빠르게 찾으십시오.
$spider->on_extract_page = function ($page, $data) {
$title = $page['raw']['headers']['title'][0];
$content = $page['raw']['content'];
$data['title'] = $title;
$data['content'] = strip_tags($content);
return $data;
};
여기서 기본 데이터 크롤링 요구는 웹 페이지의 원래 콘텐츠에 액세스하고 제목 및 텍스트를 추출하여 달성됩니다.
추출 된 데이터는 파일 또는 데이터베이스에 저장할 수 있습니다. 예제 데이터 저장 텍스트 파일 :
$spider->on_extract_page = function ($page, $data) {
$title = $page['raw']['headers']['title'][0];
$content = $page['raw']['content'];
$data['content'] = strip_tags($content);
// 파일에 데이터를 추가하십시오
file_put_contents('extracted_data.txt', var_export($data, true), FILE_APPEND);
return $data;
};
코드 쓰기를 완료 한 후 명령 줄에서 실행하십시오.
<span class="fun">PHP Spider.php</span>
이 프로그램은 지정된 시작 URL에서 웹 페이지 컨텐츠를 자동으로 크롤링하고 설정 규칙에 따라 정보를 추출하고 저장합니다.
PHP 및 PhpsPider를 사용하여 개발자는 강력한 웹 크롤러를 빠르게 구축하여 대규모 웹 페이지 데이터를 자동으로 기어 다닐 수 있습니다. 간단한 코드 구성을 통해 대상 정보를 정확하게 위치 및 추출하여 데이터 수집 효율성을 크게 향상시킬 수 있습니다. PhpsPider는 또한 다양한 시나리오에서 맞춤형 개발에 적합한 고급 기능을 지원합니다.