PhpsPider는 가볍고 실용적인 PHP 크롤러 프레임 워크로 네트워크에 대한 정보를 빠르게 캡처하고 간단한 규칙을 작성하여 로컬 데이터베이스에 저장합니다. 특정 형식의 데이터를 대상으로 해야하는 개발자에게는 크롤러의 개발 프로세스를 크게 단순화 할 수 있습니다.
phpspider를 사용하기 전에 먼저 프레임 워크를 설치해야합니다. PhpsPider는 작곡가를 사용하여 종속성을 관리하므로 컴포저가 환경에 설치되어 있는지 확인하십시오.
composer create-project phpspider/phpspider
설치가 완료되면 테스트 스크립트를 실행하여 프레임 워크 설치가 성공했는지 확인할 수 있습니다.
cd phpspider
php tests/simple_test.php
PhpsPider는 웹 페이지 데이터의 무제한 크롤링을 지원합니다. 다음은 간단한 웹 사이트에서 데이터를 크롤링하는 방법을 보여줍니다.
먼저 새 프로젝트를 만들어야합니다. 다음 명령을 실행하면 PhpsPider가 해당 프로젝트 폴더를 자동으로 생성합니다.
php phpspider startproject myproject
프로젝트가 만들어지면 크롤링 규칙을 정의하고 PhpsPider에게 대상 웹 사이트의 데이터를 추출하는 방법을 알려야합니다. MyProject/Rules 디렉토리를 입력하고 새 Rule.php를 작성하십시오. 예제 내용은 다음과 같습니다.
return [
'start_urls' => [
'http://www.example.com'
],
'rules' => [
[
'type' => 'regex',
'pattern' => '/(<a.*?>(.*?)<\/a><\/div>)/',
'id' => 1,
'fields' => [
[
'name' => 'title',
'selector' => 'text()',
],
[
'name' => 'link',
'selector' => '@href',
]
],
]
],
];
?>
규칙을 구성한 후에는 데이터 크롤링을 위해 PhpsPider를 실행할 수 있습니다.
php phpspider run myproject
이 기사를 통해 설치에서 프로젝트 제작, 규칙 작성 및 실행에 이르기까지 PhpSSpider의 기본 사용 방법을 마스터했다고 생각합니다. 간단하고 효율적인 PHP 크롤러 프레임 워크 인 PhpsPider는 대상 크롤러 프로젝트를 빠르게 구축하는 데 매우 적합하여 필요한 네트워크 데이터를 쉽게 얻을 수 있도록 도와줍니다.