현재 위치: > 최신 기사 목록> 효율적인 웹 사이트를위한 튜토리얼 PHPSPIDER와 결합 된 PHP와 크롤링하는 데이터 대상 데이터

효율적인 웹 사이트를위한 튜토리얼 PHPSPIDER와 결합 된 PHP와 크롤링하는 데이터 대상 데이터

gitbox 2025-06-27

소개

PhpsPider는 가볍고 실용적인 PHP 크롤러 프레임 워크로 네트워크에 대한 정보를 빠르게 캡처하고 간단한 규칙을 작성하여 로컬 데이터베이스에 저장합니다. 특정 형식의 데이터를 대상으로 해야하는 개발자에게는 크롤러의 개발 프로세스를 크게 단순화 할 수 있습니다.

phpspider를 설치하십시오

phpspider를 사용하기 전에 먼저 프레임 워크를 설치해야합니다. PhpsPider는 작곡가를 사용하여 종속성을 관리하므로 컴포저가 환경에 설치되어 있는지 확인하십시오.

 composer create-project phpspider/phpspider

설치가 완료되면 테스트 스크립트를 실행하여 프레임 워크 설치가 성공했는지 확인할 수 있습니다.

 cd phpspider
php tests/simple_test.php

크롤링 웹 사이트 데이터

PhpsPider는 웹 페이지 데이터의 무제한 크롤링을 지원합니다. 다음은 간단한 웹 사이트에서 데이터를 크롤링하는 방법을 보여줍니다.

프로젝트를 만듭니다

먼저 새 프로젝트를 만들어야합니다. 다음 명령을 실행하면 PhpsPider가 해당 프로젝트 폴더를 자동으로 생성합니다.

 php phpspider startproject myproject

크롤링 규칙을 작성하십시오

프로젝트가 만들어지면 크롤링 규칙을 정의하고 PhpsPider에게 대상 웹 사이트의 데이터를 추출하는 방법을 알려야합니다. MyProject/Rules 디렉토리를 입력하고 새 Rule.php를 작성하십시오. 예제 내용은 다음과 같습니다.

 return [
    'start_urls' => [
        'http://www.example.com'
    ],
    'rules' => [
        [
            'type' => 'regex',
            'pattern' => '/(<a.*?>(.*?)<\/a><\/div>)/',
            'id' => 1,
            'fields' => [
                [
                    'name' => 'title',
                    'selector' => 'text()',
                ],
                [
                    'name' => 'link',
                    'selector' => '@href',
                ]
            ],
        ]
    ],
];
?>

크롤러 달리기

규칙을 구성한 후에는 데이터 크롤링을 위해 PhpsPider를 실행할 수 있습니다.

 php phpspider run myproject

요약

이 기사를 통해 설치에서 프로젝트 제작, 규칙 작성 및 실행에 이르기까지 PhpSSpider의 기본 사용 방법을 마스터했다고 생각합니다. 간단하고 효율적인 PHP 크롤러 프레임 워크 인 PhpsPider는 대상 크롤러 프로젝트를 빠르게 구축하는 데 매우 적합하여 필요한 네트워크 데이터를 쉽게 얻을 수 있도록 도와줍니다.