PHP 및 PhpsPider를 사용하여 웹 정보를 효율적으로 추출하는 실용 가이드

gitbox 2025-06-15

PHP 및 PhpsSpider를 사용하여 웹 페이지 정보를 효율적으로 추출하는 방법

인터넷 정보 볼륨의 폭발적인 성장으로 인해 많은 웹 페이지에서 대상 데이터를 빠르고 정확하게 캡처하는 방법이 개발자의 초점이되었습니다. 널리 사용되는 백엔드 개발 언어로서 PHP는 웹 페이지 데이터 수집 프로세스를 단순화하고 PhpsPider 크롤러 프레임 워크의 효율성을 향상시킬 수 있습니다.

이 기사에서는 PhpsPider를 설치하고 크롤러 스크립트를 작성하며 예제를 사용하여 웹 페이지에서 주요 정보를 찾아 추출하는 방법을 보여줍니다.

1. phpspider를 설치하십시오

PhpsPider는 PHP를 기반으로 한 오픈 소스 크롤러 프레임 워크이며 설치가 매우 쉽습니다. 작곡가를 통해 명령을 실행합니다.

 <span class="fun">작곡가는 PHP- 스파이더/phpspider가 필요합니다</span>

2. 기본 크롤러 코드를 작성하십시오

설치가 완료된 후 Spider.php 라는 파일을 만들고 자동로드 파일을 소개하고 크롤러 개체를 인스턴스화합니다.

 <?php
require 'vendor/autoload.php';
<p>use phpspider\core\phpspider;</p>
<p>// 크롤러 개체를 만듭니다<br>
$spider = new phpspider();</p>
<p>// 크롤러의 시작을 설정하십시오URL<br>
$spider->add_start_url('<a rel="noopener" target="_new" class="" href="http://www.example.com">http://www.example.com</a>');</p>
<p>// 페이지 컨텐츠를 추출하는 콜백 함수를 정의하십시오<br>
$spider->on_extract_page = function ($page, $data) {<br>
// 여기에 추출 로직을 작성하십시오，규칙 성을 사용하십시오、XPath또는CSS선택기는 데이터를 추출합니다<br>
return $data;<br>
};</p>
<p>// 크롤러를 시작하십시오<br>
$spider->start();<br>

3. 웹 페이지 정보 위치 및 추출

콜백 함수에서 CSS 선택기를 사용하여 웹 페이지에서 제목과 본문을 빠르게 찾으십시오.

 $spider->on_extract_page = function ($page, $data) {
    $title = $page['raw']['headers']['title'][0];
    $content = $page['raw']['content'];
$data['title'] = $title;
$data['content'] = strip_tags($content);

return $data;

};

여기서 기본 데이터 크롤링 요구는 웹 페이지의 원래 콘텐츠에 액세스하고 제목 및 텍스트를 추출하여 달성됩니다.

4. 크롤링 결과를 저장하십시오

추출 된 데이터는 파일 또는 데이터베이스에 저장할 수 있습니다. 예제 데이터 저장 텍스트 파일 :

 $spider->on_extract_page = function ($page, $data) {
    $title = $page['raw']['headers']['title'][0];
    $content = $page['raw']['content'];
$data['content'] = strip_tags($content);

// 파일에 데이터를 추가하십시오
file_put_contents('extracted_data.txt', var_export($data, true), FILE_APPEND);

return $data;

};

5. 크롤러 달리기

코드 쓰기를 완료 한 후 명령 줄에서 실행하십시오.

 <span class="fun">PHP Spider.php</span>

이 프로그램은 지정된 시작 URL에서 웹 페이지 컨텐츠를 자동으로 크롤링하고 설정 규칙에 따라 정보를 추출하고 저장합니다.

요약

PHP 및 PhpsPider를 사용하여 개발자는 강력한 웹 크롤러를 빠르게 구축하여 대규모 웹 페이지 데이터를 자동으로 기어 다닐 수 있습니다. 간단한 코드 구성을 통해 대상 정보를 정확하게 위치 및 추출하여 데이터 수집 효율성을 크게 향상시킬 수 있습니다. PhpsPider는 또한 다양한 시나리오에서 맞춤형 개발에 적합한 고급 기능을 지원합니다.