전자 상거래 웹 사이트에서 검토 데이터를 크롤링하기 전에 개발 환경이 준비되어 있는지 확인해야합니다. 필요한 환경과 도구는 다음과 같습니다.
먼저 phpspider 도구를 설치해야합니다. PhpsPider는 오픈 소스 PHP 크롤러 프레임 워크로 데이터 크롤링을 쉽게 구현할 수 있도록 도와줍니다.
작곡가를 통해 phpspider를 설치할 수 있습니다. 터미널 또는 명령 줄을 열고 프로젝트 디렉토리를 입력하고 다음 명령을 실행하십시오.
composer require dabaojian/phpspider
설치가 완료되면 데이터 크롤링에 phpspider를 사용하기 시작할 수 있습니다.
다음으로 "Spider.php"와 같은 새 PHP 파일을 작성하고 다음 코드를 파일에 추가하십시오.
require 'vendor/autoload.php';
use phpspider\core\phpspider;
use phpspider\core\requests;
$target_url = 'https://example.com/comments'; // 대상 전자 상거래 웹 사이트의 댓글 페이지를 교체하십시오URL
/* 크롤링 규칙을 정의합니다 */
$config = [
'name' => 'comments_spider', // 크롤러 이름
'log_show' => false, // 로그 출력을 숨기십시오
'domains' => [], // 크롤링 할 수있는 도메인 이름
'scan_urls' => [$target_url], // 시작URL
'content_url_regexes' => ["/\/(\d+)\.html/"], // 콘텐츠 페이지URL규칙
'list_url_regexes' => ["/\/comments/"], // 댓글 목록 페이지URL규칙
'fields' => [
[
'name' => 'comment', // 필드 이름
'selector' => '.comment_body', // CSS선택자
'required' => true // 필요한 필드
],
// 다른 분야...
]
];
/* 크롤러를 시작하십시오 */
$spider = new phpspider($config);
$spider->start();
위 코드에서 필요한 클래스 파일을 소개하고 대상 전자 상거래 웹 사이트의 주석 페이지 URL을 정의했습니다. 다음으로 크롤러 이름, 대상 URL, 크롤링 규칙 등을 포함하여 크롤링 규칙이 구성됩니다.
크롤링 필드는 CSS 선택기를 사용하여 데이터를 찾습니다. 실제 웹 사이트 구조에 따라 정확한 데이터 크롤링을 보장하기 위해 선택기를 조정해야 할 수도 있습니다.
크롤러를 실행하는 것은 매우 간단합니다. 명령 줄에 다음 명령을 입력하십시오.
php spider.php
실행 후 PhpsPider는 구성된 규칙에 따라 댓글 데이터를 크롤링하기 시작하고 데이터를 지정된 데이터베이스 또는 파일에 저장합니다.
PHP 및 PhpsSpider를 통해 전자 상거래 웹 사이트에서 댓글 데이터를 신속하게 기어 올릴 수 있습니다. 도구를 설치하고 크롤러 스크립트를 작성하고 크롤러를 시작하면 데이터 크롤러 작업을 쉽게 완료 할 수 있습니다.
웹 페이지 데이터를 크롤링 할 때 관련 법률 및 규정을 준수하고 웹 사이트의 사용 계약을 존중해야합니다. 불법 크롤링과 학대를 피하고 크롤러의 합법성과 도덕성을 보장하십시오.