PHPSPiderは、ネットワーク上の情報をすばやくキャプチャし、簡単なルールを記述してローカルデータベースに保存する軽量で実用的なPHP Crawlerフレームワークです。特定の形式のデータをターゲットにする必要がある開発者に適しているため、クローラーの開発プロセスを大幅に簡素化できます。
PHPSPiderを使用する前に、最初にフレームワークをインストールする必要があります。 Phpspiderは作曲家を使用して依存関係を管理するため、環境に作曲家がインストールされていることを確認してください。
composer create-project phpspider/phpspider
インストールが完了したら、テストスクリプトを実行することでフレームワークのインストールが成功するかどうかを確認できます。
cd phpspider
php tests/simple_test.php
PHPSPiderは、Webページデータの無制限のクロールをサポートしています。以下は、簡単なWebサイトからデータをクロールする方法を示しています。
まず、新しいプロジェクトを作成する必要があります。次のコマンドを実行すると、phpspiderは対応するプロジェクトフォルダーを自動的に生成します。
php phpspider startproject myproject
プロジェクトが作成された後、クロールルールを定義し、PHPSPiderにターゲットWebサイトのデータを抽出する方法を伝える必要があります。 MyProject/Rulesディレクトリを入力し、新しいRule.phpを作成します。コンテンツの例は次のとおりです。
return [
'start_urls' => [
'http://www.example.com'
],
'rules' => [
[
'type' => 'regex',
'pattern' => '/(<a.*?>(.*?)<\/a><\/div>)/',
'id' => 1,
'fields' => [
[
'name' => 'title',
'selector' => 'text()',
],
[
'name' => 'link',
'selector' => '@href',
]
],
]
],
];
?>
ルールを構成した後、PHPSPiderを実行してデータをクロールすることができます。
php phpspider run myproject
この記事を通して、インストールからプロジェクトの作成まで、PHPSPiderの基本的な使用方法を習得したことを習得したと思います。シンプルで効率的なPHPクローラーフレームワークとして、PHPSPiderはターゲットを絞ったクローラープロジェクトを迅速に構築するのに非常に適しており、必要なネットワークデータを簡単に取得できます。