インターネットの情報量の爆発的な成長により、多数のWebページからターゲットデータを迅速かつ正確にキャプチャする方法が開発者の焦点になりました。広く使用されているバックエンド開発言語として、PHPはWebページのデータ収集のプロセスを簡素化し、PHPSPider Crawlerフレームワークで効率を向上させることができます。
この記事では、phpspiderをインストールし、クローラースクリプトを作成し、例を使用して、Webページからキー情報を見つけて抽出する方法を示す方法について説明します。
PHPSPiderは、PHPに基づいたオープンソースクローラーフレームワークであり、インストールが非常に簡単です。 Composerを介してコマンドを実行するだけです。
<span class="fun">作曲家にはPHP-Spider/Phpspiderが必要です</span>
インストールが完了したら、 spider.phpという名前のファイルを作成し、自動読み込みファイルを導入し、クローラーオブジェクトをインスタンス化します。
<?php
require 'vendor/autoload.php';
<p>use phpspider\core\phpspider;</p>
<p>// クローラーオブジェクトを作成します<br>
$spider = new phpspider();</p>
<p>// クローラーの始まりを設定しますURL<br>
$spider->add_start_url('<a rel="noopener" target="_new" class="" href="http://www.example.com">http://www.example.com</a>');</p>
<p>// ページコンテンツを抽出するコールバック関数を定義します<br>
$spider->on_extract_page = function ($page, $data) {<br>
// ここに抽出ロジックを書いてください,規則性を使用します、XPathまたはCSSセレクターはデータを抽出します<br>
return $data;<br>
};</p>
<p>// クローラーを始めます<br>
$spider->start();<br>
コールバック関数では、CSSセレクターを使用して、Webページにタイトルとボディをすばやく見つけます。
$spider->on_extract_page = function ($page, $data) {
$title = $page['raw']['headers']['title'][0];
$content = $page['raw']['content'];
$data['title'] = $title;
$data['content'] = strip_tags($content);
return $data;
};
ここでは、Webページの元のコンテンツにアクセスし、タイトルとテキストのテキストを抽出することにより、基本的なデータクロールニーズが達成されます。
抽出されたデータは、ファイルまたはデータベースに保存できます。例データをテキストファイルに保存します:
$spider->on_extract_page = function ($page, $data) {
$title = $page['raw']['headers']['title'][0];
$content = $page['raw']['content'];
$data['content'] = strip_tags($content);
// ファイルにデータを追加します
file_put_contents('extracted_data.txt', var_export($data, true), FILE_APPEND);
return $data;
};
コードの書き込みを完了した後、コマンドラインで実行します。
<span class="fun">php spider.php</span>
このプログラムは、指定された開始URLからWebページコンテンツを自動的にクロールし、セットルールに従って情報を抽出および保存します。
PHPとPHPSPiderを使用して、開発者は強力なWebクローラーを迅速に構築して、大規模なWebページデータを自動的にクロールすることができます。単純なコード構成により、ターゲット情報を正確に配置および抽出し、データ収集の効率を大幅に改善できます。 PHPSPiderは、さまざまなシナリオでカスタマイズされた開発に適した、より高度な機能もサポートしています。