PHPとPHPSPiderを使用してWebページ情報を効率的に抽出する実用的なチュートリアル

gitbox 2025-06-15

PHPとPHPSPiderを使用して、Webページから必要な情報を抽出する方法は？

インターネットの開発により、Webページ情報の量は急激に増加しています。必要なデータを効率的かつ正確にキャプチャする方法は、開発者にとって重要な課題となっています。人気のあるWeb開発言語として、PHPは、強力なPHPSPider Crawlerフレームワークを使用して、データ抽出に非常に便利です。

この記事では、クローラーをすばやく構築し、PHPとPHPSPiderを使用して着陸Webコンテンツを抽出する方法を段階的に紹介します。

1. phpspiderをインストールします

まず、PHPに基づいた高性能クローラーフレームワークであるPHPSPiderをインストールする必要があります。作曲家ツールを介して実行する：

<span class="fun">作曲家にはPHP-Spider/Phpspiderが必要です</span>

2。クローラーコードを書きます

ファイルspider.phpを作成し、phpspiderを導入してファイルを自動的に読み込みます。

 <?php
require 'vendor/autoload.php';
<p>use phpspider\core\phpspider;</p>
<p>// クローラーオブジェクトを作成します<br>
$spider = new phpspider();</p>
<p>// 設定開始URL<br>
$spider->add_start_url('<a rel="noopener" target="_new" class="" href="http://www.example.com">http://www.example.com</a>');</p>
<p>// ページを抽出するためのコールバック関数を定義します<br>
$spider->on_extract_page = function($page, $data) {<br>
// ここに抽出ロジックを書いてください<br>
return $data;<br>
};</p>
<p>// クローラーを始めます<br>
$spider->start();<br>

上記のコードは、クローラーを初期化し、開始アドレスを指定し、ページデータ抽出の処理コールバックを設定します。

3。必要な情報の配置と抽出

コールバック関数では、ターゲット要素は正規表現、XPath、またはCSSセレクターを使用して配置されます。例は次のとおりです。ページのタイトルとボディテキストを抽出します。

 $spider->on_extract_page = function($page, $data) {
    // タイトルを取得します
    $title = $page['raw']['headers']['title'][0];
    // テキストのコンテンツを取得します
    $content = $page['raw']['content'];
$data['title'] = $title;
$data['content'] = strip_tags($content);

return $data;

};

4.抽出結果を保存します

クロールされたデータをローカルファイルに保存して、後続の処理を簡単にします。

 $spider->on_extract_page = function($page, $data) {
    $title = $page['raw']['headers']['title'][0];
    $content = $page['raw']['content'];
$data['content'] = strip_tags($content);

// テキストファイルに追加します
file_put_contents('extracted_data.txt', var_export($data, true), FILE_APPEND);

return $data;

};

5。クローラーのランニング

コードを保存した後、コードラインで実行します。

 <span class="fun">php spider.php</span>

クローラーは、自動的にデータのクロールを開始し、規則に従って情報を抽出して保存します。

要約します

PHPSPiderフレームワークと組み合わせたPHPを通じて、強力なWebクローラーをすばやく構築でき、自動データ抽出を実現できます。この記事の例では、インストール、コードライティング、データ抽出、結果の保存のコアプロセスについて説明します。これにより、開発者が迅速に開始できるようになります。より高度な機能は、クロール効率とデータ品質を改善するために、プロジェクトの要件に従って柔軟に構成できます。