PHPを使用してクローラーを書くことの完全な方法と実際の戦闘の詳細な説明

gitbox 2025-07-14

クローラーの紹介

Crawlerは、インターネットから情報を自動的にクロールするプログラムであり、データを収集、分析、保存するために広く使用されています。一般的に使用されるサーバー側のスクリプト言語として、PHPにはクローラーを書くことの強力な機能があります。この記事では、PHPを使用してクローラーを書くための詳細な特定の方法について説明します。

PHPクローラーの基本原則

リクエストページ

PHPクローラーは、最初にHTTPリクエストを送信してWebページソースコードを取得する必要があります。一般的な方法には、Curl Libraryまたはfile_get_Contents関数などの使用が含まれます。

 $url = "https://example.com";
$html = file_get_contents($url);

この例では、file_get_contents関数を使用して、WebページのHTMLソースコードを取得します。

ページを分析します

Webページのコンテンツを取得した後、次のステップは、HTMLページを解析し、そこから必要なデータを抽出することです。 PHPはさまざまな解析方法を提供します。最も一般的に使用される方法には、正規表現とDOMパーサーが含まれます。 DOMパーサーは、DOMツリーを操作することで非常に効率的であり、ほとんどの場合に適しています。

 $dom = new DOMDocument();
$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$elements = $xpath->query("//h1");
foreach ($elements as $element) {
    echo $element->textContent;
}

この例では、Dom Parserを使用してHTMLをロードし、すべてを選択します

要素。

データの処理

データが正常に抽出されたら、必要に応じてさらに処理できます。 PHPは、クリーニング、データの分析、さらには計算やフィルターの実行に役立つ強力な文字列および配列処理機能を提供します。

 foreach ($elements as $element) {
    $temperature = (float)$element->textContent;
    if ($temperature > 10) {
        echo "$temperature";
    }
}

この例では、温度を浮遊値に変換し、10を超えるかどうかを決定します。条件が満たされた場合、処理します。

例：rawう気象データ

要件を分析します

私たちの目標は、気象ウェブサイトから毎日の最大気温を取得し、10度を超える温度の日数を除外することです。

クローラープログラムを書く

まず、ターゲットWebサイトのURLを特定し、ページにデータを含むHTML要素を見つける必要があります。

 $url = "https://example.com/weather";
$html = file_get_contents($url);
$dom = new DOMDocument();
$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$elements = $xpath->query("//div[@class='temperature']");
foreach ($elements as $element) {
    $temperature = (float)$element->textContent;
    if ($temperature > 10) {
        echo "$temperature";
    }
}

この例では、最初に指定されたWeather WebページからHTMLコンテンツを取得し、Dom ParserとXPathを使用して温度データを取得し、フィルタリングします。

要約します

この記事では、HTTP要求を送信する方法、ページコンテンツを解析する方法、データの処理と分析方法など、PHPを使用してCrawlerを作成するプロセス全体を詳しく説明しています。例を通じて、天気データを取得し、結果を処理する方法を示します。この記事が、PHPクローラーの開発技術を詳細に理解し、実際のプロジェクトにスムーズに適用するのに役立つことを願っています。