効率的なウェブサイトのチュートリアルPHPSPiderと組み合わせたPHPでクロールするターゲットデータをターゲットにしたデータ

gitbox 2025-06-27

導入

PHPSPiderは、ネットワーク上の情報をすばやくキャプチャし、簡単なルールを記述してローカルデータベースに保存する軽量で実用的なPHP Crawlerフレームワークです。特定の形式のデータをターゲットにする必要がある開発者に適しているため、クローラーの開発プロセスを大幅に簡素化できます。

phpspiderをインストールします

PHPSPiderを使用する前に、最初にフレームワークをインストールする必要があります。 Phpspiderは作曲家を使用して依存関係を管理するため、環境に作曲家がインストールされていることを確認してください。

 composer create-project phpspider/phpspider

インストールが完了したら、テストスクリプトを実行することでフレームワークのインストールが成功するかどうかを確認できます。

 cd phpspider
php tests/simple_test.php

クロールウェブサイトのデータ

PHPSPiderは、Webページデータの無制限のクロールをサポートしています。以下は、簡単なWebサイトからデータをクロールする方法を示しています。

プロジェクトを作成します

まず、新しいプロジェクトを作成する必要があります。次のコマンドを実行すると、phpspiderは対応するプロジェクトフォルダーを自動的に生成します。

 php phpspider startproject myproject

クロールルールを書いてください

プロジェクトが作成された後、クロールルールを定義し、PHPSPiderにターゲットWebサイトのデータを抽出する方法を伝える必要があります。 MyProject/Rulesディレクトリを入力し、新しいRule.phpを作成します。コンテンツの例は次のとおりです。

 return [
    'start_urls' => [
        'http://www.example.com'
    ],
    'rules' => [
        [
            'type' => 'regex',
            'pattern' => '/(<a.*?>(.*?)<\/a><\/div>)/',
            'id' => 1,
            'fields' => [
                [
                    'name' => 'title',
                    'selector' => 'text()',
                ],
                [
                    'name' => 'link',
                    'selector' => '@href',
                ]
            ],
        ]
    ],
];
?>

ランニングクローラー

ルールを構成した後、PHPSPiderを実行してデータをクロールすることができます。

 php phpspider run myproject

要約します

この記事を通して、インストールからプロジェクトの作成まで、PHPSPiderの基本的な使用方法を習得したことを習得したと思います。シンプルで効率的なPHPクローラーフレームワークとして、PHPSPiderはターゲットを絞ったクローラープロジェクトを迅速に構築するのに非常に適しており、必要なネットワークデータを簡単に取得できます。