現在の位置: ホーム> 最新記事一覧> PHPを使用したTmallおよびTaobaoの製品データを効率的にクロールする実用的なチュートリアル

PHPを使用したTmallおよびTaobaoの製品データを効率的にクロールする実用的なチュートリアル

gitbox 2025-07-31

導入

電子商取引の急速な発展に伴い、オンラインショッピングは人々の生活の不可欠な部分になりました。中国最大の電子商取引プラットフォームとして、TmallとTaobaoには豊富な製品情報リソースがあります。この記事では、PHPを介してTmallおよびTaobaoの製品データをクロールする方法を共有し、製品の詳細を簡単に取得するのに役立ちます。

準備

依存関係ライブラリをインストールします

開始する前に、クローラーの開発を支援するために2つの重要なPHPライブラリをインストールする必要があります。最初はGuzzleです。これは、ネットワークリクエストを送信するための強力なHTTPクライアントです。 Composer経由でインストールします。

 composer require guzzlehttp/guzzle

第二に、DIDOMライブラリをインストールしてHTMLドキュメントを解析して、ページ内の必要な情報の抽出を容易にします。

 composer require imangazaliev/didom

クッキーを入手してください

TmallとTaobaoの一部の製品データをアクセスする前にログインする必要があるため、最初に有効なログインCookieを取得する必要があります。アカウントにログインした後、ブラウザ開発者ツールを介してCookie情報をコピーして、ログインステータスをシミュレートしてリクエストを行うことができます。

製品データをクロールします

HTTPリクエストを送信します

Guzzleを使用して、Productの詳細ページにリクエストを送信して、ページのHTMLソースコードを取得します。ブラウザ環境をシミュレートし、ログインし続けるようにリクエストするときにユーザーエージェントとCookieヘッダーを設定します。

 use GuzzleHttp\Client;
$client = new Client();
$response = $client->get('https://detail.tmall.com/item.htm?id=123456789', [
    'headers' => [
        'User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36',
        'Cookie' => 'your_cookie_value_here',
    ],
]);
$html = $response->getBody()->getContents();

ターゲット製品の詳細ページへのリンクにURLを置き換えて、リクエストがページコンテンツに正常に返されるようにします。

HTMLソースコードの解析

HTMLを取得した後、Didomを使用してドキュメントを解析し、タイトル、価格、画像リンク、製品の説明など、製品の重要なデータを抽出します。

 use DiDom\Document;
$document = new Document($html);
// 製品タイトルを取得します
$title = $document->find('.tb-detail-hd h1')[0]->text();
// 製品の価格を取得します
$price = $document->find('.tm-price')[0]->text();
// 製品画像リンクを取得します
$imageUrl = $document->find('.tm-goldbox img')[0]->attr('src');
// 製品の説明を取得します
$description = $document->find('.tb-detail-content')[0]->text();

上記のCSSセレクターは、実際のページ構造に従って調整して、必要な要素を正確に見つけることができます。

要約します

PHP、Guzzle、Didomと組み合わせて、TmallとTaobaoの製品データの効率的なクローリングを実現できます。リクエストをシミュレートし、ページコンテンツを解析することにより、製品のタイトル、価格、画像、説明情報を簡単に取得できます。この方法は、市場分析と競争力のあるインテリジェンスコレクションに適しており、実用的な価値が高いです。

この記事のコンテンツが、eコマースデータをrawってデータ処理効率を向上させることをすぐに始めるのに役立つことを願っています。