Mit der raschen Entwicklung des E-Commerce ist Online-Shopping zu einem unverzichtbaren Bestandteil des Lebens der Menschen geworden. Als größte E-Commerce-Plattform Chinas haben Tmall und Taobao reichhaltige Produktinformationsressourcen. In diesem Artikel werden die Produktdaten von Tmall und Taobao durch PHP kriechen, um problemlos Produktdetails zu erhalten.
Bevor Sie beginnen, müssen Sie zwei wichtige PHP -Bibliotheken installieren, um die Crawler -Entwicklung zu unterstützen. Erstens ist Guzzle, ein leistungsstarker HTTP -Client für das Senden von Netzwerkanforderungen. Installieren Sie über Komponist:
composer require guzzlehttp/guzzle
Installieren Sie die DIDOM -Bibliothek zweitens, um HTML -Dokumente zu analysieren, um die Extraktion der erforderlichen Informationen auf der Seite zu erleichtern:
composer require imangazaliev/didom
Da einige Produktdaten von Tmall und Taobao vor dem Zugriff angemeldet werden müssen, müssen Sie zunächst einen gültigen Anmeldekeks erhalten. Nachdem Sie sich im Konto angemeldet haben, können Sie Cookie -Informationen über das Browser -Entwickler -Tool kopieren, um den Anmeldestatus so zu simulieren, dass Anforderungen erstellt werden.
Verwenden Sie Guzzle, um eine Anforderung an die Produktdetail -Seite zu senden, um den HTML -Quellcode der Seite zu erhalten. Setzen Sie Benutzer-Agent- und Cookie-Header, wenn Sie die Browserumgebung simulieren und angemeldet bleiben:
use GuzzleHttp\Client;
$client = new Client();
$response = $client->get('https://detail.tmall.com/item.htm?id=123456789', [
'headers' => [
'User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36',
'Cookie' => 'your_cookie_value_here',
],
]);
$html = $response->getBody()->getContents();
Ersetzen Sie die URL durch den Link zur Detailseite des Zielprodukts, um sicherzustellen, dass die Anforderung normal zum Seiteninhalt zurückkehrt.
Verwenden Sie nach dem Erhalten von HTML DIDOM, um das Dokument analysieren und Schlüsseldaten des Produkts extrahieren, z. B. Titel, Preis, Bildverbindung und Produktbeschreibung:
use DiDom\Document;
$document = new Document($html);
// Holen Sie sich Produkttitel
$title = $document->find('.tb-detail-hd h1')[0]->text();
// Holen Sie sich den Preis des Produkts
$price = $document->find('.tm-price')[0]->text();
// Produktbildlink abrufen
$imageUrl = $document->find('.tm-goldbox img')[0]->attr('src');
// Produktbeschreibung erhalten
$description = $document->find('.tb-detail-content')[0]->text();
Der obige CSS -Selektor kann gemäß der tatsächlichen Seitenstruktur eingestellt werden, um die erforderlichen Elemente genau zu lokalisieren.
In Kombination mit PHP, Guzzle und Didom können effiziente Kriechen von Produktdaten von Tmall und Taobao erreicht werden. Erzählen Sie einfach Informationen zur Produkttitel, Preis, Bild und Beschreibung, indem Sie Anfragen und Parsen -Seiteninhalte simulieren. Diese Methode eignet sich für die Marktanalyse und die Sammlung wettbewerbsfähiger Intelligenz und hat einen hohen praktischen Wert.
Ich hoffe, dieser Artikelinhalt kann Ihnen dabei helfen, schnell mit E-Commerce-Daten zu beginnen und die Datenverarbeitungseffizienz zu verbessern.