使用PHP高效爬取天猫与淘宝商品数据的实战教程

gitbox 2025-07-31

简介

随着电子商务的快速发展，网购已成为人们生活中不可或缺的一部分。天猫和淘宝作为中国最大的电商平台，拥有丰富的商品信息资源。本文将分享如何通过PHP实现对天猫和淘宝商品数据的爬取，帮助你轻松获取商品详情。

准备工作

安装依赖库

开始之前，需要安装两个关键的PHP库来辅助爬虫开发。首先是Guzzle，它是一个强大的HTTP客户端，用于发送网络请求。通过Composer安装：

composer require guzzlehttp/guzzle

其次，安装DiDom库，用于解析HTML文档，方便提取页面中所需的信息：

composer require imangazaliev/didom

获取Cookie

由于天猫和淘宝部分商品数据需要登录后才能访问，因此必须先获取有效的登录Cookie。登录账户后，可以通过浏览器开发者工具复制Cookie信息，以模拟登录状态进行请求。

爬取商品数据

发送HTTP请求

使用Guzzle向商品详情页发送请求，获取页面HTML源代码。请求时设置User-Agent和Cookie头，以模拟浏览器环境并保持登录状态：

use GuzzleHttp\Client;
$client = new Client();
$response = $client->get('https://detail.tmall.com/item.htm?id=123456789', [
    'headers' => [
        'User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36',
        'Cookie' => 'your_cookie_value_here',
    ],
]);
$html = $response->getBody()->getContents();

将URL替换为目标商品的详情页链接，确保请求正常返回页面内容。

解析HTML源代码

获取HTML后，利用DiDom解析文档，提取商品的关键数据，如标题、价格、图片链接和商品描述：

use DiDom\Document;
$document = new Document($html);
// 获取商品标题
$title = $document->find('.tb-detail-hd h1')[0]->text();
// 获取商品价格
$price = $document->find('.tm-price')[0]->text();
// 获取商品图片链接
$imageUrl = $document->find('.tm-goldbox img')[0]->attr('src');
// 获取商品描述
$description = $document->find('.tb-detail-content')[0]->text();

以上CSS选择器可根据实际页面结构调整，以准确定位所需元素。

总结

结合PHP、Guzzle和DiDom，可以实现对天猫和淘宝商品数据的高效爬取。通过模拟请求和解析页面内容，轻松获取商品的标题、价格、图片和描述信息。这种方法适用于市场分析和竞争情报收集，具备很高的实用价值。

希望本文内容能帮助你快速上手电商数据抓取，提升数据处理效率。