快速掌握PHP爬蟲開發：從HTTP請求到數據解析全流程解析

gitbox 2025-06-24

1. 爬蟲介紹

爬蟲是一種自動化程序，專門用於從互聯網收集信息。它通過模擬瀏覽器行為，訪問網頁並提取目標數據。 PHP作為一款功能強大的服務器端腳本語言，也可以用來編寫高效的爬蟲程序。

2. PHP實現爬蟲的步驟

2.1. 發送HTTP請求

爬蟲的第一步是通過HTTP請求獲取目標網頁的內容。 PHP提供了多種發送HTTP請求的方法，其中最簡單常用的是file_get_contents()函數。

 
$url = "http://example.com";
$html = file_get_contents($url);

使用file_get_contents()函數可以直接獲取網頁的HTML源碼，並存儲在變量$html中。

2.2. 解析HTML

獲取網頁源碼後，接下來需要對HTML進行解析，以提取所需信息。 PHP內置的DOMDocument類非常適合處理XML和HTML文檔。

 
$dom = new DOMDocument();
@$dom->loadHTML($html);

這裡使用loadHTML()方法將HTML字符串轉換為DOM對象，方便後續數據操作。注意加上@避免HTML解析時的警告信息。

2.3. 使用XPath提取數據

XPath是一種查詢語言，用於在XML和HTML文檔中定位節點。結合DOMXPath類，可以方便地定位並提取網頁中的目標元素。

 
$xpath = new DOMXPath($dom);
$elements = $xpath->query("//h1");
foreach ($elements as $element) {
  echo $element->nodeValue;
}

以上代碼通過XPath表達式"//h1"定位所有

標籤，並逐個輸出其文本內容。

3. 爬蟲示例：抓取網頁標題

3.1. 代碼實現


$url = "http://example.com";
$html = file_get_contents($url);
$dom = new DOMDocument();
@$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$elements = $xpath->query("//title");
if ($elements->length > 0) {
  $title = $elements->item(0)->nodeValue;
  echo $title;
} else {
  echo "No title found";
}

這段代碼先請求網頁源碼，再解析HTML，最後通過XPath定位標籤，輸出網頁標題。 </p> <h3>3.2. 運行結果</h3> <p>假如目標網頁的標題是“Example Website”，運行上述代碼將輸出該標題文本。 </p> <h3>4. 總結</h3> <p>利用PHP實現爬蟲能夠輕鬆獲取網頁數據。本文介紹了發送HTTP請求、解析HTML及使用XPath提取信息的基礎步驟，並通過示例展示了具體實現。掌握這些內容後，你可以根據需求擴展和定制功能，實現更複雜的爬蟲任務。 </p> </div> </div>  </div> <div class="right_box "> <div class="b_box"> <div class="widget_box"> <ul class="yyfl_box"> <li><a href="/zh-tw/php/file_get_contents.html">file_get_contents</a><i class="iconfont icon-AIGC-81"></i></li> </ul> </div> </div> <div class="b_box"> <div class="title_text"><i class="iconfont icon-wenzhangguanli"></i>相關內容</div> <ul class="img_text_template lr"> <li> <span class="img_item"> <img src="/files/images/20250624/202506241358149162.jpg" alt="十分鐘帶你了解PHP實現爬蟲的過程"> </span> <div class="content"> <a href="/zh-tw/20d45ce17bac24e89.html" class="desc link_a"> 十分鐘帶你了解PHP實現爬蟲的過程 </a> </div> </li> </ul> </div> <div class="b_box"> <div class="title_text"><i class="iconfont icon-wenzhangguanli"></i>最新文章</div> <ul class="img_text_template lr"> <li> <span class="img_item"> <img src="/files/images/20250624/202506241359495211.jpg" alt="BAT公司的PHP開發現狀與未來展望"> </span> <div class="content"> <a href="/zh-tw/1e200dd2f9b60e134.html" class="desc link_a"> BAT公司的PHP開發現狀與未來展望 </a> </div> </li> <li> <span class="img_item"> <img src="/files/images/20250624/202506241340509954.jpg" alt="Linux 中PHP 卸載指南"> </span> <div class="content"> <a href="/zh-tw/707f6d7265e4fe695.html" class="desc link_a"> Linux 中PHP 卸載指南 </a> </div> </li> <li> <span class="img_item"> <img src="/files/images/20250624/202506241401171317.jpg" alt="JavaScript 調用PHP 解析方法"> </span> <div class="content"> <a href="/zh-tw/aa0f55b22fe5faa46.html" class="desc link_a"> JavaScript 調用PHP 解析方法 </a> </div> </li> <li> <span class="img_item"> <img src="/files/images/20250624/202506241325299233.jpg" alt="thinkphp中類不存在的三種原因和解決方法"> </span> <div class="content"> <a href="/zh-tw/8349bddbdf770bf66.html" class="desc link_a"> thinkphp中類不存在的三種原因和解決方法 </a> </div> </li> <li> <span class="img_item"> <img src="/files/images/20250624/202506241304252735.jpg" alt="如何用PHP實現CMS系統的頁面緩存功能"> </span> <div class="content"> <a href="/zh-tw/4be7361094d046d80.html" class="desc link_a"> 如何用PHP實現CMS系統的頁面緩存功能 </a> </div> </li> <li> <span class="img_item"> <img src="/files/images/20250624/202506241410375081.jpg" alt="如何優化你的代碼以兼容PHP7.4，並提高性能"> </span> <div class="content"> <a href="/zh-tw/c2fc7828eb6eb1b17.html" class="desc link_a"> 如何優化你的代碼以兼容PHP7.4，並提高性能 </a> </div> </li> <li> <span class="img_item"> <img src="/files/images/20250624/202506241156381382.jpg" alt="FusionCharts 在PHP 中出現亂碼問題解決方案"> </span> <div class="content"> <a href="/zh-tw/f2750d479e9db9315.html" class="desc link_a"> FusionCharts 在PHP 中出現亂碼問題解決方案 </a> </div> </li> <li> <span class="img_item"> <img src="/files/images/20250624/202506241412056408.jpg" alt="Atom 編輯器PHP 代碼檢查工具"> </span> <div class="content"> <a href="/zh-tw/59ee4e4d0feb88e86.html" class="desc link_a"> Atom 編輯器PHP 代碼檢查工具 </a> </div> </li> <li> <span class="img_item"> <img src="/files/images/20250624/202506241413526819.jpg" alt="PHP 框架中的代碼組織規則如何促進清晰度？"> </span> <div class="content"> <a href="/zh-tw/902828dcde1b6aa74.html" class="desc link_a"> PHP 框架中的代碼組織規則如何促進清晰度？ </a> </div> </li> <li> <span class="img_item"> <img src="/files/images/20250624/202506241141235370.jpg" alt="PHP簡單方式獲取視頻預覽圖"> </span> <div class="content"> <a href="/zh-tw/a3ffe588064106095.html" class="desc link_a"> PHP簡單方式獲取視頻預覽圖 </a> </div> </li> </ul> </div> </div> </div> </section> <footer class="footer_template"> <div class="w12_box"> <div class="desc"> <div class="f_log"> <a href=""><img src="/images/logo.png" alt="gitbox.net"></a> </div> <div class="content">匯聚主流程式語言函式用法與實戰技巧，助你高效掌握核心知識，輕鬆應對各種開發挑戰。 </div> <div class="info">學習程式是如此簡單 - gitbox.net</div> </div> <dl> <dd> <h3></h3> </dd> <dd> <h3></h3> </dd> </dl> </div> <div class="other"> <p></p> </div> </footer> </body> <script src="/js/jquery.js" type="text/javascript" charset="utf-8"></script> <script src="/js/lazy.js" type="text/javascript" charset="utf-8"></script> <script src="/js/swiper.min.js" type="text/javascript" charset="utf-8"></script> <script src="/js/viewer.js" type="text/javascript" charset="utf-8"></script> <script src="/js/index.js" type="text/javascript" charset="utf-8"></script> <script> commonMethod.wz(); function ctrVideo(str){ console.log(str); $(".ytp-play-button").each(function(){ let status = $(this).attr("data-title-no-tooltip"); if(status === "Pause" && status!=str){ console.log("Pause"); $(this).trigger("click"); } }) } window.addEventListener('popstate', function() { ctrVideo(""); }); $(".left_box").on("click",".ytp-large-play-button",function(){ console.log("midddle button") let status = $(".ytp-play-button").attr("data-title-no-tooltip"); ctrVideo(status); }) $(".content_template").on("click",".ytp-play-button",function(){ console.log("play button") let status = $(this).attr("data-title-no-tooltip"); ctrVideo(status); }) </script> </html>