Master Master PHP Crawler Development: l'ensemble du processus d'analyse des demandes HTTP à l'analyse de données

gitbox 2025-06-24

1. Introduction aux robots

Crawler est un programme automatisé conçu pour collecter des informations sur Internet. Il simule le comportement du navigateur, accède aux pages Web et extrait les données cibles. En tant que puissant langage de script côté serveur, PHP peut également être utilisé pour rédiger des programmes de robottes efficaces.

2. Étapes pour mettre en œuvre des robots en php

2.1. Envoyer la demande HTTP

La première étape pour Crawlers est d'obtenir le contenu de la page Web de destination via les demandes HTTP. PHP fournit une variété de méthodes pour envoyer des demandes HTTP, la fonction la plus simple et la plus couramment utilisée est la fonction file_get_contents () .

 
$url = "http://example.com";
$html = file_get_contents($url);

Utilisez la fonction file_get_contents () pour obtenir directement le code source HTML de la page Web et le stocker dans la variable $ html .

2.2. Analyser HTML

Après avoir obtenu le code source de la page Web, le HTML doit être analysé pour extraire les informations requises. La classe DomDocument intégrée de PHP est idéale pour gérer les documents XML et HTML.

 
$dom = new DOMDocument();
@$dom->loadHTML($html);

Ici, la méthode LoadHTML () est utilisée pour convertir la chaîne HTML en un objet DOM pour faciliter les opérations de données ultérieures. Faites attention à l'ajout de @ pour éviter les messages d'avertissement pendant l'analyse HTML.

2.3. Extraire des données à l'aide de XPATH

XPath est un langage de requête utilisé pour localiser les nœuds dans des documents XML et HTML. Combiné avec la classe DOMXPATH , vous pouvez facilement localiser et extraire des éléments cibles dans une page Web.

 
$xpath = new DOMXPath($dom);
$elements = $xpath->query("//h1");
foreach ($elements as $element) {
  echo $element->nodeValue;
}

Le code ci-dessus est positionné par l'expression XPATH "// h1"

Tags et sorties leur contenu de texte un par un.

3. Exemple de chenille: Crawl Titre de la page Web

3.1. Implémentation de code

 
$url = "http://example.com";
$html = file_get_contents($url);
$dom = new DOMDocument();
@$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$elements = $xpath->query("//title");
if ($elements->length > 0) {
  $title = $elements->item(0)->nodeValue;
  echo $title;
} else {
  echo "No title found";
}

Ce code demande d'abord le code source de la page Web, puis analyse le HTML et le localise enfin via XPATH TAG, Sortir le titre de la page Web. </p> <h3> 3.2. Résultat en cours </h3> <p> Si le titre de la page Web de destination est "Exemple de site Web", l'exécution du code ci-dessus publiera le texte du titre. </p> <h3> 4. Résumé </h3> <p> Utilisez PHP pour permettre aux robots d'obtenir facilement des données de page Web. Cet article présente les étapes de base de l'envoi de demandes HTTP, de l'analyse de HTML et de l'utilisation de XPath pour extraire des informations, et montre l'implémentation spécifique à travers des exemples. Après avoir maîtrisé ces contenus, vous pouvez développer et personnaliser les fonctions en fonction de vos besoins pour atteindre des tâches rampantes plus complexes. </p> </div> </div>  </div> <div class="right_box "> <div class="b_box"> <div class="widget_box"> <ul class="yyfl_box"> <li><a href="/fr/php/file_get_contents.html">file_get_contents</a><i class="iconfont icon-AIGC-81"></i></li> </ul> </div> </div> <div class="b_box"> <div class="title_text"><i class="iconfont icon-wenzhangguanli"></i>Connexe</div> <ul class="img_text_template lr"> <li> <span class="img_item"> <img src="/files/images/20250624/202506241358149162.jpg" alt="Dix minutes pour en savoir plus sur le processus de mise en œuvre des robots en php"> </span> <div class="content"> <a href="/fr/20d45ce17bac24e89.html" class="desc link_a"> Dix minutes pour en savoir plus sur le processus de mise en œuvre des robots en php </a> </div> </li> </ul> </div> <div class="b_box"> <div class="title_text"><i class="iconfont icon-wenzhangguanli"></i>Derniers articles</div> <ul class="img_text_template lr"> <li> <span class="img_item"> <img src="/files/images/20250624/202506241359495211.jpg" alt="Le statut de développement PHP de Bat et les perspectives d'avenir"> </span> <div class="content"> <a href="/fr/1e200dd2f9b60e134.html" class="desc link_a"> Le statut de développement PHP de Bat et les perspectives d'avenir </a> </div> </li> <li> <span class="img_item"> <img src="/files/images/20250624/202506241340509954.jpg" alt="Guide de désinstallation PHP pour Linux"> </span> <div class="content"> <a href="/fr/707f6d7265e4fe695.html" class="desc link_a"> Guide de désinstallation PHP pour Linux </a> </div> </li> <li> <span class="img_item"> <img src="/files/images/20250624/202506241401171317.jpg" alt="JavaScript appelle la méthode d'analyse PHP"> </span> <div class="content"> <a href="/fr/aa0f55b22fe5faa46.html" class="desc link_a"> JavaScript appelle la méthode d'analyse PHP </a> </div> </li> <li> <span class="img_item"> <img src="/files/images/20250624/202506241325299233.jpg" alt="Trois raisons et solutions pour la non-existence des classes dans ThinkPhp"> </span> <div class="content"> <a href="/fr/8349bddbdf770bf66.html" class="desc link_a"> Trois raisons et solutions pour la non-existence des classes dans ThinkPhp </a> </div> </li> <li> <span class="img_item"> <img src="/files/images/20250624/202506241304252735.jpg" alt="Comment utiliser PHP pour implémenter la fonction de mise en cache des pages du système CMS"> </span> <div class="content"> <a href="/fr/4be7361094d046d80.html" class="desc link_a"> Comment utiliser PHP pour implémenter la fonction de mise en cache des pages du système CMS </a> </div> </li> <li> <span class="img_item"> <img src="/files/images/20250624/202506241410375081.jpg" alt="Comment optimiser votre code pour être compatible avec PHP7.4 et améliorer les performances"> </span> <div class="content"> <a href="/fr/c2fc7828eb6eb1b17.html" class="desc link_a"> Comment optimiser votre code pour être compatible avec PHP7.4 et améliorer les performances </a> </div> </li> <li> <span class="img_item"> <img src="/files/images/20250624/202506241412056408.jpg" alt="ATOM Editor PHP Code Checker Tool"> </span> <div class="content"> <a href="/fr/59ee4e4d0feb88e86.html" class="desc link_a"> ATOM Editor PHP Code Checker Tool </a> </div> </li> <li> <span class="img_item"> <img src="/files/images/20250624/202506241156381382.jpg" alt="Solutions FusionCharts pour les problèmes brouillés en PHP"> </span> <div class="content"> <a href="/fr/f2750d479e9db9315.html" class="desc link_a"> Solutions FusionCharts pour les problèmes brouillés en PHP </a> </div> </li> <li> <span class="img_item"> <img src="/files/images/20250624/202506241413526819.jpg" alt="Comment les règles de l'organisation du code dans les cadres PHP favorisent-elles la clarté?"> </span> <div class="content"> <a href="/fr/902828dcde1b6aa74.html" class="desc link_a"> Comment les règles de l'organisation du code dans les cadres PHP favorisent-elles la clarté? </a> </div> </li> <li> <span class="img_item"> <img src="/files/images/20250624/202506241141235370.jpg" alt="PHP moyen simple d'obtenir des photos d'aperçu vidéo"> </span> <div class="content"> <a href="/fr/a3ffe588064106095.html" class="desc link_a"> PHP moyen simple d'obtenir des photos d'aperçu vidéo </a> </div> </li> </ul> </div> </div> </div> </section> <footer class="footer_template"> <div class="w12_box"> <div class="desc"> <div class="f_log"> <a href=""><img src="/images/logo.png" alt="gitbox.net"></a> </div> <div class="content">Astuces pratiques et usages des fonctions des principaux langages de programmation pour maîtriser les compétences clés et relever les défis du développement. </div> <div class="info">Répertoire pour apprendre le code - gitbox.net</div> </div> <dl> <dd> <h3></h3> </dd> <dd> <h3></h3> </dd> </dl> </div> <div class="other"> <p></p> </div> </footer> </body> <script src="/js/jquery.js" type="text/javascript" charset="utf-8"></script> <script src="/js/lazy.js" type="text/javascript" charset="utf-8"></script> <script src="/js/swiper.min.js" type="text/javascript" charset="utf-8"></script> <script src="/js/viewer.js" type="text/javascript" charset="utf-8"></script> <script src="/js/index.js" type="text/javascript" charset="utf-8"></script> <script> commonMethod.wz(); function ctrVideo(str){ console.log(str); $(".ytp-play-button").each(function(){ let status = $(this).attr("data-title-no-tooltip"); if(status === "Pause" && status!=str){ console.log("Pause"); $(this).trigger("click"); } }) } window.addEventListener('popstate', function() { ctrVideo(""); }); $(".left_box").on("click",".ytp-large-play-button",function(){ console.log("midddle button") let status = $(".ytp-play-button").attr("data-title-no-tooltip"); ctrVideo(status); }) $(".content_template").on("click",".ytp-play-button",function(){ console.log("play button") let status = $(this).attr("data-title-no-tooltip"); ctrVideo(status); }) </script> </html>