Avec le développement d'Internet, la quantité d'informations sur les pages Web a fortement augmenté. Comment capturer efficacement et avec précision les données requises est devenue un défi clé pour les développeurs. En tant que langue de développement Web populaire, PHP offre une grande commodité à l'extraction des données avec le puissant cadre de robotage PhPSPider.
Cet article introduira étape par étape comment construire rapidement des robots et extraire le contenu Web d'atterrissage avec PHP et PHPSPider.
Tout d'abord, vous devez installer PHPSPider, qui est un framework de robotter haute performance basé sur PHP. Exécuter via l'outil de compositeur:
<span class="fun">Le compositeur nécessite un Spider / PHPSPider</span>
Créez le fichier spider.php et introduisez PHPSPider pour charger automatiquement le fichier:
<?php
require 'vendor/autoload.php';
<p>use phpspider\core\phpspider;</p>
<p>// Créer un objet Crawler<br>
$spider = new phpspider();</p>
<p>// Démarrage du réglageURL<br>
$spider->add_start_url('<a rel="noopener" target="_new" class="" href="http://www.example.com">http://www.example.com</a>');</p>
<p>// Définissez la fonction de rappel pour extraire la page<br>
$spider->on_extract_page = function($page, $data) {<br>
// Écrivez la logique d'extraction ici<br>
return $data;<br>
};</p>
<p>// Commencer le robot<br>
$spider->start();<br>
Le code ci-dessus initialise le Crawler, spécifie l'adresse de départ et définit un rappel de traitement pour l'extraction de données de page.
Dans la fonction de rappel, l'élément cible est positionné en utilisant un sélecteur d'expression régulière, XPATH ou CSS. L'exemple est le suivant, extrait le titre de la page et le texte du corps:
$spider->on_extract_page = function($page, $data) {
// Obtenez le titre
$title = $page['raw']['headers']['title'][0];
// Obtenez le contenu du texte
$content = $page['raw']['content'];
$data['title'] = $title;
$data['content'] = strip_tags($content);
return $data;
};
Enregistrez les données rampantes dans un fichier local pour un traitement ultérieur facile:
$spider->on_extract_page = function($page, $data) {
$title = $page['raw']['headers']['title'][0];
$content = $page['raw']['content'];
$data['content'] = strip_tags($content);
// Ajouter au fichier texte
file_put_contents('extracted_data.txt', var_export($data, true), FILE_APPEND);
return $data;
};
Après enregistrer le code, exécutez-le sur la ligne de commande:
<span class="fun">php spider.php</span>
Le Crawler commencera automatiquement à ramper les données et à extraire des informations selon les règles pour les enregistrer.
Grâce à PHP, combiné avec le cadre PHPSPider, des robots Web puissants peuvent être rapidement construits et l'extraction automatisée de données peut être réalisée. L'exemple de cet article couvre les processus principaux de l'installation, de l'écriture de code, de l'extraction des données et de la préservation des résultats, qui facilite les développeurs pour commencer rapidement. Des fonctionnalités plus avancées peuvent être configurées de manière flexible en fonction des exigences du projet pour améliorer l'efficacité et la qualité des données.