Tutoriel pratique sur l'extraction efficace des informations sur la page Web à l'aide de PHP et PHPSPider

gitbox 2025-06-15

Comment extraire les informations requises d'une page Web à l'aide de PHP et PHPSPider?

Avec le développement d'Internet, la quantité d'informations sur les pages Web a fortement augmenté. Comment capturer efficacement et avec précision les données requises est devenue un défi clé pour les développeurs. En tant que langue de développement Web populaire, PHP offre une grande commodité à l'extraction des données avec le puissant cadre de robotage PhPSPider.

Cet article introduira étape par étape comment construire rapidement des robots et extraire le contenu Web d'atterrissage avec PHP et PHPSPider.

1. Installer PhPSPider

Tout d'abord, vous devez installer PHPSPider, qui est un framework de robotter haute performance basé sur PHP. Exécuter via l'outil de compositeur:

 <span class="fun">Le compositeur nécessite un Spider / PHPSPider</span>

2. Écrivez le code de chenilles

Créez le fichier spider.php et introduisez PHPSPider pour charger automatiquement le fichier:

 <?php
require 'vendor/autoload.php';
<p>use phpspider\core\phpspider;</p>
<p>// Créer un objet Crawler<br>
$spider = new phpspider();</p>
<p>// Démarrage du réglageURL<br>
$spider->add_start_url('<a rel="noopener" target="_new" class="" href="http://www.example.com">http://www.example.com</a>');</p>
<p>// Définissez la fonction de rappel pour extraire la page<br>
$spider->on_extract_page = function($page, $data) {<br>
// Écrivez la logique d&#39;extraction ici<br>
return $data;<br>
};</p>
<p>// Commencer le robot<br>
$spider->start();<br>

Le code ci-dessus initialise le Crawler, spécifie l'adresse de départ et définit un rappel de traitement pour l'extraction de données de page.

3. Positionner et extraire les informations requises

Dans la fonction de rappel, l'élément cible est positionné en utilisant un sélecteur d'expression régulière, XPATH ou CSS. L'exemple est le suivant, extrait le titre de la page et le texte du corps:

 $spider->on_extract_page = function($page, $data) {
    // Obtenez le titre
    $title = $page['raw']['headers']['title'][0];
    // Obtenez le contenu du texte
    $content = $page['raw']['content'];
$data['title'] = $title;
$data['content'] = strip_tags($content);

return $data;

};

4. Enregistrer les résultats de l'extrait

Enregistrez les données rampantes dans un fichier local pour un traitement ultérieur facile:

 $spider->on_extract_page = function($page, $data) {
    $title = $page['raw']['headers']['title'][0];
    $content = $page['raw']['content'];
$data['content'] = strip_tags($content);

// Ajouter au fichier texte
file_put_contents('extracted_data.txt', var_export($data, true), FILE_APPEND);

return $data;

};

5. Courir de coureurs

Après enregistrer le code, exécutez-le sur la ligne de commande:

 <span class="fun">php spider.php</span>

Le Crawler commencera automatiquement à ramper les données et à extraire des informations selon les règles pour les enregistrer.

Résumer

Grâce à PHP, combiné avec le cadre PHPSPider, des robots Web puissants peuvent être rapidement construits et l'extraction automatisée de données peut être réalisée. L'exemple de cet article couvre les processus principaux de l'installation, de l'écriture de code, de l'extraction des données et de la préservation des résultats, qui facilite les développeurs pour commencer rapidement. Des fonctionnalités plus avancées peuvent être configurées de manière flexible en fonction des exigences du projet pour améliorer l'efficacité et la qualité des données.

Connexe

PHP implémente le filtrage et le traitement de vérification personnalisés de l'interface baidu wenxin yiyan

Derniers articles