Mit der Entwicklung des Internets hat sich die Anzahl der Webseiteninformationen stark gestiegen. Wie man die erforderlichen Daten effizient und genau erfasst hat, ist für Entwickler eine zentrale Herausforderung geworden. Als beliebte Webentwicklungssprache bietet PHP einen großen Komfort für die Datenextraktion mit dem leistungsstarken Phpspider -Crawler -Framework.
In diesem Artikel wird Schritt für Schritt eingeführt, wie Crawler schnell erstellt und Landing -Webinhalte mit PHP und PHPSPIDER extrahiert werden.
Zunächst müssen Sie PHPSPIDER installieren, ein Hochleistungs-Crawler-Framework, das auf PHP basiert. Führen Sie das Komponist -Tool durch:
<span class="fun">Der Komponist benötigt PHP-Spider/PhpSpider</span>
Erstellen Sie die Datei spider.php und stellen Sie PHPSPIDER vor, um die Datei automatisch zu laden:
<?php
require 'vendor/autoload.php';
<p>use phpspider\core\phpspider;</p>
<p>// Erstellen Sie ein Crawler -Objekt<br>
$spider = new phpspider();</p>
<p>// StarteinstellungURL<br>
$spider->add_start_url('<a rel="noopener" target="_new" class="" href="http://www.example.com">http://www.example.com</a>');</p>
<p>// Definieren Sie die Rückruffunktion zum Extrahieren der Seite<br>
$spider->on_extract_page = function($page, $data) {<br>
// Schreiben Sie die Extraktionslogik hier<br>
return $data;<br>
};</p>
<p>// Starten Sie Crawler<br>
$spider->start();<br>
Der obige Code initialisiert den Crawler, gibt die Startadresse an und legt einen Verarbeitungsrückruf für die Seitendatenextraktion fest.
In der Rückruffunktion wird das Zielelement mit einem regulären Ausdruck, XPath oder CSS -Selektor positioniert. Das Beispiel lautet wie folgt und extrahiert den Seitentitel und den Körpertext:
$spider->on_extract_page = function($page, $data) {
// Holen Sie sich den Titel
$title = $page['raw']['headers']['title'][0];
// Holen Sie sich den Inhalt des Textes
$content = $page['raw']['content'];
$data['title'] = $title;
$data['content'] = strip_tags($content);
return $data;
};
Speichern Sie die krabbelenden Daten in einer lokalen Datei, um eine einfache nachfolgende Verarbeitung zu erhalten:
$spider->on_extract_page = function($page, $data) {
$title = $page['raw']['headers']['title'][0];
$content = $page['raw']['content'];
$data['content'] = strip_tags($content);
// An die Textdatei anhängen
file_put_contents('extracted_data.txt', var_export($data, true), FILE_APPEND);
return $data;
};
Führen Sie nach dem Speichern des Codes ihn in der Befehlszeile aus:
<span class="fun">PHP spider.php</span>
Der Crawler beginnt automatisch mit der Krabbende von Daten und extrahiert Informationen gemäß den Regeln, um sie zu speichern.
Durch PHP in Kombination mit dem PHPSPider -Framework können leistungsstarke Webcrawler schnell erstellt und automatisierte Datenextraktion erreicht werden. Das Beispiel dieses Artikels deckt die Kernprozesse für Installation, Code schreiben, Datenextraktion und Ergebniskonservierung, die den Entwicklern erleichtert, schnell loszulegen. Fortgeschrittene Funktionen können entsprechend den Projektanforderungen flexibel konfiguriert werden, um die Kriechungseffizienz und die Datenqualität zu verbessern.