အင်တာနက်၏သတင်းအချက်အလက် volume ၏ပေါက်ကွဲမှုကြီးထွားမှုဖြင့်ဝဘ်စာမျက်နှာများမှပစ်မှတ်အချက်အလက်များကိုလျင်မြန်စွာဖမ်းယူနိုင်ပုံသည် developer များအပေါ်အာရုံစူးစိုက်မှုနှင့်ပိုမိုတိကျစွာဖမ်းယူနိုင်ပုံကိုပြုလုပ်နိုင်သည်။ ကျယ်ကျယ်ပြန့်ပြန့်အသုံးပြုသော backend ဖွံ့ဖြိုးတိုးတက်ရေးဘာသာစကားကို PHP သည် 0 က်ဘ်စာမျက်နှာဒေတာစုဆောင်းခြင်းလုပ်ငန်းစဉ်ကိုရိုးရှင်းအောင်ပြုလုပ်နိုင်ပြီး Phpspider Crawler Framework နှင့်စွမ်းဆောင်ရည်ကိုတိုးတက်စေနိုင်သည်။
ဤဆောင်းပါးသည် PPLSPIDER ကိုမည်သို့ install လုပ်ရမည်, crawler scripts ရေးသားခြင်းကိုရေးရန်နှင့်ဝက်ဘ်စာမျက်နှာများမှသော့ချက်အချက်အလက်များကိုရှာဖွေရန်နှင့်ထုတ်ယူရမည်ကိုပြသရန်ဥပမာသုံးပါ။
Phpspider သည် PHP အပေါ် အခြေခံ. ပွင့်လင်းသောအရင်းအမြစ်တွားမြင်နေသည့်မူဘောင်ဖြစ်ပြီးတပ်ဆင်ရန်အလွန်လွယ်ကူသည်။ composer မှတဆင့် command ကို execute လုပ်ပါ။
<span class="fun">တေးရေးဆရာ Php-Spider / Phpspider လိုအပ်ပါတယ်</span>
တပ်ဆင်ပြီးသည်နှင့် ပင့်ကူ 0 န် အမည်ရှိဖိုင်အမည်ရှိဖိုင်ကိုဖန်တီးပါ။ အလိုအလျောက်တင်ထားသောဖိုင်ကိုမိတ်ဆက်ပါ။
<?php
require 'vendor/autoload.php';
<p>use phpspider\core\phpspider;</p>
<p>// တစ် ဦး crawler အရာဝတ်ထုဖန်တီးပါ<br>
$spider = new phpspider();</p>
<p>// အဆိုပါတွား၏အစပြုပါURL<br>
$spider->add_start_url('<a rel="noopener" target="_new" class="" href="http://www.example.com">http://www.example.com</a>');</p>
<p>// စာမျက်နှာအကြောင်းအရာကိုထုတ်ယူသော callback function ကိုသတ်မှတ်ပါ<br>
$spider->on_extract_page = function ($page, $data) {<br>
// ဤနေရာတွင်ထုတ်ယူခြင်းယုတ္တိဗေဒကိုရေးပါ,ပုံမှန်ကိုသုံးပါ、XPathသို့မဟုတ်CSSSelector Data Data<br>
return $data;<br>
};</p>
<p>// တွားသွား<br>
$spider->start();<br>
callback function တွင်, ဝက်ဘ်စာမျက်နှာရှိခေါင်းစဉ်နှင့်ခန္ဓာကိုယ်ကိုလျင်မြန်စွာရှာဖွေရန် CSS Selector ကိုသုံးပါ။ ဥပမာ -
$spider->on_extract_page = function ($page, $data) {
$title = $page['raw']['headers']['title'][0];
$content = $page['raw']['content'];
$data['title'] = $title;
$data['content'] = strip_tags($content);
return $data;
};
ဤနေရာတွင်ဝက်ဘ်စာမျက်နှာ၏မူလအကြောင်းအရာများကို ရယူ. ခေါင်းစဉ်နှင့်စာသားစာသားကိုထုတ်ယူခြင်းဖြင့်အခြေခံဒေတာများရှိလိုအပ်ချက်များကိုရရှိနိုင်ပါသည်။
ထုတ်ယူထားသောအချက်အလက်များကိုဖိုင်တစ်ခုသို့မဟုတ်ဒေတာဘေ့စ်တစ်ခုသို့သိမ်းဆည်းနိုင်သည်။ ဥပမာဒေတာကိုစာသားဖိုင်သို့သိမ်းဆည်းပါ။
$spider->on_extract_page = function ($page, $data) {
$title = $page['raw']['headers']['title'][0];
$content = $page['raw']['content'];
$data['content'] = strip_tags($content);
// ဒေတာဖိုင်တွဲကိုဖြည့်ပါ
file_put_contents('extracted_data.txt', var_export($data, true), FILE_APPEND);
return $data;
};
ကုဒ်ရေးသားခြင်းကိုဖြည့်စွက်ပြီးတဲ့နောက်မှာ command line မှာ execute လုပ်ပါ။
<span class="fun">PHP Spider.php</span>
ပရိုဂရမ်သည် 0 က်ဘ်စာမျက်နှာအကြောင်းအရာကိုသတ်မှတ်ထားသော URL မှအလိုအလျောက်တွားသွားလိမ့်မည်။
PHP နှင့် PhPSPIDER ကို အသုံးပြု. developer များကကြီးမားသောဝက်ဘ်စာမျက်နှာဒေတာများကိုအလိုအလျောက်တွားရန်အားကောင်းသော webswlers များကိုလျင်မြန်စွာတည်ဆောက်နိုင်သည်။ ရိုးရှင်းသော code configuration ကိုမှတစ်ဆင့်ပစ်မှတ်ထားအချက်အလက်များကိုတိကျစွာနေရာချထားခြင်းနှင့်ထုတ်ယူခြင်းသည်အချက်အလက်ကောက်ယူခြင်းထိရောက်မှုကိုများစွာတိုးတက်အောင်ပြုလုပ်နိုင်သည်။ Phpspider သည်ပိုမိုအဆင့်မြင့်သောအင်္ဂါရပ်များကိုလည်းပိုမိုအဆင့်မြင့်သောအင်္ဂါရပ်များကိုလည်းထောက်ပံ့သည်။