Back to Question Center
0

Semaltikoa: 3 urrats PHP Web orria Scraping

1 answers:

Web scraping, web datuak erauzteko edo web bilketa ere deitzen zaio. Webgune edo blog batetik ateratako datuak ateratzeko prozesua. Informazio hori meta-etiketak, meta deskribapenak, gako-hitzak eta guneetarako estekak zehazteko erabiltzen da. Horrela, bilaketaren emaitzen emaitza orokorra hobetzen da.

Bi teknika nagusiak datuak biltzeko erabiltzen dira:

  • Dokumentu analisia - DOM (Dokumentu Objektu Eredua) XML edo HTML dokumentu bat dakar. ) fitxategiak. PHP-k DOM luzapen handia eskaintzen digu.
  • Esamolde erregularrak - Web dokumentuen datuak scraping modu erregular adierazpen moduan da.

Hirugarrenen webgunearen scraping datuekin zerikusia duen gaia bere copyrightarekin dago lotuta, datu horiek erabiltzeko baimenik ez duzulako. PHP-rekin, erraz graba ditzakezu datuak copyrightak edo kalitate baxua duten arazoak izan gabe. PHP programatzaile gisa, datu desberdinetatik datuen beharra kodetu ahal izango duzu. Hemen azaldu dugu beste guneetatik datuak era eraginkorrean nola lortu ahal izateko, baina aurretik, kontuan izan behar duzu azkenean index.php edo scrape.js fitxategiak lortuko dituzula.

Urratsak 1: Inprimakia sortu Webgunearen URLa idazteko:

Lehenik eta behin, formularioa index.php-n sortu beharko zenuke Bidali botoian klik eginez eta sartu webgunearen URLa datuak mozteko.



Idatzi webgunearen URLra Scrape Data

(44 )



Steps2: Sortu PHP funtzioa Webgunearen datuak lortzeko:

Bigarren urratsa da sortu PHP funtzioak scrape.php fitxategian biltzen du, datuak lortzeko eta URL liburutegia erabiltzeko. Gainera, zerbitzari eta protokolo desberdinekin konektatu eta komunikatu ahal izango duzu arazorik gabe..

funtzioak scrapeSiteData ($ website_url) {

if (! Function_exists ('curl_init')) {

die ('cURL ez dago instalatuta. Mesedez instalatu eta saiatu berriro. ');

}

$ curl = curl_init

;

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, true);

$ output = curl_exec ($ curl);

curl_close ($ curl);

itzulera $ irteera;

}

Hemen ikus dezakegu PHP cURL ondo instalatuta edo ez. Hiru funtzio nagusitan CURL funtzionalak erabili behar dira eta curl_init

saioak hasiko dira, curl_exec

exekutatuko da eta curl_close

konexioa itxi egingo da. CURLOPT_URL bezalako aldagaiak laburtu behar ditugun webguneen URLak ezartzeko erabiltzen dira. Bigarren CURLOPT_RETURNTRANSFERek orri scrapedak inprimaki aldakorrean gordeko ditu, lehenetsitako inprimakia baino ez baitu egingo, web orri osoa bistaratuko duena.

3. pausoak: Laburtu webguneko datu zehatzak:

Zure PHP fitxategiaren funtzionalitateak kudeatzeko garaia da eta zure webguneko atal espezifikoa laburtu. URL zehatz bateko datu guztiak nahi ez badituzu, editatu behar dituzu CURLOPT_RETURNTRANSFER aldagaiak eta nabarmendu nahi dituzun atalak.

if (isset ($ _ POST ['submit']) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Azken mezuak');

$ end_point = strpos ($ html, '', $ start_point);

$ length = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, $ length);

echo $ html;

}

PHPen eta Erregulartasun Adierazpenen oinarrizko ezagutzak garatzea gomendatzen dizugu, kode horietako edozein erabili aurretik edo blog edo webgunea bereziki pertsonalizatzeko.

5 days ago
Semaltikoa: 3 urrats PHP Web orria Scraping
Reply