Semalt: Den HTML Scraping Guide - Top Tipps

Webinhalt ass meeschtens a strukturéiert oder HTML Formater. All Säit ass op senger eenzegaarteger Manéier organiséiert, ofhängeg vun der Art vum Inhalt. Wann iergendeen Webinformatioun wëllt extrahéieren, ass et de Wonsch vun all Persoun d'Daten op eng strukturéiert a gutt organiséiert Manéier ze kréien. Dëst hëlleft beim Erspuerten vun der néideger Zäit fir Iwwerpréiwung, Analyse an Organisatioun vum Dokument ier Dir se deelt. Wéi och ëmmer, dat strukturéiert Format ze kréien ass net einfach well déi meescht Websäiten dës Optioun net ubidden fir ze verhënneren datt grouss Quantitéiten vun Daten extrahieren. E puer Site, awer déi APIen déi d'Leit mat Informatioun Extraktioun Optioun an engem séieren an einfachen Prozess liwweren.

An esou Evenementer hutt Dir keng aner Wiel wéi d'Hëllef vun enger Software Programméierung bekannt als Scraping ze benotzen. Et ass eng Approche déi Computerprogramm benotzt deen d'Benotzer hëlleft fir Informatiounen an engem nëtzlechen Format ze sammelen an d'Struktur vun den Daten ze bewahren.

Lxml an Ufro

Dëst ass eng breet gefächert Schrottbibliothéik déi hëlleft bei XML an HTML séier ze analyséieren an ze bewäerten an hëlleft Zäit ze spueren. Et ass och hëllefräich am Ëmgang mat messéierten Tags am Analyseprozess. An dëser Prozedur benotzt Dir Lxml Ufroen anstatt den inbuilt urllib2 well et ass méi séier, robust a liicht verfügbar. Et ass einfach ze installéieren andeems Dir pip installéiert Lxml a pip installéiert Ufroen.

Fir HTML Scraping follegt dës Schrëtt

Start vun Importer - hei importéiert Dir HTML vu Lxml, da Import Ufro. Benotzt Ufro an da späert d'Websäit déi Daten enthält déi Dir wëllt extrahéieren, analyséiert se mam HTML Modul a späichert dann d'parzéiert Donnéeën am Bam.

Dir musst de Säiteninhalt anstatt Text benotzen well HTML erwaart den Input an Bytes ze kréien. De Bam, wou Dir Är analyséiert Daten gespäichert huet, enthält elo den HTML Dokument an enger Bamstruktur. Dir kënnt iwwer d'Baumstruktur a verschiddene Approche goen, den XPath an CSSelect.

XPath hëlleft Iech fir Informatiounen z'erhalen oder se an engem strukturéierte Format wéi HTML oder XML ze kréien. Et gi verschidde Weeër fir d'Xpath Elementer ze kréien. Dës enthalen Firebug fir Firefox oder Chrome Inspekter. Wann Dir Chrome benotzt, ass d'Informatiounsinspektioun einfach well Dir nëmmen "richteg" braucht fir op dat Element ze klicken, dat Inspektioun erfuerdert, wielt "Inspektéieren Element", Highlight de geliwwert Code an da klickt duerno richteg a wielt Copy XPath. Dëse Prozess hëlleft Iech ze wësse wéi eng Elementer op Ärer Säit enthalen sinn a vun do aus ass et einfach déi richteg XPath Ufro ze kreéieren an de Lxml XPath richteg ze bewerben.

Gitt duerch dës Schrëtt garantéiert datt Dir all d'Daten ofgeschaaft hutt déi Dir wëllt aus engem bestëmmten Web extrahéieren mat Lxml a Requests. Dir wäert d'Informatioun an engem Zwee-Lëscht-Speicher späicheren, an elo ass se prett fir ze sortéieren. Dir kënnt et mat enger Programméierungssprooch wéi Python analyséieren oder et späicheren an deelen. Och wëllt Dir vläicht e puer Deeler vun der Informatioun iwwerschreiwen oder änneren éier se se deelen.

mass gmail