Semalt: Hvordan skrape en webside ved hjelp av Google Chrome-utvidelse

En skjermskraper er et skript som leser nettsteder og henter ut nyttig informasjon fra nettet. Skjermskraping er den ultimate løsningen for å få ekte data fra nettsteder og websider til Microsoft Excel. Google Chrome Extension Scraper er et kraftig skjermverktøy som fungerer på både Windows og Mac OS.

Hvorfor Google Chrome utvidelseskraper?

Google Chrome utvidelseskraper er et kraftig skjermskrapeverktøy som går gratis i Chrome Nettbutikk. Dette skrapeverktøyet er installert i Chrome-nettleseren som en plugin. Plugin-enheten lar bloggere og markedsførere hente data fra websider ved å høyreklikke på et element. '' Skrap lignende '' bør dukke opp på skjermen hvis du høyreklikker på et element.

Introduksjon til XPaths

XPath er et programmeringsspråk som brukes til å finne viktig informasjon i XML-strukturer. HTML-filen er et utmerket eksempel på en XML-struktur. XPath brukes ofte til å velge målrettede noder. I denne sammenheng vil XPaths bli brukt til å bestemme teksten som skal trekkes ut på en webside. XPaths vil også bidra til å identifisere partinavn og telefonnummer til de svenske parlamentsmedlemmene.

Ved hjelp av Google Chrome skrape for å få tilgang til adressedetaljer for 349 svenske parlamentsmedlemmer

Med Chrome's Scraper er det ikke bare enkelt, men også fantastisk å trekke ut informasjon fra en webside. Du vil glede deg over prosessen og selve teknikken.

Nettstedet viser alle svenske medlemmer og deres adresser. For å komme i gang, høyreklikk på en hvilken som helst MP og velg "Skrap lignende." Du bør se følgende skjerm på skjermen.

Trinn for trinn guide for hvordan du skal skrape webside

Hvis du høyreklikker på en MP og velger "Inspiser element", vil det bli laget en alfabetisk liste under "" grid_6 alpha omega search result container clist ". To trinn vil bli brukt til å skrape denne websiden. Trinn en vil involvere valg koder som består av MP-data med en XPath. Trinn to vil innebære å plukke bestemte deler av data, for eksempel partinavn, navn og telefonnummer, og organisere dataene i kolonner.

Trinn 1

Grav dypere i HTML-strukturen og hold elementene intakte. Pek kodene for å identifisere antall koder som tilsvarer elementene i strukturen din. Identifiser den siste taggen som består av målrettede data. Kjør en XPath-test på strukturen ved å klikke på "Skrap."

En liste bestående av 349 rader vises på skjermen. 349 representerer det totale antallet av de svenske parlamentsmedlemmene.

Steg 2

Del de presenterte dataene i kolonner. Inspiser HTML-koden på hjemmesiden du har brukt. I dette tilfellet er brikkene som skal trekkes ut i øyeblikket fremhevet i gult. Sett inn XPaths i kolonnefeltet som er opprettet, og klikk på "Skrap" for å kjøre plugin.

Hvis du har grunnleggende kunnskaper om XPaths, vil det å forstå programmering ikke være en hektisk oppgave for deg. Ovennevnte uthevede trinn guider deg hvordan du skrap skrapeside. Hvis du jobber med å skrape flere websider, må du ha programmeringsferdigheter.