Web scraping som datakilde for officiel statistik

29/03/2022          Taleboble Kommentarer

Web scraping er en metode til indsamling af data, hvor programmer udviklet til formålet automatisk opsøger hjemmesider og uddrager information fra dem. Programmerne skal være i stand til at finde den ønskede information i den kode, der frembringer hjemmesiden (HTML-kode) og omforme den, således at den bliver brugbar for videre analyse. For officielle statistikproducenter kan der være mange fordele forbundet med at basere statistik på internettets tilgængelige data. F.eks. kan  respondentbyrden begrænses eller helt undgås og dækningen af målpopulationen forbedres, navnlig for internetbaserede aktiviteter som internethandel. Som ved andre anvendelser af organiske data (Big Data) kan dataindsamling ske med høj frekvens, f.eks. dagligt, og hvis  produktionsprocessen er automatiseret kan offentliggørelsen af resultaterne ske hurtigt efter analyseperiodens afslutning. Til gengæld kræves investering i etablering af nye produktionssystemer

Det bedst kendte eksempel på anvendelse af webscraping til statistikproduktion  er The Billion Prices Project (se tidl. indlæg), der ganske vist ikke er officiel statistik, men som af mange centralbanker anvendes som supplement til — og i nogle tilfælde erstatning for — den officielle statistik. The Billion Prices Project leverer inflationsopgørelser for en række lande langt hurtigere og med langt højere frekvens end den officielle statistik.

Anvendelse af webscaping i den officielle statistik er endnu i en pionerfase. Der er ikke mange konkrete projekter, men der er eksperimenter, overvejelser og forberedelser i gang, både omkring metoder, etik og jura. Et af de institutter, der er langt i forberedelserne er UK’s  Office of National Statistics (ONS). ONS har udgivet et notat om retningslinier for anvendelse af web-scraping, hvori det præciseres hvilke juridiske regler der gælder på området, og hvilke etiske principper, der skal gælde for anvendelsen i UK’s officielle statistik. I notatet fremhæves tre grundæggende principper: 

Minimering af byrden for websideejerne skal bl.a ske ved at begrænse antallet af søgninger på side, undgå søgninger på de tidspunkter, hvor siden er mest anvendt og kun søge på de dele af siden, der er relevante for det konkrete formål. 

Referencer:
ONS: “Web Scraping Policy”, ONS 2020 (link)
Olav ten Bosch: “Uses of web scraping for official statistics”, 2016 (link)

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *


Besøg Offstat's hovedside