Big data i officiel statistik
26/04/2016 Kommentarer
Big data skabes bl.a. når en kundes køb registreres ved et kasseapparat, når et dankort anvendes til en netbetaling, når en sensor automatisk registrerer passage af et køretøj på et bestemt vejstykke og når en internetbruger er aktiv på et socialt medie. De nationale statistikinstitutioner er naturligvis helt opmærksomme på de muligheder, som anvendelse af den slags data giver i produktionen af officiel statistik. F.eks. har Danmarks Statistik, sammen med Københavns Universitet og Dansk Industri, i september 2015 afholdt en konference om perspektiverne i big data.
Tre kendetegn afgrænser big data fra traditionelle data:
- Omfang, der er tale om store mængder af data,
- Variation, big data er mindre velstrukturerede end traditionelle data
- Foranderlighed, big data dannes og ændres ofte.
De engelske betegnelser for de tre kendetegn er volume, variety og velocity, og derfor tales ofte om de tre V’er. Der er ikke tale om en præcis definition, men snarere om en liste over specielle udfordringer ved en datakilde, der kræver anvendelse af nogle af de særlige metoder og værktøjer, der i de senere år er udviklet til håndtering af big data.
Anvendelsen af big data i officiel statistik er i fuld gang. Danmarks Statistik har siden januar 2016 anvendt stregkodedata i beregningen af forbrugerprisindekset, og der arbejdes på anvendelse af positioneringsdata fra skibe til transport- og havnestatistik og på anvendelse data fra netportaler som kilde til statistik om ledige stillinger i den offentlige sektor (Danmarks Statistiks Arbejdsplan s. 15). Det nederlandske statistikbureau er meget aktivt i udforskningen af mulighederne (Dass m.fl.), og har bl.a. anvendt automatisk dannede trafikdata til statistik om trafikmønstre. Men der kan opregnes mange flere muligheder (Reimsbach-Kounatze) , f.eks. finansstatistik baseret på aktivitet på nettet og demografisk statistik på grundlag af brugernes egne oplysninger om køn, alder og beskæftigelse mm på sociale medier som linkedin og facebook.
Der må naturligvis stilles samme høje kvalitetskrav til statistik baseret på big data som til al anden officiel statistik, og her er stadig en del der skal undersøges og afklares (Dass m.fl.). Det gælder også spørgsmål omkring jura, fortrolighed og folkelig accept. Kan problemerne løses er mulighederne til gengæld store, både for besparelser og forbedringer i den eksisterende statistik, og for udvikling af helt nye statistikområder.
Rigsstatistikeren (og andre) mener, at anvendelse af big data kan skabe et løft i statistikproduktionen et løft, der kan sammenlignes med det løft anvendelsen af administrative registre skabte (Østergaard Sørensen m.fl.). Og netop kombinationen af de eksisterende registre, big data og en befolkning, der i stort omfang anvender internet og sociale medier, giver unikke muligheder for den danske statistikproduktion.