Designede contra organiske data
19/05/2020 Kommentarer
Det er oplagt, at en producent af officiel statistik foretrækker at have fuld kontrol over planlægningen, etableringen og gennemførelsen af en statistik. Hvis producenten kan fastlægge definitionen af begreberne, definere populationen, beslutte udvælgelses- og dataindsamlingsmetode, og vælge metoder og procedurer for efterbehandlingen af de indsamlede data, har man alle forudsætninger for at opbygge en statistik af høj kvalitet. Data indsamlet og bearbejdet under dataindsamlerens fulde kontrol kaldes designede data.
De officielle statistikproducenters muligheder for basere en statistik på egne designede data begrænses dels af de ressourcer, der er til rådighed, og dels af respondenternes villighed til at medvirke. På begge områder er den officielle statistikproduktion undet pres. Anvendelse af administrative data som grundlag for statistik er en vej ud af disse begrænsninger. Administrative data er indsamlet af en offentlige myndighed, f.eks. skattevæsenet, til brug for egne ikke-statistiske formål, men de kan ofte bearbejdes til statistisk brug. Udgifterne til dataindsamlingen er allerede afholdt, og problemerne med respondenterne eventuelle modvilje er allerede håndteret, så statistikmyndigheden kan koncentrere sig om efterbehandlingen. Bearbejningen af administrative data til statistiske formål er ikke en triviel opgave, men dog væsentlig mindre ressourcekrævende end etableringen af en egentlig statistisk dataindsamling. Der er stadig tale om designede data, men de er designet til et andet formål end statistik, og statistikmyndigheden har ikke kontrol over defintioner og populationsafgrænsning. I praksis har det dog vist sig at fordelene ved administrative data ofte opvejer ulemperne og at det er muligt at anvende dem som grundlag for fremstilling af statistik af høj kvalitet.
Designede data udgør den absolut dominerende del af den officielle statistiks grundlag, og vil forstsat gøre det, i hvert fald indenfor en overskuelig fremtid. Men en anden type data — organiske data — der ikke er dannet som led i en planlagt og systematisk dataindsamling, er begyndt at dukke op som supplerende kilde. Det vil typisk være data, der opstår i forbindelse med anvendelse af informationsteknologi, f.eks ved transaktioner, der involverer stregkoder eller ved anvendelse af mobiltelefoner. Disse data er tæt knyttet til de aktiviteter, der frembringer dem, og populationsafgrænsningen er sjældent i overesstemmelse med statistikkens krav. Til gengæld kan de være fuldstændigt dækkende og meget pålidelige for det (begrænsende) område de omfatter, de kan være meget omfattende og de er af natur i digital form og således umiddelbart tilgængelige for automatisk behandling.
Betegnelserne designede data og organiske data er foreslået af Robert Groves — en tidligere direktør for det amerikanske folketællingsbureau — i et blog-indlæg i 2011. Hans udgangspunkt var, at organiske data udgør en stor og hastigt voksende del af verdens samlede datamængde, og at de er forholdsvis let tilgængelige. Det gør det oplagt for folketællingsbureaet og andre officielle statistikproducenter at inddrage dem som kilder. Groves forestillede sig ikke, at organiske data ville fortrænge deignede data som kilde, men han så en kombination af designede og organiske data som fremtidens kilde for officiel statistik. Og foreløbigt tyder meget på, at det er den vej, det går. De officielle statistikproducenter er meget opmærksomme på mulighederne for at anvende organiske data i statistikproduktionen, ofte under overskriften Big Data. Danmarks statistik anvender f.eks. stregkodedata fra detailhandelen som en supplerende kilde ved opgørelsen af forbrugerprisindekset, og har iværksat et eksperiment, hvor positionsdata for skibe anvendes som grundlag for en statistik om aktivitet i havnene. Mulighederne er store, men der er også behov for at indvinde mere viden og erfaring, før organiske data for alvor kan komme til deres ret som en betydningsfuld del af grundlaget for officiel statistik.
Referencer:
Robert Groves: “Designed Data and Organic Data”, United States Census Bureu 31/5-2011 (link)
Ronberto Ribigon: “Big Data and Measurement: From Inflation to Discrimination”, RBI Bulletin, Reserve Bank of India, 11. sept. 2018 (link)