Digitale data som alternativ til spørgeskemaer: Trusted Smart Surveys
21/03/2023
Kommentarer
Spørgeskemaer på papir som grundlag for statistiske undersøgelser er vel ikke helt forsvundet, men det typiske i dag er nok at skemaerne udfyldes på en computer eller mobiltelefon. Herfra er vejen ikke lang til at erstatte nogle af spørgsmålene med automatiske registreringer fra mobiltelefonens indbyggede sensorer, f.eks. tidspunkt, geografisk lokation og temperatur. Undersøgelser, der anvender mobiltelefoner til at kombinere traditionelle spørgsmål med automatiske registreringer har fået betegnelsen smart surveys. De automatisk indsamlede data er eksempler på organiske data (se tidl indlæg). De officielle statistikproducenter har for længst set, at de kan spille en rolle som garanter for at undersøgelser baseret på organiske data opfylder fundamentale krav omkring kvalitet og fortrolighed (se tidl indlæg). Sådanne garanterede undersøgelser betegnes trusted smart statistics. Når disse garantier implementeres på smart surveys får man trusted smart surveys.
Indenfor rammerne af det europæiske statistiksamarbejde har en række landes officielle statistikbureauer — Danmark er ikke iblandt dem — etableret et projekt (ESSnet Smart Surveys Project), med det formål at etablere en fælles europæisk platform for anvendelse af trusted smart surveys. I en artikel i det tyske statistikbureaus tidsskrift — Wista — har Shari Stehrenberg og Johannes Volk givet et overblik over status for dette projekt.
Projektet er opdelt i tre parallelle såkaldte arbejdspakker (work packages):
- Kommunikation og koordinering
- Udvikling og udførelse af pilotprojekter
- Konceptuel ramme for platformen
Fire pilotprojekter med temaerne forbrug, tidsanvendelse, sundhed og levevilkår blev udvalgt. Alle fire projekter knyttede sig til eksisterende europæiske statistikker. Udover arbejdspakkerne blev der under projektets forløb dannet arbejdsgrupper med henblik på at sammenknytte punkterne 2 og 3. Stehrenberg og Volk fokuserer i deres artikel på arbejdsgruppen om retslige og etiske spørgsmål. Denne arbejdsgruppe blev oprettet fordi det viste sig, at de deltagende lande dels fortolkede de gældende europæiske databestyttelsesregler forskelligt og dels havde forskellige nationale regler at forholde sig til. Projektet blev afsluttet med en workshop i maj 2022.
Smart Surveys Projektet var et første skridt på vejen til en fælleseuropæisk platform. Arbejdet fortsættes i et nyt projekt under overskriften Smart Survey Implementation. De første resultater fra dette projekt forventes i sommeren 2024.
Referencer:
Shari Stehrenberg, Johannes Volk: “Trusted Smart Surveys: Fragebogen trift Neue digitale Daten”, Wista 2023 nr 1, Statistisches Bundesamt (link 19/3-2023)
Destatis/Eurostat: “Minutes – Finale Conference Smart Surveys”, Maj 2022 (link 19/3-2023)
Trusted Smart Statistics
17/09/2019
Kommentarer
Et nationalt statistikinstitut, som f.eks. Danmarks Statistik, indsamler og bearbejder data, og offentliggør de bearbejdede data i form af statistik. Kontrollen med både indsamlingen og bearbejdningen er en hjørnesten i institutternes bestræbelser på at opbygge tillid hos brugerne. Garantien for anvendelse af anerkendte metoder og for åbenhed om både metoder og prioritering bygger bl.a. på, at institutterne har fuld kontrol over hele processen. Denne kontrol over data kan fungere så længe indsamling af data er kostbar og ofte afhængig af lovhjemmel, f.eks. i form af krav om at virksomheder skal besvare statistikinstituttes spørgeskemaer. Men den teknologiske udvikling har medført, at de traditionelt indsamlede datas rolle er blevet mindre. Til gengæld er de data, der mere eller mindre automatisk opstår i forbindelse med f.eks. nethandel, aktivitet på sociale medier og overvågning af trafiksikkerhed — de såkaldte organiske data — blevet meget omfangsrige.
I modsætning til de indsamlede data, der ofte ejes og kontrolleres af officielle statistikinstitutter, så er de organiske data ofte ejet og kontrolleret af private virksomheder som Google, Nets og teleselskaberne. De private ejere er meget bevidste om værdien af deres organiske data og udnytter dem i høj grad forretningsmæssigt. Men de organiske data rummer også megen information, der kan være af samme almene interesse som den traditionelle officielle statistik, og de giver i mange tilfælde muligheder for billigere og/eller bedre statistik, end de traditionelle metoder. Der kan også ligge store muligheder i kombination af et organisk datasæt med traditionelle datasæt eller med andre organiske datasæt. De private ejere vil sjældent have økonomisk interesse i udnyttelse af disse muligheder, og hvis de har, så vil databeskyttelseslovgivningen oftest forhindre det.
Men der er intet i vejen for, at de nationale statistikinstitutter kan udnytte disse muligheder, selv om der naturligvis er en række etiske spørgsmål om omfang af og grænser for anvendelsen, som skal være afklaret. Faktisk har institutterne taget hul på sådanne anvendelser. For Danmarks Statistiks vedkommende kan nævnes anvendelse af stregkodedata i forbrugerprisindekset.
I Eurostat, EU’s officielle statitstikinstitut, er man meget opmærksom på de nye muligheder og på den rolle statistikinstitutterne kan komme til at spille. Som samlet betegnelse for disse processer og deres resultater har Eurostat introduceret begrebet Trusted Smart Statistics(TSS).
Et centralt træk i TSS er at ejerskabet til data ikke længere ligger hos statistikinstituttet, men instituttet kan gennem kontrol med og ejerskab af de redskaber i form af programmel, der anvendes ved bearbejdningen, sikre kvalitet og åbenhed. Da de organiske data kan have en langt større detaljeringsgrad end traditionelt indsamlede data, kan det være en del af datasikkerheden, at ejerskab og kontrol er fordelt på mange aktører. Det bliver så de officielle statistikintitutters opgave gennem TSS at opbygge systemer og redskaber, der gør forsvarlig og pålidelig anvendelse mulig.
Referencer:
CROS: “Trusted Smart Statistics in a nutshell”, (link)
Fabio Ricciato & Albrecht Wirthmann: “Trusted Smart Statistics: how new data will change official statistics”, 20/5-2019 DOI:10.5281/zenodo.3066061 (link)
Eksperimentel statistik fra producenter af officiel statistik
21/04/2020
Kommentarer
COVID-19 situationen har skabt et særligt behov for statistikker med kort produktionstid, der kan belyse centrale forhold omkring krisen, både vedrørende udbredelsen af epedemien og udviklingen i den økonomiske situation. På den baggrund har Danmarks Statistik på sit websted etableret en side, hvor en række statistikker af denne type præsenteres. Siden har fået overskriften “Eksperimentel statistik og analyse”.
Producenter af officiel statistik anvender begrebet eksperimentel statistik om opgørelser, der offentliggøres mens en planlagt statistik endnu er i udviklings- eller overvejelsesfasen. De offentliggjorte opgørelser lever ikke nødvendigvis fuldt ud op til de sædvanlige kvalitetskrav for officiel statistik, men kan dog være af interesse for kvalificerede brugere, der er indstillet på, at statistikken endnu ikke har fundet sin endelige form. Der kan f.eks være tale om, at den endnu ikke er fuldt dækkende for den population, den tilstræber at belyse, eller at metoderne ikke er færdigudviklede eller endelig fastlagt. For brugerne betyder det dels, at de på et tidligt tidspunkt kan anvende resultaterne, selvom det må ske med større forsigtighed end for færdige statistikker, og dels at de gennem feed-back kan bidrage til forbedring af det endelige resultat. De britiske statistikmyndigheder kar opstillet en række klare regler for, hvornår en statistik kan kaldes eksperimentel og hvornår den har nået en sådan grad af modenhed, at betegnelsen eksperimentel skal fjernes, men der eksisterer ikke en internationelt anerkendt definition på begrebet.
En del af de opgørelser, der præsenteres på Danmarks Statistiks nye side, er gengivelser af statistik produceret af ikke-officielle prodcenter, f.eks Statens Serum Institut (indikatorer for smitetudbredelse og dødsfald), Danske Bank (forbrugsindikatorerpå grundlag af data fra MobilePay), Styrelsen for Arbejdsmarked og Rekruttering (indikatorer for arbejdsløshed mv.), Vejdirektoratet (Indeks for vejtrafik) og Storebæltsforbindelsen (personbilstrafik over Storebælt). Disse opgørelser er naturligvis meget nyttige, men de er ikke et led i en overvejet eller planlagt udvikling af den officielle statistik, og er derfor ikke eksperimentelle i den gængse betydning af ordet.
Men den nyetablerede side indeholder også et par eksempler på egentlig eksperimentel statistik. Først og fremmest vises resultater fra Anløbsaktiviteten i danske havne , der hidtil kun har været offentliggjort i Statistikbanken. Denne statistiks grundlag er skibpositionsdata (AIS-systemet) leveret af Søfartsstyrelsen og er et eksempel på Danmarks Statistiks eksperimenter med anvendelse af big data (se tidl. indlæg). Særlig interessant er en ny statitsik, udarbejdet i samarbejde med Nationalbanken, der dagligt opgør antallet af flyafgange fra Københavns Lufthavn. Kilden er The OpenSky Network — en organisation, der indsamler omfattende data om flytrafik og stiller dem til rådighed i en åben datatbase. Det kan ses som et eksempel på Trusted smart statistics (se tidl . indlæg), hvor en offentlig statistikmyndighed — i dette tilælde Danmarks Statistik — ingen andel har i dataindsamlingen, men gennem sine metoder og redskaber skaber en pålidelig og brugbar statistik.
Også Eurostat har offentliggjort en række statistikker, som de betegner som eksperimentelle, bl. a. en web-baseret opgørelse af populariteten af steder optaget på UNESCOs Verdensarvliste (se tidl. indlæg), en rapport om multinationale koncerner (se tidl. indlæg) og en longitudinel arbejdsmarkedsstatistik (se tidl. indlæg).
Referencer:
Danmarks Statistik: “Eksperimentel statistik og analyse”, (link)
Danmarks Statistik: “Anløbsaktiviteten i danske havne (eksperimentel statistik)”, Statistikdokumentation (link)
Eurostat: “Eksperimental statistics” (link)
European Statistical Systen: “Experimental Statistic” (link)
Office for Statistcs Regulation: “Experimental statistics – official statistics in development “, August 2019 (link)
Datarevolution og paradigmeskift — Nye tider for den officielle statistik?
16/02/2021
Kommentarer
Ingen tvivl om at alle, der beskæftiger sig med officiel statistik, fornemmer at der i disse år foregår en udvikling, der fuldstændigt kan ændre vilkårene for den officielle statistikproduktion. Store ændringer er allerede sket, og flere er i vente. Nogle af ændringerne har været beskrevet i mange indlæg i denne blog, f.eks. 1/12-2020, 17/11-2020 og 17/9-2019. Stærke ord som datarevolution og paradigmeskift har været anvendt i beskrivelsen af udviklingen.
Naturligvis er denne fornemmelse af en verden i hastig forandring ikke speciel for den officielle statistiks interessenter, Det er nok en udbredt fornemmelse for interessenter i alle, eller næsten alle, fag. Det er muligvis også en fornemmelse man har haft på andre tidspunkter i historien, uden af eftertiden har set det på samme måde. Måske er fornemmelsen af at stå midt i noget stort blot en form for manglende historisk overblik, hvor man uden at der egentlig er grund til det, ser sin egen tid, som historisk enestående. Men er der, når det kommer til stykket, dækning for at anvende stærke begreber som datarevolution og paradigmeskift? Det spørgsmål har Steve MacFeely — chefstatistiker hos UNCTAD — underkastet en nærmere og grundigere belysning (MacFeely 2020).
MacFeely går meget grundigt til værks. Han indleder med at definere definere begrebet paradigmeskift ud fra Thomas Kuhn’s bog “The Structure of Scientific Revolutions”, og begrebet datarevolution ud fra en rapport, A World that Counts, udarbejdet i 2014 af en FN-ekspertgruppe. På det grundlag identificerer han fire udviklinger, som han ser som kandidater til betegnelsen datarevolution:
1. Definitionen af data udvides til at omfatte flere fænomener
Ordet data betyder det givne, og blev oprindeligt anvendt som betegnelse for den information, det er til rådighed i forbindelse med løsningen af en opgave. For en statistikproducent var data den information, der var indsamlet i form af spørgeskemaer o.lign. til brug for fremstillingen af et statistikprodukt. De teknikker, der var til rådighed, krævede at data var velstrukturerede og umiddelbart egnede som grundlag for optællinger. Objekter, der ikke opfyldte disse krav, f.eks billeder, breve, rapporter og bøger, blev ikke opfattet som mulige data for statistikproduktion.
Det har informationsteknologien ændret på. Billeder og alle skrevne dokumenter kan digitaliseres og derved gøres til genstand for computerbehandling, og både maskinel og det tilhørende programmel er blevet så effektivt, at udledning af struktur i komplekse objekter er blevet mulig. Det har ført til, at billeder og skrevne dokumenter nu er omfattet af statistikbureauernes databegreb.
En anden udvidelse af databegrebet er sket sket ved at teknologien har medført, at mange aktiviteter nu sætter digitale spor i form af organiske data (eller Big Data). Det gælder f.eks. kredit- og dankorttransaktioner, hvert enkelt varekøb i supermarkedet, browsersøgning og aktivitet på sociale medier. Disse digitale spor kan direkte gøres til genstand for behandling af kraftige computere, og bliver således også omfattet af de nye udvidede databegreb.
2. Øget anvendelse af sekundære fremfor primære data.
Til brug for produktionen af officiel statistik har statistikbureauerne altid indsamlet primære data, dvs data der var tilpasset statistisk brug. Det kunne f.eks. være udfyldte folketællingsskemaer eller prisoplysninger fra butikker. Tidligt i udviklingen af den officielle statistik begyndte statistikbureauerne også at anvende sekundære data, dvs. data, der var indsamlet af andre myndigheder, og som ikke var tilpasset statistisk anvendelse. I de nordiske lande tog den udvikling for alvor fart i løbet af 1960’erne, hvor skattevæsenets og andre myndigheders registre blev gjort til sekundære data for den officielle statistikproduktion. I begyndelsen blev der uden for Norden set med skepsis på denne udvikling, men denne skepsis er for længst forsvundet. I dag betragtes anvendelse af sekundære data for helt nødvendigt, for at officielle statistikproducenter kan løse deres opgave.
3. Opfattelse af data og statistik som offentlige goder
Den officielle statistikproduktion har bevæget sig fra næsten udelukkende at have til til formål at understøtte regeringerne i deres administration, til at spille en vigtig rolle som leverandør af viden om samfundet for alle borgere, virksomheder og institutioner. Det giver sig bl.a. udtryk i, at internationale retningslinjer om officiel statistik lægger vægt på, at officiel statistik skal være pålidelig og stilles til rådighed for alle på lige vilkår.
Denne udvikling er dog kun entydig, for producenter af officiel statistik, men ikke for de private aktører, der ofte er ejere af de nye datatyper, der blev omtalt i forbindelse med udvidelsen af databegrebet, specielt de organiske data. Her er spørgsmålet om offentlighedens adgang mere kompliceret, bl.a fordi disse data betragtes som et økonomisk aktiv, samtidig med at det er under diskussion, hvem der ejer eller hvem der bør eje dem, og dermed have retten til at anvende dem kommercielt.
4. Data og statistik som grundlag for informeret beslutningstagning
Bevidstheden om og kravet til at statistiske data skal indgå som en central del af grundlaget for politiske beslutninger har vundet frem. Udviklingen har været tydelig efter anden verdenskrig, men er accelereret omkring årtusindskiftet, hvor begreber som datadrevet beslutningstagning og new public management kom på mode.
Efter en grundig gennemgang af hver af de fire udviklinger konkluderer MacFeely, at de alle opfylder kriterierne for at kunne betegnes som både datarevolutioner og paradigmeskift. Vi har med andre ord grund til at antage, at fornemmelsen af at stå midt i en betydningsfuld omvæltning ikke blot er udtryk for en forblændelse af vores egen tid, men faktisk er en afspejling af virkeligheden.
Referencer:
Steve MacFeely: “ In search of the data revolution: Has the official statistics paradigm shifted?”, Statistical Journal of the IAOS, December 2020 (link, 12/1-2021)
UN : “A World that counts”, November 2014 (link)
Organiske data (big data) skal anvendes med omtanke
11/08/2020
Kommentarer
Som det er fremhævet i adskillige indlæg i denne blog (f.eks. 19/5-2020, 17/9-2019 og 26/4-2016 ) ligger der store muligheder i den officielle statistiks anvendelse af organiske data — ofte omtalt som big data. Covid-19 krisen har øget interessen for organiske data navnlig i forbindelse med sundhedsstatistikken og den økonomiske statistik. Danmarks Statistik har for at imødekomme behovene bl.a. oprettet en særlig hjemmeside under overskriften Eksperimentel statistik (se indlæg fra 21/4-2020) med en række links til statistikker baseret på organiske data. Tidsskriftet The Economist har på baggrund af denne stigende interesse fundet anledning til at opfordre til forsigtighed og nærmere overvejelser, før man går alt for langt i retning af at lade de organiske data fortrænge de traditionelle i den økonomiske statistik.
Artiklen i The Economist skelner melem to hovekategorier af de organiske data, der har været i fokus: data der formodes at afspejle økonomien generelt og data, der belyser specifikke områder f.eks. restaurationsbesøg eller antallet af ledige jobs. De generelle data omfatter dels de såkaldte mobilitetsdata fra Google og Apple, og dels data for kreditkorttransaktioner. Mobilitetsdata er baseret på registreringer i forbindelse med brug af mobiltelefoner. Apple baserer sin opgørelse på antallet af anmodninger om vejvisning i Apple Kort, og Google baserer sin på registrerede besøg i f.eks butikker og parker.
Den store fordel ved de organiske data er deres aktualitet. Både Apple og Google offentliggør deres mobilitetsdata dagen efter aktiviteten har fundet sted. Så hurtigt kan traditionel statistik slet ikke produceres. Til gengæld har den traditionelle statistik haft ry for at være mere pålidelig, men her spiller det ind, at Covid19-krisen har haft negativ indflydelse på kvaliteten, bl.a. fordi myndighederne midlertidigt har lempet indberetningskravede til virksomhederne.
Men der er også store kvalitetsproblemer i de organiske data. Mobilitetsdata bruger januar måned som sammenligningsgrundlag, og sammenblander dermed sæsonmønstre i udviklingen med virkningen af Covd19. The Economist påpeger også at mobiliteten, som den måles af Apple og Google, ikke nødvendigvis afspejler økonomisk aktivitet. For kreditkorttransaktionerne sløres billedet af, at frygten for smittespredning kan have påvirket valget mellem kontant- og kortbetaling. Data for specifikke områder vedrører oftest privatforbruget, der ganske vist udgør en meget stor del af den samlede økonomiske aktivitet, men uden data for investeringsaktiviteten, der er langt mere volatil end privatforbruget, bliver billedet af den samlede konjunkturudvikling upålideligt.
The Economist’s konklusion er, at organiske data har været et nyttigt supplement til den traditionnelle økonomiske statistik under covid19-krisen, og også fremover kan bidrage til forbedring af de ektisterende opgørelser. Men de gode gamle metoder, der i en lang periode har vist deres værdi, står ikke foreløbig overfor total udskiftnking.
Referencer:
Economist: “Why real-time economic data need to be treated with caution”, Economist 23/7-2020
Apple: “Mobilitetstendenser”, (link)
Google: “Rapporter om lokale bevægelsesmønstre“, (link)