Kategori: Statistikkvalitet

  • Kvalitetsgennemgang af den danske officielle statistik

    Eurostat gennemfører i disse år en gennemgang af kvaliteten af den officielle statistik i EU’s og EFTA’s medlemslande, de såkaldte peer-reviews (se tidl. indlæg). Resultatet af disse peer-reviews offentliggøres i landerapporter, og rapporten for Danmark er netop udkommet. Kvalitetsgennemgangen er først og fremmest rettet mod landenes nationale statistikinstitutter, der har hovedansvaret for den officielle statistik — i Danmarks tilfælde Danmarks Statistik —  men et udvalg af andre myndigheder, der bidrager til statistikindberetningen til EU, inddrages også. I Danmark findes 15 sådanne myndigheder, men kun tre af dem er udvalgt i denne gennemgang:  Energistyrelsen, Miljøstyrelsen og Udlændingestyrelsen.

    Rapporten er udarbejdet af en undersøgelsesgruppe bestående af fire eksperter. Gruppen udtrykker generel tilfredshed med kvaliteten af den danske statistikproduktion, og bemærker i den forbindelse, at der er en høj grad af tillid til Danmarks Statistik blandt brugerne af statistikken. Men naturligvis er der stadig ting, der kan gøres bedre, og i rapporten oplister gruppen 22 punkter, hvor ændringer og forbedringer er ønskelige.

    Siden forrige kvalitetsgennemgang i 2015 har Danmark fået en ny statistiklov i 2018 (se tidl. indlæg) Rapporten udtrykker generel tilfredshed med den nye lov og noterer, at den imødekommer mange af forslagene fra den forrige kvalitetsgennemgang i 2015. Undersøgelsesgruppen så dog gerne, at Danmarks Statistiks hjemmel til dataindsamling blev styrket, navnlig i forhold til data ejet af private virksomheder og institutioner. Gruppen mener også, at loven lægger nogle begrænsninger på Rigsstatistikerens autoritet der, skønt de ikke er af afgørende betydning, dog ikke er i overensstemmelse med EU’s retningslinjer for statistikproduktion. Endelig finder gruppen ikke, at databeskyttelsen er tilstrækkelig, og henviser til to konkrete sager, hvor Danmarks Statistik — efter gruppens opfattelse i strid med databeskyttelsesreglerne — er blevet pålagt at levere data indsamlet til statistisk brug til andre offentlige myndigheder, der derefter anvender de leverede data til administrative formål.

    Blandt rapportens øvrige forslag og ønsker kan nævnes: forbedringer i dokumentation af metoder og kvalitet, bedre kvalitetsovervågning, bedre forståelse og bedre forklaringer hvor revisioner er hyppige og forholdsvis store (nationalregnskabet), bedre håndtering af databrud og øget anvendelse af sæsonkorrektion.

    En vigtig forudsætning for vedligeholdelse og navnlig udvikling og forbedring  af statistikken er, at der er tilstrækkelige ressourcer til rådighed. Gruppen frygter, at der her er et problem, navnlig set i lyset af, at statens bevillinger til Danmarks Statistik har været faldende, på trods af, at kravene til statistikproduktionen, bla. fra EU, har været stigende. Gruppen opfordrer derfor regeringen til at sikre, at der er overensstemmelse mellem de lovmæssige krav til statistikken og de ressourcer, der stilles til rådighed.

    Der er indtil nu offentliggjort kvalitetsrapporter for 11 lande. Rapporterne for de resterende lande forventes offentliggjort i løbet af de kommende 14 måneder, således at alle rapporter foreligger ved udgangen af 2023.

    Referencer:
    Eurostat: “Peer Review Report – Demmark”. April 2022 (link 25/10-2022)

  • EU’s overvågning af statistikkvalitet, peer review af Eurostat

    Som det tidligere er omtalt i denne blog (8/2-22) foregår i disse år er et omfattende kvalitetscheck af statistikken i EU- og EFTA-landene i form af de såkaldte peer-reviews. Der er på nuværende tidspunkt offentliggjort peer review rapporter for ti lande, og den elvte — om Danmark — kan ventes snart. Peer reviews spiller en vigtig rolle i Eurostats overvågning af de nationale statistikinstitutters overholdelse af at kvalitetskravene, som er fastlagt i Adfærdskodeks for Europæiske Statistikker. Eurostat er også selv omfattet af dette adfærdskodeks, men da Eurostat jo ikke kan overvåge sig selv, har Europaparlamentet og Det Europæiske Råd etableret et særligt organ, European Statistical Governance Advisory Board (ESGAB), der har til opgave at overvåge Eurostats overholdelse af adfærdskodekset. Det er derfor ESGAB, der står for peer review af Eurostat. Resultaterne af ESGAB’s peer review  blev offentliggjort i januar 2022.

    ESGAB lægger i rapporten vægt på, at Eurostat skal fremstå som en rollemodel for de nationale statistikinstitutter og derfor må leve fuldt op til kravene i adfærdskodekset. I den sammenhæng finder ESGAB, at der er et par punkter, hvor der bør strammes op. Et af dem vedrører orientering af visse myndigheder — f.eks. regering og nationalbank – om statistikresultater før den officielle offentliggørelse (pre-releasing). Den praksis er adfærdskodekset meget kritisk overfor, men den forekommer i en vis udtrækning i EU-systemet, og ESGAB opfordrer til at den nuværende praksis gennemgås kritisk. ESGAB mener også, at de formelle regler for afskedigelse af chefen for Eurostat og for rekruttering og afskedigelse af ansatte på højt niveau bør strammes op, selvom der ikke i praksis er konstateret problemer. I sit svar til rapporten erklærer Eurostat sig dog uenig i, at der på disse personalemæssige områder er uoverensstemmelse med afdfærdskodekset.

    ESGAB har naturligvis en række forslag til yderligere forbedringer. F.eks anbefales en udbredelse af adfærdskodeksets gyldighedsområde til også at omfatte EU-statistik produceret af andre end Eurostat, en udvidelse af samarbejdet med Den Europæiske Centralbank (ECB) og udvikling af en samlet strategi for anvendelse af nye digitale data. Men generelt udtrykker ESGAB tilfredshed med Eurostats virke og påskønner navnlig indsatsen i forbindelse med Covid-19 krisen, der på mange måder satte den officielle statistik under pres (jf. indlæg fra 21/9-2021)

    Referencer:
    Eurostat: “Peer Reviews, Current Round 2021-2023”, (link 23/8-2022)
    ESGAB: “Annual Reports”, (link 23/8-20229)

  • Bog af Tim Harford om at skabe mening i statistik

    Alle læsere af denne blog må formodes at være enige i, at statistik er nyttig og nødvendig. De fleste vil nok også være enige i, at det kan kræve en indsats, at få styr på, hvad indholdet af en statistik egentlig er. En erfaren statistikbruger — økonomen Tim Harford — har gjort den proces lidt nemmere ved at skrive en bog med vejledning i, hvordan man skaber mening i en statistisk opgørelse. Bogens titel er The Data Detective  og udkom i februar 2021.

    Bogens indhold er sammenfattet i følgende 10 råd:

    1. Vær bevidst om dine følelser
    2. Overvej din personlige oplevelse
    3. Undgå for tidlig opregning
    4. Træd tilbage og nyd udsigten.
    5. Tjek baggrundshistorien
    6. Spørg hvem der mangler
    7. Kræv gennemsigtighed, når computeren siger nej.
    8. Tag ikke det statistiske fundament for givet
    9. Husk, at misinformation også kan være smuk
    10. Fasthold et åbent sind

    I listen har jeg ved farvemarkering opdelt rådene i tre grupper. Råd der vedrører hvordan man mentalt forholder sig, når en statistik vurderes og analyseres, er markeret med rødt, konkrete råd vedrørende vurdering af statistikkens kvalitet er markeret med blåt, og to råd — det syvende og det ottende —  der mere principielt vedrører datagrundlaget og dets tilvejebringelse er markeret med grønt. Jeg vil i det følgende give en kort uddybning af de to sidstnævnte råd. En kort sammenfatning af alle ti råd kan findes hos  Jessica Stillman, og i  Harford’s bog har hvert af rådene sit eget kapitel, hvor det uddybes grundigt.

    Det ottende råd er en opfordring til at værdsætte de muligheder, den officielle statistik tilbyder. Hvis de officielle statistikproducenter overholder de internationale retningslinjer — og det gør producenterne i næsten alle udviklede lande — får man her en statistik, der er udarbejdet efter professionelle og vederhæftige principper, og som ledsages af en dokumentation, der gør det muligt for brugeren selv at vurdere statistikkens kvalitet (råd nr. 3-6) i forhold til hans konkrete behov. Statistikkvalitet er nemlig ikke et absolut begreb. Kvaliteten af en statistik kan være tilstrækkelig til et formål, men ikke til et andet. Det er brugerens opgave at vurdere, om kvaliteten er tilstrækkelig, men det er producentens opgave at levere den dokumntation, der  gør vurderingen mulig.

    En helt central forudsætning for pålidelig officiel statistik af høj kvalitet er, at de institutioner, der producerer den officielle statistik, er professionelle og uafhængige. Som nævnt er det hovedreglen i udviklede lande, men det må ikke ses en som en selvfølge, og Harford opfordrer kraftigt til at støtte de personer — som han betegner som nørder — der i det daglige står for produktionen af den officielle statistik, især ved at beskytte dem mod pression. Han giver adskillige eksempler på at pression er forekommet. Et af de værste eksempler er den græske regerings behandling af chefstatistikeren Andreas Georgiou (beskrevet i denne blog i indlæg fra 18/2-2020, 16/10-2018 og 15/08-2017)

    Det syvende råd handler navnlig om statistik baseret på anvendelse af organiske data (big data, 11/8-2020 og 19/5-2020). De meget store datamængder, der ofte ligger til grund for sådanne statistikker, kan forlede brugeren til at tro, at resultaterne har en høj grad af sikkerhed. I virkeligheden er de anvendte data ofte så usikre, at de er problematiske at anvende. Hertil kommer, at konklusionerne, som ofte er frembragt af algoritmer, der kun søger mønstre i datamaterialet, men ikke inddrager overvejelser om mulige årsager og virkninger, og slet ikke overvejer i hvilket omfang resultaterne kan generaliseres. Resultatet er, at de sammenhænge algoritmerne finder, kan vise sig ikke at holde, når de forsøges anvendt i praksis. Det hele forværres af, at både data og algoritmer ofte ejes af private virksomheder, der ser deres viden kom vigtige forretningshemmeligheder, og derfor kun i begrænset omfang offentliggør detaljer om data og metoder. Harford mener bestemt ikke, at man skal afstå fra at anvende organiske data, men han opfordrer til, at man kræver indsigt i kilder og metoder, på samme måde som det sker i den officielle statistik.

    Harfords bog er på mange måder et modstykke til en af mest udbredte introduktioner til statistik: Hvordan man lyver med statistik af Dariel Huff. Som det fremgår af titlen, så tager Huff udgangspunkt i en anvendelse af statistikken, der kun kan betegnes som misbrug. Og naturligvis bliver statistiske metoder misbrugt til udbredelse af falsk information, men det er dog lidt skævt og negativt, at bygge en vejledning i anvendelse af et redskab på, hvordan redskabet kan misbruges. Tim Harford er bestemt ikke blind for, at misbrug af statistik forekommer. Misbruget kan være led i en bevidst vildledning, men ofte er der nok tale om misforståelser, og rigtigt anvendt og forstået er statistik et nyttigt og helt uundværligt værktøj.

    Referencer:
    Tim Harford: “The Data Detective – Ten Easy Rules to Make Sense of Statistics”, Riverhead 2021
    Jessica Stillman: “10 Rules to Be Smarter About Statistics”, Inc. (link 1/8-2022)

  • Den tyrkiske statistikchef afskediget

    I slutningen af januar blev chefen for den tyrkiske statistikmyndighed (TUIK) — Sait Erdal Dincer — afskediget. Afskedigelsen skal ses på baggrund af en dyb uenighed mellem den tyrkiske præsident — Tayyip Erdogan — og de fleste økonomiske eksperter om omfanget af og årsagerne til inflationen i Tyrkiet. TUIK havde netop offentliggjort en årlig inflationsrate på 36 pct. og Erdogan er tilsyneladende overbevist om, at TUIK overdriver inflationens størrelse. Fra andre sider i Tyrkiet kritiseres TUIK til gengæld for for at undervurdere den faktiske vækst i leveomkostningerne. Dincer har fastholdt, at TUIK’s inflationsopgørelser opgøres som foreskrevet i de internationale retningslinjer for officiel statistik.

    Sagen skal også ses i sammenhæng med Erdogans forhold til den tyrkiske centralbank. Centralbanker har som en væsentlig opgave at kontrollere inflationen, og de reagerer oftest på høje inflationstal ved at sætte renten op. Men da Erdogan er af den opfattelse, at midlet til at begrænse inflationen er at holde renten nede, har det givet anledning til konflikter, hvilket igen har medført, at direktøren for banken har været udskiftet tre gange siden 2019.

    Det er en central del af de internationalt aftalte kvalitetskrav til officiel statistik, at statistikcheferne skal udpeges på grundlag af deres professionelle og videnskabelige indsigt, og at de i deres varetagelse af statistiske opgaver skal være uafhængige af øvrige myndigheder. Da afskedigelsen af Dincer ikke er begrundet i kritik af hans professionalisme, frygter International Statistical Institute (ISI) og International Association for Official Statistics (IAOS) — begge centrale og anerkendte professionelle organisationer for statistikere —  at der ligger et ønske om politisk kontrol med opgørelser og metoder bag opsigelsen. De to organisationer har derfor udsendt en erklæring hvor de opfordrer de tyrkiske myndigheder til at sikre TUIK’s muligheder for levere pålidelig statistik og til at overholde de internationale retningslinjer vedrørende kvaliteten af statistikken.

    Det er ikke første gang man ser en regering søge at påvirke de officielle statistiske opgørelser i strid med de internationale retningslinjer. I Tyrkiets naboland, Grækenland, har man ligefrem retsforfulgt en statistikchef, der fulgte retningslinjerne, på trods af regeringens ønsker om at sløre statistikkerne (se indlæg fra 18/2-2020, 16/10-2018 og 15/8-2017). 

    Referencer:
    Economist: “Prices in Turkey are surging. But by how much?”, 31/7-2021
    International Statistical Institute: “Reaction to the dismissal of the head of the Turkish Statistical Office”, 11/1-2022 (link 16/2-2022)
    Middle East Eye: “Turkey: Erdogan sacks statistics chief and replaces justice minister”, 29/1-2022 (link 16/2-2022)

  • Kvalitetscheck af EU-landenes officielle statistik — peer reviews

    For at officiel statistik skal være brugbar, må den være af høj kvalitet. Så langt er alle enige. Hvad der mere konkret skal forstås ved høj kvalitet og hvordan forskellige aspekter af kvalitet skal prioriteres og afvejes, kan der derimod være uenighed om. EU, der i sin administration fuldstændig afhængig af højkvalitetsstatistik fra medlemslandene, har i publikationen “Adfærdskodeḱs for europæiske statistikker” ret præcist beskrevet de kvalitetskrav, som landene er forpligtet til at overholde i deres produktion af officiel statistik. Overholdelsen af reglerne kontrolleres dels gennem Eurostats løbende overvågning, og dels gennem mere systematiske gennemgange af landenes statistiksystemer — de såkaldte peer-reviews. Der blev gennemført peer-reviews i 2006-2008 og 2013-2015, og en tredje runde er i gang i øjeblikket. Den blev indledt i 2021 og forventes afslutttet i 2023.

    Peer-review processen består af to trin: et omfattende spørgeskema der bevares af landets statistikmyndigheder og et besøg af en international undersøgelsesgruppe. Bevarelsen af sprøgeskemaet danner grundlag for undersøgelsesgruppens arbejde. Gruppens besøg finder sted ca. en måned efter besvarelsen af spørgeskemaet og varer 4-5 dage. Under covid-19 krisen har det været nødvendigt af gennemføre besøgene virtuelt. Efter kontrolbesøget udarbejdes en rapport, der offentliggøres på Eurostats hjemmeside. Processen omfatter alle medlemmer af det Europæiske Økonomiske Samarbejdsområde, dvs både EU-landene og EFTA-landene.

    Undersøgelsesgruppen består af fire personer, der er udvalgt således at en de tilsammen afspejler en passende kombination af kompetencer, viden og færdigheder. Det er klart, at den nationale statistikmyndighed er genstand for peer-review processen, men også andre officielle statsitikproducenter inddrages. Efter besøget udarbejder undersøgelsesgruppen en beretning. Beretingen vil typisk indeholde en række ønsker om forbedringer med tilhørende forslag til, hvordan disse forbedringer kan gennemføres.

    I alt 25 lande indgår i denne tredje runde. Der er på nuværende tidspunkt gennemført peer-reviews i 11 lande og der er offentliggjort rapporter for to lande (Frankrig og Estland).  For Danmarks vedkommende er det planen, at kontrolbesøget skal ske i marts 2022 og at rapporten offentliggøres i juli eller august 2022.

    Efter afslutningen af peer-review runden skal der ske en opfølgning af de planer, der er fastlagt i beretningerne. Landene skal fra 2024 årligt rapportere til Eurostat om de fremskridt der er gjort i forbindelse med implementeringen af de foreslåede forbedringer, og Eurostat skal udarbejde en årlig rapport om de samlede fremskridt.

    Referencer:
    Eurostat: “European Statistical System Peer Reviews. Third round: 2021-2023 — Overall methodology”, 2020 (link 3/2-2022)
    Eurostat: “Adfærdskodeks for Europæiske Statistikker”, 2017 (link 3/1-2022)
    Eurostat: “Peer-Reviews: Current Round 2021-2023”, (link 7/2-2022)
    Mirko Herzner: “Der Peer Review 2021 bis 2023 im Europäischen Statistischen System”, WISTA 2021 nr 5 (link 1/2/2022)

  • Covid-19 krisens udfordringer for den officielle statistik

    Covid-19 krisen har presset den officielle statistik fra to sider. På den ene side har der været krav om hurtig statistik til belysning af af pandemiens udbredelse og effekterne af tiltagene til at bekæmpe den, og på den anden side har krisen vanskeliggjort dataindsamlingen, og derved skabt problemer for kvaliteten af statistikken. Behovet for hurtig statistik har statistikmyndighederne søgt at imødekomme ved at offentliggøre supplementer til den traditionelle statistik, der kan leveres hurtigt, men ikke nødvendigvis opfylder de sædvanlige kvalitetskrav. Danmarks Statistik  præsenterer en række sådanne supplementer på sin hjemmeside under overskriften COVID-19 – hurtige indikatorer. Kvalitetsproblemerne har der derimod ikke på kort sigt været de store muligheder for at imødegå, på anden måde end ved at gøre brugerne opmærksomme på problemet. Verdensbanken og FN’s statistiske afdeling har søgt at danne sig et overblik over omfanget af de nationale statistikmyndigheders problemer gennem en række spørgeskemaundersøgelser. Tidsskriftet The Economist (Economist 2021) har i en artikel leveret en opsummering og vurdering af resultaterne af disse undersøgelser.

    En stor del af de ansatte i alle verdens statistikmyndigheder har under krisen arbejdet hjemmefra og dataindsamling baseret på ansigt til ansigt kontakt med respondenter er stort set ophørt. I et vist omfang har besøgsinterview kunnet erstattes med telefon-, epost- eller internetbaserede interviews, og arbejde hjemmefra har kunnet understøttes af internetbaserede redskaber som videomøder. Men det kræver en veludbygget infrastruktur, som ikke findes alle steder, og navnlig ikke i fattige lande.

    Særligt for folketællingerne er krisen opstået på et uheldigt tidspunkt. De fleste lande afholder folketælling hvert tiende år, og efter anbefaling fra FN har næsten alle lande valgt at afholde folketælling i 2020 eller 2021. Nogle lande har valgt at udskyde deres folketælling, og mangler derfor opdaterede data på centrale områder. Andre lande har gennemført tællingen, men har måtte opgive dele af dataindsamlingen, og står derfor med  tællingsresultater af en kvalitet, der er ringere end den sædvanlige. Folketællingerne danner på forskellig måde grundlag fra andre statistikker, så resultaterne af den forringede kvalitet vil kunne mærkes i statistikproduktionen mange år fremover.

    Centrale konjunkturstatistikker har også været hårdt ramt af krisen. Det gælder f.eks. opgørelsen af inflationen. En væsentlig del af indsamlingen af prisdata er traditionelt varetaget af prisinspektører, der besøger butikker og restauranter mm, og observerer og registrerer priser på udvalgte produkter. Den metode har været vanskelig at gennemføre. En anden vigtig konjunkturstatistik — opgørelsen af arbejdsløsheden — har haft tilsvarende problemer. 

    Danmarks Statistik har på flere måder været i en mere gunstig position end de fleste andre statistikmyndigheder, fordi en stor del af dataindsamlingen sker via offentlige registre, der i stort omfang har fungeret normalt eller næsten normalt under krisen. En vigtig kilde  som momsindberetningerne fra virksomhederne er dog blevet svækket af, at indberetningsfristerne for momsafregning har været udskudt, med heraf følgende problemer for bl.a nationalregnskabet. Men som Economist også påpeger, så er det danske registerbaserede statistiksystem ret unikt. Det har nogle historiske og kulturelle forudsætninger, der gør det vanskeligt for de fleste andre lande at opbygge noget tilsvarende. 

    Referencer:
    Danmarks Statistik: “COVID-19 – hurtige indikatorer”, (link, 18/7/2021)
    Danmarks Statistik: “Nationalregnskabsberegninger set i lyset af COVID19”, 14/52020, (link, 20/7/2021)
    Economist: “Covid-19 has stymied governments’ efforts to collect data”, The Economist 25/02/2021 (link,20/9-2021)
    The World Bank: “Survey of National Statistical Offices (NSOs) during COVID-19”, The World Bank Brief (link)
    The World Bank: “One Year Into the Pandemic : Monitoring the State of Statistical Operations Under COVID-19”, 30/7-2021 (link)
    Craig Hammer m.fl.: “National statistical offices still face disruptions and challenges as they adapt to a “new normal”, The World Bank Blogs, 11/8-2021  (link)

     

  • USA’s højesteret standser dataindsamlingen til folketællingen

    I USA er indsamlingen af data til folketællingen for 2020 nu afsluttet. Præcis hvornår afslutningen skulle ske har været genstand for en politisk og juridisk strid, der nu er blevet afgjort af højesteret. Efter den helt oprindelige plan skulle dataindsamlingen afsluttes med udgangen af juli, men på grund af covid-19 krisen blev indsamlingsperioden først udvidet til udgangen af oktober, og senere igen afkortet til udgangen af september. Da en række eksperter udtrykte bekymring for, at afkortningen af indberetningsperioden kunne få negative følger for folketællingens kvalitet, indbragte en alliance af lokale myndigheder og borgerretsgrupper sagen for retten, med krav om at udgangen af oktober blev fastholdt som afslutningtidspunkt.

    Alliancen fik i første omgang medhold ved en distriktsdomstol, og dataindsamlingen blev fortsat ind i oktober, men den den 13. oktober besluttede højesteret, at regeringen har ret til at afslutte dataindsamlingen. I praksis betyder det, at dataindsamlingen blev afsluttet den 15. oktober. Trods nederlaget i Højesteret kan klagerne altså glæde sig over, at de gennem distriktsdomstolens kendelse opnåede 15 dages ekstra indsamlingsperiode.

    Når fastlæggelse af afslutningsdatoen for indsamlæingsperioden kunne blive et politisk stridsspørgsmål skyldes det først og fremmest, at folketællingens resultater afgør fordelingen mellem delstaterne af medlemmerne af Repræsentanternes Hus og af det valgmandskollegium, der vælger præsidenten. Der er en forventning om, at der er en overvægt af økonomisk og socialt dårligt stillede husstande blandt de senest indkomne besvarelser, og da sådanne husstande i højere grad antages at støtte Demokraterne, kan en republikansk præsident og regering alene af den grund have en interesse i så kort en indsamlingsperiode som muligt. Dertil kommer, at folketællingen også anvendes som fordelingsgrundlag for ydelser i forbundets sociale støtteprogrammer. Jo færre fattige, der optælles, jo færre midler til de fattigste områder, og tilsvarende flere til de knap så fattige.

    Der er intet usædvanligt i, at en amerikansk folketælling er genstand for voldsomme politiske og juridiske slagsmål. Forfatningen fastlægger, at tællingen skal afholdes hvert tiende år, men siger meget lidt om det konkrete indhold. Der er derfor rig anledning til politisk uenighed, og med Højesterets rolle som fortolker af forfatningen kommer kampen til at udspille sig både i Kongressen og i Højesteret. Folketællingen for 2020 er dog nok en af de mest omstridte, navnlig fordi Trump-administrationen fra starten har udvist en meget kritisk holdning til officiel statistik i almindelighed og til Folketællingen i særdeleshed (se tidl indlæg, 19/9-2017 og 7/2-1017)

    * Den amerikanske folketælling har tidigere være behandlet i flere indlæg i denne blog (4/2-2020, 14/5-201912/6-201819/9-2017 og 23/5-2017)

    Referencer:
    Mike Schneider: “Supreme Court halts census in latest twist of 2020 count”, AP News 14/10-2020 (link)

  • Organiske data (big data) skal anvendes med omtanke

    Som det er fremhævet i adskillige indlæg i denne blog (f.eks. 19/5-2020, 17/9-2019 og 26/4-2016 ) ligger der store muligheder i den officielle statistiks anvendelse af organiske data — ofte omtalt som big data. Covid-19 krisen har øget interessen for organiske data navnlig i forbindelse med sundhedsstatistikken og den økonomiske statistik. Danmarks Statistik har for at imødekomme behovene bl.a.  oprettet en særlig hjemmeside under overskriften Eksperimentel statistik (se indlæg fra 21/4-2020) med en række links til statistikker baseret på organiske data. Tidsskriftet The Economist har på baggrund af denne stigende interesse fundet anledning til at opfordre til forsigtighed og nærmere overvejelser, før man går alt for langt i retning af at lade de organiske data fortrænge de traditionelle i den økonomiske statistik.

    Artiklen i The Economist skelner melem to hovekategorier af de organiske data, der har været i fokus: data der formodes at afspejle økonomien generelt og data, der belyser specifikke områder f.eks. restaurationsbesøg eller antallet af ledige jobs. De generelle data omfatter dels de såkaldte mobilitetsdata fra Google og Apple, og dels data for kreditkorttransaktioner. Mobilitetsdata er baseret på registreringer i forbindelse med brug af mobiltelefoner. Apple baserer sin opgørelse på antallet af anmodninger om vejvisning i Apple Kort, og  Google baserer sin på registrerede besøg i f.eks butikker og parker.

    Den store fordel ved de organiske data er deres aktualitet. Både Apple og Google offentliggør deres mobilitetsdata dagen efter aktiviteten har fundet sted. Så hurtigt kan traditionel statistik slet ikke produceres. Til gengæld har den traditionelle statistik haft ry for at være mere pålidelig, men her spiller det ind, at Covid19-krisen har haft negativ indflydelse på kvaliteten, bl.a. fordi myndighederne midlertidigt har lempet indberetningskravede til virksomhederne.

    Men der er også store kvalitetsproblemer i de organiske data. Mobilitetsdata bruger januar måned som sammenligningsgrundlag, og sammenblander dermed sæsonmønstre i udviklingen med virkningen af Covd19. The Economist påpeger også at mobiliteten, som den måles af Apple og Google, ikke nødvendigvis afspejler økonomisk aktivitet. For kreditkorttransaktionerne sløres billedet af, at frygten for smittespredning kan have påvirket valget mellem kontant- og kortbetaling. Data for specifikke områder vedrører oftest privatforbruget, der ganske vist udgør en meget stor del af den samlede økonomiske aktivitet, men uden data for investeringsaktiviteten, der er langt mere volatil end privatforbruget, bliver billedet af den samlede konjunkturudvikling upålideligt.

    The Economist’s konklusion er, at organiske data har været et nyttigt supplement til den traditionnelle økonomiske statistik under covid19-krisen, og også fremover kan bidrage til forbedring af de ektisterende opgørelser. Men de gode gamle metoder, der i en lang periode har vist deres værdi, står ikke foreløbig overfor total udskiftnking.

    Referencer:
    Economist: “Why real-time economic data need to be treated with caution”, Economist 23/7-2020
    Apple: “Mobilitetstendenser”, (link)
    Google: “Rapporter om lokale bevægelsesmønstre“, (link)

  • Sundhedsstatistik under COVID-19 epidemien

    Som omtalt i det forige indlæg har Danmarks Statistik i forbindelse med COVID-19 krisen etableret en særlig hjemmeside med statistik om udviklingen i både den sundhedsmæssige og den økonomiske situation. Her er tale om statistikker, der hurtigt kan belyse udviklingen — såkaldt konjunkturstatistik. Konjunkturstatistik står i modsætning til strukturstatistik, der lægger mere vægt på grundighed og detaljer, og som det tager længere tid at producere. Når det gælder de økonomiske indikatorer, er der en lang tradition for konjunkturstatistik i den officielle statistik, og der er derfor opbygget en omfattende viden omkring produktionen og tolkningen af den. Anderledes forholder det sig med sundhedsstatistikken, der traditionelt har været set som en strukturstatistik. Kortsigtsindikatorer ligger ikke lige for hånden, så de officielle statistikmyndigheder har måttet være kreative.

    En ideel epidemistatistik skulle dagligt opgøre bl.a. det samlede antal smittede, antallet af nye smittede, antallet af smittede med alvorlige symptomer og antallet af dødsfald forårsaget af epidemien. Sådanne opgørelser optræder da også på Danmarks Statistiks COVID19-hjemmeside, men de har nogle kvalitetsbrist. Antallet af smittede kan kun skaffes gennem målinger og man har kun testet personer, der opfyldte særlige kriterier, f,eks. viste alvolige symptomer på COVID-19. Opgørelserne er således ikke repræsentative for hele befolkningen. Da kriterierne ikke har ligget fast, giver tallene heller ikke et pålideligt billede af udviklingen. Omfanget af alvorlige tilfælde belyses ved antallet of hospitalsindlagte, specielt indlagte på intensivafdelinger og i repirator. Sålænge kriterierne for indlæggelse er uændrede, er det en udmærket indikator. Hvad dødsfald angår er problemet, at de hurtige opgørelser kun registrerer om afdøde var inficeret, men ikke om COVID-19 var dødsårsagen. Den egentlige statistik over dødsårsager er lidt længere undervejs.

    Ved internationale sammenligninger er problemerne endnu større, først og fremmest fordi  opgørelsesmetoderne i landene kan være meget forskellige. Det er tænkeligt, at man på sundhedsområdet kan etablere kortsigtsstatistikker (konjunkturstatistik) af den type, der er nævnt i foregående afsnit, som opfylder de sædvanlige kvalitetskrav for officiel statistik, men det vil tage noget tid, og de vil næppe kunne nå at blive operationelle i forbindelse med den nuværende epidemi. Den gode umiddelbare løsning er at tilpasse offentliggørelsen af  de eksisterende sundhedsstatistikker til de nye behov. Den simpleste og mest oplagte metode er at sammenligne det samlede antal af ugentlige (eller daglige) dødsfald med gennemsnittet for tilsvarende uger/dage i tidligere år. En sådan statistik er ved at komme i gang i mange lande herunder også Danmark, hvor den kan findes på Dannarks Statistiks COVID-19 side og i Statistikbanken

    I figuren nedenfor er vist udviklingen i det samlede antal døde pr uge i pct. af en beregnet normaldødelighed. Normaldødeligheden er beregnet som medianen for døde i pct. af den samlede befolkning (ved begyndelsen af kvartalet) i den tilsvarende uge i årene 2017-2019.

    Ugentlig overdødelighed 2018 uge 1 – 2020 uge 17

    Kilde: Danmarks Statistík, www.statistikbanken.dk/DODC2

    Som det fremgår af figuren er det tydeligt, at der sker en stigning i overdødeligheden omkring uge 11, hvor epidemien ifølge WHO brød ud.

  • Eksperimentel statistik fra producenter af officiel statistik

    COVID-19 situationen har skabt et særligt behov for statistikker med kort produktionstid, der kan belyse centrale forhold omkring krisen, både vedrørende udbredelsen af epedemien og udviklingen i den økonomiske situation. På den baggrund har Danmarks Statistik på sit websted etableret en side,  hvor en række statistikker af denne type præsenteres. Siden har fået overskriften “Eksperimentel statistik og analyse”.

    Producenter af officiel statistik anvender begrebet eksperimentel statistik om opgørelser, der offentliggøres mens en planlagt statistik endnu er i udviklings- eller overvejelsesfasen. De offentliggjorte opgørelser lever ikke nødvendigvis fuldt ud op til de sædvanlige kvalitetskrav for officiel statistik, men kan dog være af interesse for kvalificerede brugere, der er indstillet på, at statistikken endnu ikke har fundet sin endelige form. Der kan f.eks være tale om, at den endnu ikke er fuldt dækkende for den population, den tilstræber at belyse, eller at metoderne ikke er færdigudviklede eller endelig fastlagt. For brugerne betyder det dels, at de på et tidligt tidspunkt kan anvende resultaterne, selvom det må ske med større forsigtighed end for færdige statistikker, og dels at de gennem feed-back kan bidrage til forbedring af det endelige resultat. De britiske statistikmyndigheder kar opstillet en række klare regler for, hvornår en statistik kan kaldes eksperimentel og hvornår den har nået en sådan grad af modenhed, at betegnelsen eksperimentel skal fjernes, men der eksisterer ikke en internationelt anerkendt definition på begrebet.

    En del af de opgørelser, der præsenteres på Danmarks Statistiks nye side, er gengivelser af statistik produceret af ikke-officielle prodcenter, f.eks Statens Serum Institut (indikatorer for smitetudbredelse og dødsfald), Danske Bank (forbrugsindikatorerpå grundlag af data fra MobilePay), Styrelsen for Arbejdsmarked og Rekruttering (indikatorer for arbejdsløshed mv.), Vejdirektoratet (Indeks for vejtrafik) og Storebæltsforbindelsen (personbilstrafik over Storebælt). Disse opgørelser er naturligvis meget nyttige, men de er ikke et led i en overvejet eller planlagt udvikling af den officielle statistik, og er derfor ikke eksperimentelle i den gængse betydning af ordet.

    Men den nyetablerede side indeholder også et par eksempler på egentlig eksperimentel statistik. Først og fremmest vises resultater fra Anløbsaktiviteten i danske havne , der hidtil kun har været offentliggjort i Statistikbanken. Denne statistiks grundlag er skibpositionsdata (AIS-systemet) leveret af Søfartsstyrelsen og er et eksempel på Danmarks Statistiks eksperimenter med anvendelse af big data (se tidl. indlæg). Særlig interessant er en ny statitsik, udarbejdet i samarbejde med Nationalbanken, der dagligt opgør antallet af flyafgange fra Københavns Lufthavn. Kilden er The OpenSky Network — en organisation, der indsamler omfattende data om flytrafik og stiller dem til rådighed i en åben datatbase. Det kan ses som et eksempel på Trusted smart statistics (se tidl . indlæg), hvor en offentlig statistikmyndighed — i dette tilælde Danmarks Statistik — ingen andel har i dataindsamlingen, men gennem sine metoder og redskaber skaber en pålidelig og brugbar statistik.

    Også Eurostat har offentliggjort en række statistikker, som de betegner som eksperimentelle, bl. a. en web-baseret opgørelse af populariteten af steder optaget på UNESCOs Verdensarvliste (se tidl. indlæg), en rapport om multinationale koncerner (se tidl. indlæg) og en longitudinel arbejdsmarkedsstatistik (se tidl. indlæg).

    Referencer:
    Danmarks Statistik: “Eksperimentel statistik og analyse”, (link)
    Danmarks Statistik: “Anløbsaktiviteten i danske havne (eksperimentel statistik)”, Statistikdokumentation (link)
    Eurostat: “Eksperimental statistics” (link)
    European Statistical Systen: “Experimental Statistic” (link)
    Office for Statistcs Regulation: “Experimental statistics – official statistics in development “, August 2019 (link)