Kategori: Statistikkvalitet

Kvalitetsgennemgang af den danske officielle statistik

25/10/2022          Taleboble Kommentarer

Eurostat gennemfører i disse år en gennemgang af kvaliteten af den officielle statistik i EU’s og EFTA’s medlemslande, de såkaldte peer-reviews (se tidl. indlæg). Resultatet af disse peer-reviews offentliggøres i landerapporter, og rapporten for Danmark er netop udkommet. Kvalitetsgennemgangen er først og fremmest rettet mod landenes nationale statistikinstitutter, der har hovedansvaret for den officielle statistik — i Danmarks tilfælde Danmarks Statistik —  men et udvalg af andre myndigheder, der bidrager til statistikindberetningen til EU, inddrages også. I Danmark findes 15 sådanne myndigheder, men kun tre af dem er udvalgt i denne gennemgang:  Energistyrelsen, Miljøstyrelsen og Udlændingestyrelsen.

Rapporten er udarbejdet af en undersøgelsesgruppe bestående af fire eksperter. Gruppen udtrykker generel tilfredshed med kvaliteten af den danske statistikproduktion, og bemærker i den forbindelse, at der er en høj grad af tillid til Danmarks Statistik blandt brugerne af statistikken. Men naturligvis er der stadig ting, der kan gøres bedre, og i rapporten oplister gruppen 22 punkter, hvor ændringer og forbedringer er ønskelige.

Siden forrige kvalitetsgennemgang i 2015 har Danmark fået en ny statistiklov i 2018 (se tidl. indlæg) Rapporten udtrykker generel tilfredshed med den nye lov og noterer, at den imødekommer mange af forslagene fra den forrige kvalitetsgennemgang i 2015. Undersøgelsesgruppen så dog gerne, at Danmarks Statistiks hjemmel til dataindsamling blev styrket, navnlig i forhold til data ejet af private virksomheder og institutioner. Gruppen mener også, at loven lægger nogle begrænsninger på Rigsstatistikerens autoritet der, skønt de ikke er af afgørende betydning, dog ikke er i overensstemmelse med EU’s retningslinjer for statistikproduktion. Endelig finder gruppen ikke, at databeskyttelsen er tilstrækkelig, og henviser til to konkrete sager, hvor Danmarks Statistik — efter gruppens opfattelse i strid med databeskyttelsesreglerne — er blevet pålagt at levere data indsamlet til statistisk brug til andre offentlige myndigheder, der derefter anvender de leverede data til administrative formål.

Blandt rapportens øvrige forslag og ønsker kan nævnes: forbedringer i dokumentation af metoder og kvalitet, bedre kvalitetsovervågning, bedre forståelse og bedre forklaringer hvor revisioner er hyppige og forholdsvis store (nationalregnskabet), bedre håndtering af databrud og øget anvendelse af sæsonkorrektion.

En vigtig forudsætning for vedligeholdelse og navnlig udvikling og forbedring  af statistikken er, at der er tilstrækkelige ressourcer til rådighed. Gruppen frygter, at der her er et problem, navnlig set i lyset af, at statens bevillinger til Danmarks Statistik har været faldende, på trods af, at kravene til statistikproduktionen, bla. fra EU, har været stigende. Gruppen opfordrer derfor regeringen til at sikre, at der er overensstemmelse mellem de lovmæssige krav til statistikken og de ressourcer, der stilles til rådighed.

Der er indtil nu offentliggjort kvalitetsrapporter for 11 lande. Rapporterne for de resterende lande forventes offentliggjort i løbet af de kommende 14 måneder, således at alle rapporter foreligger ved udgangen af 2023.

Referencer:
Eurostat: “Peer Review Report – Demmark”. April 2022 (link 25/10-2022)


EU’s overvågning af statistikkvalitet, peer review af Eurostat

23/08/2022          Taleboble Kommentarer

Som det tidligere er omtalt i denne blog (8/2-22) foregår i disse år er et omfattende kvalitetscheck af statistikken i EU- og EFTA-landene i form af de såkaldte peer-reviews. Der er på nuværende tidspunkt offentliggjort peer review rapporter for ti lande, og den elvte — om Danmark — kan ventes snart. Peer reviews spiller en vigtig rolle i Eurostats overvågning af de nationale statistikinstitutters overholdelse af at kvalitetskravene, som er fastlagt i Adfærdskodeks for Europæiske Statistikker. Eurostat er også selv omfattet af dette adfærdskodeks, men da Eurostat jo ikke kan overvåge sig selv, har Europaparlamentet og Det Europæiske Råd etableret et særligt organ, European Statistical Governance Advisory Board (ESGAB), der har til opgave at overvåge Eurostats overholdelse af adfærdskodekset. Det er derfor ESGAB, der står for peer review af Eurostat. Resultaterne af ESGAB’s peer review  blev offentliggjort i januar 2022.

ESGAB lægger i rapporten vægt på, at Eurostat skal fremstå som en rollemodel for de nationale statistikinstitutter og derfor må leve fuldt op til kravene i adfærdskodekset. I den sammenhæng finder ESGAB, at der er et par punkter, hvor der bør strammes op. Et af dem vedrører orientering af visse myndigheder — f.eks. regering og nationalbank – om statistikresultater før den officielle offentliggørelse (pre-releasing). Den praksis er adfærdskodekset meget kritisk overfor, men den forekommer i en vis udtrækning i EU-systemet, og ESGAB opfordrer til at den nuværende praksis gennemgås kritisk. ESGAB mener også, at de formelle regler for afskedigelse af chefen for Eurostat og for rekruttering og afskedigelse af ansatte på højt niveau bør strammes op, selvom der ikke i praksis er konstateret problemer. I sit svar til rapporten erklærer Eurostat sig dog uenig i, at der på disse personalemæssige områder er uoverensstemmelse med afdfærdskodekset.

ESGAB har naturligvis en række forslag til yderligere forbedringer. F.eks anbefales en udbredelse af adfærdskodeksets gyldighedsområde til også at omfatte EU-statistik produceret af andre end Eurostat, en udvidelse af samarbejdet med Den Europæiske Centralbank (ECB) og udvikling af en samlet strategi for anvendelse af nye digitale data. Men generelt udtrykker ESGAB tilfredshed med Eurostats virke og påskønner navnlig indsatsen i forbindelse med Covid-19 krisen, der på mange måder satte den officielle statistik under pres (jf. indlæg fra 21/9-2021)

Referencer:
Eurostat: “Peer Reviews, Current Round 2021-2023”, (link 23/8-2022)
ESGAB: “Annual Reports”, (link 23/8-20229)


Bog af Tim Harford om at skabe mening i statistik

09/08/2022          Taleboble Kommentarer

Alle læsere af denne blog må formodes at være enige i, at statistik er nyttig og nødvendig. De fleste vil nok også være enige i, at det kan kræve en indsats, at få styr på, hvad indholdet af en statistik egentlig er. En erfaren statistikbruger — økonomen Tim Harford — har gjort den proces lidt nemmere ved at skrive en bog med vejledning i, hvordan man skaber mening i en statistisk opgørelse. Bogens titel er The Data Detective  og udkom i februar 2021.

Bogens indhold er sammenfattet i følgende 10 råd:

  1. Vær bevidst om dine følelser
  2. Overvej din personlige oplevelse
  3. Undgå for tidlig opregning
  4. Træd tilbage og nyd udsigten.
  5. Tjek baggrundshistorien
  6. Spørg hvem der mangler
  7. Kræv gennemsigtighed, når computeren siger nej.
  8. Tag ikke det statistiske fundament for givet
  9. Husk, at misinformation også kan være smuk
  10. Fasthold et åbent sind

I listen har jeg ved farvemarkering opdelt rådene i tre grupper. Råd der vedrører hvordan man mentalt forholder sig, når en statistik vurderes og analyseres, er markeret med rødt, konkrete råd vedrørende vurdering af statistikkens kvalitet er markeret med blåt, og to råd — det syvende og det ottende —  der mere principielt vedrører datagrundlaget og dets tilvejebringelse er markeret med grønt. Jeg vil i det følgende give en kort uddybning af de to sidstnævnte råd. En kort sammenfatning af alle ti råd kan findes hos  Jessica Stillman, og i  Harford’s bog har hvert af rådene sit eget kapitel, hvor det uddybes grundigt.

Det ottende råd er en opfordring til at værdsætte de muligheder, den officielle statistik tilbyder. Hvis de officielle statistikproducenter overholder de internationale retningslinjer — og det gør producenterne i næsten alle udviklede lande — får man her en statistik, der er udarbejdet efter professionelle og vederhæftige principper, og som ledsages af en dokumentation, der gør det muligt for brugeren selv at vurdere statistikkens kvalitet (råd nr. 3-6) i forhold til hans konkrete behov. Statistikkvalitet er nemlig ikke et absolut begreb. Kvaliteten af en statistik kan være tilstrækkelig til et formål, men ikke til et andet. Det er brugerens opgave at vurdere, om kvaliteten er tilstrækkelig, men det er producentens opgave at levere den dokumntation, der  gør vurderingen mulig.

En helt central forudsætning for pålidelig officiel statistik af høj kvalitet er, at de institutioner, der producerer den officielle statistik, er professionelle og uafhængige. Som nævnt er det hovedreglen i udviklede lande, men det må ikke ses en som en selvfølge, og Harford opfordrer kraftigt til at støtte de personer — som han betegner som nørder — der i det daglige står for produktionen af den officielle statistik, især ved at beskytte dem mod pression. Han giver adskillige eksempler på at pression er forekommet. Et af de værste eksempler er den græske regerings behandling af chefstatistikeren Andreas Georgiou (beskrevet i denne blog i indlæg fra 18/2-2020, 16/10-2018 og 15/08-2017)

Det syvende råd handler navnlig om statistik baseret på anvendelse af organiske data (big data, 11/8-2020 og 19/5-2020). De meget store datamængder, der ofte ligger til grund for sådanne statistikker, kan forlede brugeren til at tro, at resultaterne har en høj grad af sikkerhed. I virkeligheden er de anvendte data ofte så usikre, at de er problematiske at anvende. Hertil kommer, at konklusionerne, som ofte er frembragt af algoritmer, der kun søger mønstre i datamaterialet, men ikke inddrager overvejelser om mulige årsager og virkninger, og slet ikke overvejer i hvilket omfang resultaterne kan generaliseres. Resultatet er, at de sammenhænge algoritmerne finder, kan vise sig ikke at holde, når de forsøges anvendt i praksis. Det hele forværres af, at både data og algoritmer ofte ejes af private virksomheder, der ser deres viden kom vigtige forretningshemmeligheder, og derfor kun i begrænset omfang offentliggør detaljer om data og metoder. Harford mener bestemt ikke, at man skal afstå fra at anvende organiske data, men han opfordrer til, at man kræver indsigt i kilder og metoder, på samme måde som det sker i den officielle statistik.

Harfords bog er på mange måder et modstykke til en af mest udbredte introduktioner til statistik: Hvordan man lyver med statistik af Dariel Huff. Som det fremgår af titlen, så tager Huff udgangspunkt i en anvendelse af statistikken, der kun kan betegnes som misbrug. Og naturligvis bliver statistiske metoder misbrugt til udbredelse af falsk information, men det er dog lidt skævt og negativt, at bygge en vejledning i anvendelse af et redskab på, hvordan redskabet kan misbruges. Tim Harford er bestemt ikke blind for, at misbrug af statistik forekommer. Misbruget kan være led i en bevidst vildledning, men ofte er der nok tale om misforståelser, og rigtigt anvendt og forstået er statistik et nyttigt og helt uundværligt værktøj.

Referencer:
Tim Harford: “The Data Detective – Ten Easy Rules to Make Sense of Statistics”, Riverhead 2021
Jessica Stillman: “10 Rules to Be Smarter About Statistics”, Inc. (link 1/8-2022)


Den tyrkiske statistikchef afskediget

22/02/2022          Taleboble Kommentarer

I slutningen af januar blev chefen for den tyrkiske statistikmyndighed (TUIK) — Sait Erdal Dincer — afskediget. Afskedigelsen skal ses på baggrund af en dyb uenighed mellem den tyrkiske præsident — Tayyip Erdogan — og de fleste økonomiske eksperter om omfanget af og årsagerne til inflationen i Tyrkiet. TUIK havde netop offentliggjort en årlig inflationsrate på 36 pct. og Erdogan er tilsyneladende overbevist om, at TUIK overdriver inflationens størrelse. Fra andre sider i Tyrkiet kritiseres TUIK til gengæld for for at undervurdere den faktiske vækst i leveomkostningerne. Dincer har fastholdt, at TUIK’s inflationsopgørelser opgøres som foreskrevet i de internationale retningslinjer for officiel statistik.

Sagen skal også ses i sammenhæng med Erdogans forhold til den tyrkiske centralbank. Centralbanker har som en væsentlig opgave at kontrollere inflationen, og de reagerer oftest på høje inflationstal ved at sætte renten op. Men da Erdogan er af den opfattelse, at midlet til at begrænse inflationen er at holde renten nede, har det givet anledning til konflikter, hvilket igen har medført, at direktøren for banken har været udskiftet tre gange siden 2019.

Det er en central del af de internationalt aftalte kvalitetskrav til officiel statistik, at statistikcheferne skal udpeges på grundlag af deres professionelle og videnskabelige indsigt, og at de i deres varetagelse af statistiske opgaver skal være uafhængige af øvrige myndigheder. Da afskedigelsen af Dincer ikke er begrundet i kritik af hans professionalisme, frygter International Statistical Institute (ISI) og International Association for Official Statistics (IAOS) — begge centrale og anerkendte professionelle organisationer for statistikere —  at der ligger et ønske om politisk kontrol med opgørelser og metoder bag opsigelsen. De to organisationer har derfor udsendt en erklæring hvor de opfordrer de tyrkiske myndigheder til at sikre TUIK’s muligheder for levere pålidelig statistik og til at overholde de internationale retningslinjer vedrørende kvaliteten af statistikken.

Det er ikke første gang man ser en regering søge at påvirke de officielle statistiske opgørelser i strid med de internationale retningslinjer. I Tyrkiets naboland, Grækenland, har man ligefrem retsforfulgt en statistikchef, der fulgte retningslinjerne, på trods af regeringens ønsker om at sløre statistikkerne (se indlæg fra 18/2-2020, 16/10-2018 og 15/8-2017). 

Referencer:
Economist: “Prices in Turkey are surging. But by how much?”, 31/7-2021
International Statistical Institute: “Reaction to the dismissal of the head of the Turkish Statistical Office”, 11/1-2022 (link 16/2-2022)
Middle East Eye: “Turkey: Erdogan sacks statistics chief and replaces justice minister”, 29/1-2022 (link 16/2-2022)


Kvalitetscheck af EU-landenes officielle statistik — peer reviews

08/02/2022          Taleboble Kommentarer

For at officiel statistik skal være brugbar, må den være af høj kvalitet. Så langt er alle enige. Hvad der mere konkret skal forstås ved høj kvalitet og hvordan forskellige aspekter af kvalitet skal prioriteres og afvejes, kan der derimod være uenighed om. EU, der i sin administration fuldstændig afhængig af højkvalitetsstatistik fra medlemslandene, har i publikationen “Adfærdskodeḱs for europæiske statistikker” ret præcist beskrevet de kvalitetskrav, som landene er forpligtet til at overholde i deres produktion af officiel statistik. Overholdelsen af reglerne kontrolleres dels gennem Eurostats løbende overvågning, og dels gennem mere systematiske gennemgange af landenes statistiksystemer — de såkaldte peer-reviews. Der blev gennemført peer-reviews i 2006-2008 og 2013-2015, og en tredje runde er i gang i øjeblikket. Den blev indledt i 2021 og forventes afslutttet i 2023.

Peer-review processen består af to trin: et omfattende spørgeskema der bevares af landets statistikmyndigheder og et besøg af en international undersøgelsesgruppe. Bevarelsen af sprøgeskemaet danner grundlag for undersøgelsesgruppens arbejde. Gruppens besøg finder sted ca. en måned efter besvarelsen af spørgeskemaet og varer 4-5 dage. Under covid-19 krisen har det været nødvendigt af gennemføre besøgene virtuelt. Efter kontrolbesøget udarbejdes en rapport, der offentliggøres på Eurostats hjemmeside. Processen omfatter alle medlemmer af det Europæiske Økonomiske Samarbejdsområde, dvs både EU-landene og EFTA-landene.

Undersøgelsesgruppen består af fire personer, der er udvalgt således at en de tilsammen afspejler en passende kombination af kompetencer, viden og færdigheder. Det er klart, at den nationale statistikmyndighed er genstand for peer-review processen, men også andre officielle statsitikproducenter inddrages. Efter besøget udarbejder undersøgelsesgruppen en beretning. Beretingen vil typisk indeholde en række ønsker om forbedringer med tilhørende forslag til, hvordan disse forbedringer kan gennemføres.

I alt 25 lande indgår i denne tredje runde. Der er på nuværende tidspunkt gennemført peer-reviews i 11 lande og der er offentliggjort rapporter for to lande (Frankrig og Estland).  For Danmarks vedkommende er det planen, at kontrolbesøget skal ske i marts 2022 og at rapporten offentliggøres i juli eller august 2022.

Efter afslutningen af peer-review runden skal der ske en opfølgning af de planer, der er fastlagt i beretningerne. Landene skal fra 2024 årligt rapportere til Eurostat om de fremskridt der er gjort i forbindelse med implementeringen af de foreslåede forbedringer, og Eurostat skal udarbejde en årlig rapport om de samlede fremskridt.

Referencer:
Eurostat: “European Statistical System Peer Reviews. Third round: 2021-2023 — Overall methodology”, 2020 (link 3/2-2022)
Eurostat: “Adfærdskodeks for Europæiske Statistikker”, 2017 (link 3/1-2022)
Eurostat: “Peer-Reviews: Current Round 2021-2023”, (link 7/2-2022)
Mirko Herzner: “Der Peer Review 2021 bis 2023 im Europäischen Statistischen System”, WISTA 2021 nr 5 (link 1/2/2022)


Covid-19 krisens udfordringer for den officielle statistik

21/09/2021          Taleboble Kommentarer

Covid-19 krisen har presset den officielle statistik fra to sider. På den ene side har der været krav om hurtig statistik til belysning af af pandemiens udbredelse og effekterne af tiltagene til at bekæmpe den, og på den anden side har krisen vanskeliggjort dataindsamlingen, og derved skabt problemer for kvaliteten af statistikken. Behovet for hurtig statistik har statistikmyndighederne søgt at imødekomme ved at offentliggøre supplementer til den traditionelle statistik, der kan leveres hurtigt, men ikke nødvendigvis opfylder de sædvanlige kvalitetskrav. Danmarks Statistik  præsenterer en række sådanne supplementer på sin hjemmeside under overskriften COVID-19 – hurtige indikatorer. Kvalitetsproblemerne har der derimod ikke på kort sigt været de store muligheder for at imødegå, på anden måde end ved at gøre brugerne opmærksomme på problemet. Verdensbanken og FN’s statistiske afdeling har søgt at danne sig et overblik over omfanget af de nationale statistikmyndigheders problemer gennem en række spørgeskemaundersøgelser. Tidsskriftet The Economist (Economist 2021) har i en artikel leveret en opsummering og vurdering af resultaterne af disse undersøgelser.

En stor del af de ansatte i alle verdens statistikmyndigheder har under krisen arbejdet hjemmefra og dataindsamling baseret på ansigt til ansigt kontakt med respondenter er stort set ophørt. I et vist omfang har besøgsinterview kunnet erstattes med telefon-, epost- eller internetbaserede interviews, og arbejde hjemmefra har kunnet understøttes af internetbaserede redskaber som videomøder. Men det kræver en veludbygget infrastruktur, som ikke findes alle steder, og navnlig ikke i fattige lande.

Særligt for folketællingerne er krisen opstået på et uheldigt tidspunkt. De fleste lande afholder folketælling hvert tiende år, og efter anbefaling fra FN har næsten alle lande valgt at afholde folketælling i 2020 eller 2021. Nogle lande har valgt at udskyde deres folketælling, og mangler derfor opdaterede data på centrale områder. Andre lande har gennemført tællingen, men har måtte opgive dele af dataindsamlingen, og står derfor med  tællingsresultater af en kvalitet, der er ringere end den sædvanlige. Folketællingerne danner på forskellig måde grundlag fra andre statistikker, så resultaterne af den forringede kvalitet vil kunne mærkes i statistikproduktionen mange år fremover.

Centrale konjunkturstatistikker har også været hårdt ramt af krisen. Det gælder f.eks. opgørelsen af inflationen. En væsentlig del af indsamlingen af prisdata er traditionelt varetaget af prisinspektører, der besøger butikker og restauranter mm, og observerer og registrerer priser på udvalgte produkter. Den metode har været vanskelig at gennemføre. En anden vigtig konjunkturstatistik — opgørelsen af arbejdsløsheden — har haft tilsvarende problemer. 

Danmarks Statistik har på flere måder været i en mere gunstig position end de fleste andre statistikmyndigheder, fordi en stor del af dataindsamlingen sker via offentlige registre, der i stort omfang har fungeret normalt eller næsten normalt under krisen. En vigtig kilde  som momsindberetningerne fra virksomhederne er dog blevet svækket af, at indberetningsfristerne for momsafregning har været udskudt, med heraf følgende problemer for bl.a nationalregnskabet. Men som Economist også påpeger, så er det danske registerbaserede statistiksystem ret unikt. Det har nogle historiske og kulturelle forudsætninger, der gør det vanskeligt for de fleste andre lande at opbygge noget tilsvarende. 

Referencer:
Danmarks Statistik: “COVID-19 – hurtige indikatorer”, (link, 18/7/2021)
Danmarks Statistik: “Nationalregnskabsberegninger set i lyset af COVID19”, 14/52020, (link, 20/7/2021)
Economist: “Covid-19 has stymied governments’ efforts to collect data”, The Economist 25/02/2021 (link,20/9-2021)
The World Bank: “Survey of National Statistical Offices (NSOs) during COVID-19”, The World Bank Brief (link)
The World Bank: “One Year Into the Pandemic : Monitoring the State of Statistical Operations Under COVID-19”, 30/7-2021 (link)
Craig Hammer m.fl.: “National statistical offices still face disruptions and challenges as they adapt to a “new normal”, The World Bank Blogs, 11/8-2021  (link)

 


USA’s højesteret standser dataindsamlingen til folketællingen

20/10/2020          Taleboble Kommentarer

I USA er indsamlingen af data til folketællingen for 2020 nu afsluttet. Præcis hvornår afslutningen skulle ske har været genstand for en politisk og juridisk strid, der nu er blevet afgjort af højesteret. Efter den helt oprindelige plan skulle dataindsamlingen afsluttes med udgangen af juli, men på grund af covid-19 krisen blev indsamlingsperioden først udvidet til udgangen af oktober, og senere igen afkortet til udgangen af september. Da en række eksperter udtrykte bekymring for, at afkortningen af indberetningsperioden kunne få negative følger for folketællingens kvalitet, indbragte en alliance af lokale myndigheder og borgerretsgrupper sagen for retten, med krav om at udgangen af oktober blev fastholdt som afslutningtidspunkt.

Alliancen fik i første omgang medhold ved en distriktsdomstol, og dataindsamlingen blev fortsat ind i oktober, men den den 13. oktober besluttede højesteret, at regeringen har ret til at afslutte dataindsamlingen. I praksis betyder det, at dataindsamlingen blev afsluttet den 15. oktober. Trods nederlaget i Højesteret kan klagerne altså glæde sig over, at de gennem distriktsdomstolens kendelse opnåede 15 dages ekstra indsamlingsperiode.

Når fastlæggelse af afslutningsdatoen for indsamlæingsperioden kunne blive et politisk stridsspørgsmål skyldes det først og fremmest, at folketællingens resultater afgør fordelingen mellem delstaterne af medlemmerne af Repræsentanternes Hus og af det valgmandskollegium, der vælger præsidenten. Der er en forventning om, at der er en overvægt af økonomisk og socialt dårligt stillede husstande blandt de senest indkomne besvarelser, og da sådanne husstande i højere grad antages at støtte Demokraterne, kan en republikansk præsident og regering alene af den grund have en interesse i så kort en indsamlingsperiode som muligt. Dertil kommer, at folketællingen også anvendes som fordelingsgrundlag for ydelser i forbundets sociale støtteprogrammer. Jo færre fattige, der optælles, jo færre midler til de fattigste områder, og tilsvarende flere til de knap så fattige.

Der er intet usædvanligt i, at en amerikansk folketælling er genstand for voldsomme politiske og juridiske slagsmål. Forfatningen fastlægger, at tællingen skal afholdes hvert tiende år, men siger meget lidt om det konkrete indhold. Der er derfor rig anledning til politisk uenighed, og med Højesterets rolle som fortolker af forfatningen kommer kampen til at udspille sig både i Kongressen og i Højesteret. Folketællingen for 2020 er dog nok en af de mest omstridte, navnlig fordi Trump-administrationen fra starten har udvist en meget kritisk holdning til officiel statistik i almindelighed og til Folketællingen i særdeleshed (se tidl indlæg, 19/9-2017 og 7/2-1017)

* Den amerikanske folketælling har tidigere være behandlet i flere indlæg i denne blog (4/2-2020, 14/5-201912/6-201819/9-2017 og 23/5-2017)

Referencer:
Mike Schneider: “Supreme Court halts census in latest twist of 2020 count”, AP News 14/10-2020 (link)


Organiske data (big data) skal anvendes med omtanke

11/08/2020          Taleboble Kommentarer

Som det er fremhævet i adskillige indlæg i denne blog (f.eks. 19/5-2020, 17/9-2019 og 26/4-2016 ) ligger der store muligheder i den officielle statistiks anvendelse af organiske data — ofte omtalt som big data. Covid-19 krisen har øget interessen for organiske data navnlig i forbindelse med sundhedsstatistikken og den økonomiske statistik. Danmarks Statistik har for at imødekomme behovene bl.a.  oprettet en særlig hjemmeside under overskriften Eksperimentel statistik (se indlæg fra 21/4-2020) med en række links til statistikker baseret på organiske data. Tidsskriftet The Economist har på baggrund af denne stigende interesse fundet anledning til at opfordre til forsigtighed og nærmere overvejelser, før man går alt for langt i retning af at lade de organiske data fortrænge de traditionelle i den økonomiske statistik.

Artiklen i The Economist skelner melem to hovekategorier af de organiske data, der har været i fokus: data der formodes at afspejle økonomien generelt og data, der belyser specifikke områder f.eks. restaurationsbesøg eller antallet af ledige jobs. De generelle data omfatter dels de såkaldte mobilitetsdata fra Google og Apple, og dels data for kreditkorttransaktioner. Mobilitetsdata er baseret på registreringer i forbindelse med brug af mobiltelefoner. Apple baserer sin opgørelse på antallet af anmodninger om vejvisning i Apple Kort, og  Google baserer sin på registrerede besøg i f.eks butikker og parker.

Den store fordel ved de organiske data er deres aktualitet. Både Apple og Google offentliggør deres mobilitetsdata dagen efter aktiviteten har fundet sted. Så hurtigt kan traditionel statistik slet ikke produceres. Til gengæld har den traditionelle statistik haft ry for at være mere pålidelig, men her spiller det ind, at Covid19-krisen har haft negativ indflydelse på kvaliteten, bl.a. fordi myndighederne midlertidigt har lempet indberetningskravede til virksomhederne.

Men der er også store kvalitetsproblemer i de organiske data. Mobilitetsdata bruger januar måned som sammenligningsgrundlag, og sammenblander dermed sæsonmønstre i udviklingen med virkningen af Covd19. The Economist påpeger også at mobiliteten, som den måles af Apple og Google, ikke nødvendigvis afspejler økonomisk aktivitet. For kreditkorttransaktionerne sløres billedet af, at frygten for smittespredning kan have påvirket valget mellem kontant- og kortbetaling. Data for specifikke områder vedrører oftest privatforbruget, der ganske vist udgør en meget stor del af den samlede økonomiske aktivitet, men uden data for investeringsaktiviteten, der er langt mere volatil end privatforbruget, bliver billedet af den samlede konjunkturudvikling upålideligt.

The Economist’s konklusion er, at organiske data har været et nyttigt supplement til den traditionnelle økonomiske statistik under covid19-krisen, og også fremover kan bidrage til forbedring af de ektisterende opgørelser. Men de gode gamle metoder, der i en lang periode har vist deres værdi, står ikke foreløbig overfor total udskiftnking.

Referencer:
Economist: “Why real-time economic data need to be treated with caution”, Economist 23/7-2020
Apple: “Mobilitetstendenser”, (link)
Google: “Rapporter om lokale bevægelsesmønstre“, (link)


Sundhedsstatistik under COVID-19 epidemien

05/05/2020          Taleboble Kommentarer

Som omtalt i det forige indlæg har Danmarks Statistik i forbindelse med COVID-19 krisen etableret en særlig hjemmeside med statistik om udviklingen i både den sundhedsmæssige og den økonomiske situation. Her er tale om statistikker, der hurtigt kan belyse udviklingen — såkaldt konjunkturstatistik. Konjunkturstatistik står i modsætning til strukturstatistik, der lægger mere vægt på grundighed og detaljer, og som det tager længere tid at producere. Når det gælder de økonomiske indikatorer, er der en lang tradition for konjunkturstatistik i den officielle statistik, og der er derfor opbygget en omfattende viden omkring produktionen og tolkningen af den. Anderledes forholder det sig med sundhedsstatistikken, der traditionelt har været set som en strukturstatistik. Kortsigtsindikatorer ligger ikke lige for hånden, så de officielle statistikmyndigheder har måttet være kreative.

En ideel epidemistatistik skulle dagligt opgøre bl.a. det samlede antal smittede, antallet af nye smittede, antallet af smittede med alvorlige symptomer og antallet af dødsfald forårsaget af epidemien. Sådanne opgørelser optræder da også på Danmarks Statistiks COVID19-hjemmeside, men de har nogle kvalitetsbrist. Antallet af smittede kan kun skaffes gennem målinger og man har kun testet personer, der opfyldte særlige kriterier, f,eks. viste alvolige symptomer på COVID-19. Opgørelserne er således ikke repræsentative for hele befolkningen. Da kriterierne ikke har ligget fast, giver tallene heller ikke et pålideligt billede af udviklingen. Omfanget af alvorlige tilfælde belyses ved antallet of hospitalsindlagte, specielt indlagte på intensivafdelinger og i repirator. Sålænge kriterierne for indlæggelse er uændrede, er det en udmærket indikator. Hvad dødsfald angår er problemet, at de hurtige opgørelser kun registrerer om afdøde var inficeret, men ikke om COVID-19 var dødsårsagen. Den egentlige statistik over dødsårsager er lidt længere undervejs.

Ved internationale sammenligninger er problemerne endnu større, først og fremmest fordi  opgørelsesmetoderne i landene kan være meget forskellige. Det er tænkeligt, at man på sundhedsområdet kan etablere kortsigtsstatistikker (konjunkturstatistik) af den type, der er nævnt i foregående afsnit, som opfylder de sædvanlige kvalitetskrav for officiel statistik, men det vil tage noget tid, og de vil næppe kunne nå at blive operationelle i forbindelse med den nuværende epidemi. Den gode umiddelbare løsning er at tilpasse offentliggørelsen af  de eksisterende sundhedsstatistikker til de nye behov. Den simpleste og mest oplagte metode er at sammenligne det samlede antal af ugentlige (eller daglige) dødsfald med gennemsnittet for tilsvarende uger/dage i tidligere år. En sådan statistik er ved at komme i gang i mange lande herunder også Danmark, hvor den kan findes på Dannarks Statistiks COVID-19 side og i Statistikbanken

I figuren nedenfor er vist udviklingen i det samlede antal døde pr uge i pct. af en beregnet normaldødelighed. Normaldødeligheden er beregnet som medianen for døde i pct. af den samlede befolkning (ved begyndelsen af kvartalet) i den tilsvarende uge i årene 2017-2019.

Ugentlig overdødelighed 2018 uge 1 – 2020 uge 17

Kilde: Danmarks Statistík, www.statistikbanken.dk/DODC2

Som det fremgår af figuren er det tydeligt, at der sker en stigning i overdødeligheden omkring uge 11, hvor epidemien ifølge WHO brød ud.


Eksperimentel statistik fra producenter af officiel statistik

21/04/2020          Taleboble Kommentarer

COVID-19 situationen har skabt et særligt behov for statistikker med kort produktionstid, der kan belyse centrale forhold omkring krisen, både vedrørende udbredelsen af epedemien og udviklingen i den økonomiske situation. På den baggrund har Danmarks Statistik på sit websted etableret en side,  hvor en række statistikker af denne type præsenteres. Siden har fået overskriften “Eksperimentel statistik og analyse”.

Producenter af officiel statistik anvender begrebet eksperimentel statistik om opgørelser, der offentliggøres mens en planlagt statistik endnu er i udviklings- eller overvejelsesfasen. De offentliggjorte opgørelser lever ikke nødvendigvis fuldt ud op til de sædvanlige kvalitetskrav for officiel statistik, men kan dog være af interesse for kvalificerede brugere, der er indstillet på, at statistikken endnu ikke har fundet sin endelige form. Der kan f.eks være tale om, at den endnu ikke er fuldt dækkende for den population, den tilstræber at belyse, eller at metoderne ikke er færdigudviklede eller endelig fastlagt. For brugerne betyder det dels, at de på et tidligt tidspunkt kan anvende resultaterne, selvom det må ske med større forsigtighed end for færdige statistikker, og dels at de gennem feed-back kan bidrage til forbedring af det endelige resultat. De britiske statistikmyndigheder kar opstillet en række klare regler for, hvornår en statistik kan kaldes eksperimentel og hvornår den har nået en sådan grad af modenhed, at betegnelsen eksperimentel skal fjernes, men der eksisterer ikke en internationelt anerkendt definition på begrebet.

En del af de opgørelser, der præsenteres på Danmarks Statistiks nye side, er gengivelser af statistik produceret af ikke-officielle prodcenter, f.eks Statens Serum Institut (indikatorer for smitetudbredelse og dødsfald), Danske Bank (forbrugsindikatorerpå grundlag af data fra MobilePay), Styrelsen for Arbejdsmarked og Rekruttering (indikatorer for arbejdsløshed mv.), Vejdirektoratet (Indeks for vejtrafik) og Storebæltsforbindelsen (personbilstrafik over Storebælt). Disse opgørelser er naturligvis meget nyttige, men de er ikke et led i en overvejet eller planlagt udvikling af den officielle statistik, og er derfor ikke eksperimentelle i den gængse betydning af ordet.

Men den nyetablerede side indeholder også et par eksempler på egentlig eksperimentel statistik. Først og fremmest vises resultater fra Anløbsaktiviteten i danske havne , der hidtil kun har været offentliggjort i Statistikbanken. Denne statistiks grundlag er skibpositionsdata (AIS-systemet) leveret af Søfartsstyrelsen og er et eksempel på Danmarks Statistiks eksperimenter med anvendelse af big data (se tidl. indlæg). Særlig interessant er en ny statitsik, udarbejdet i samarbejde med Nationalbanken, der dagligt opgør antallet af flyafgange fra Københavns Lufthavn. Kilden er The OpenSky Network — en organisation, der indsamler omfattende data om flytrafik og stiller dem til rådighed i en åben datatbase. Det kan ses som et eksempel på Trusted smart statistics (se tidl . indlæg), hvor en offentlig statistikmyndighed — i dette tilælde Danmarks Statistik — ingen andel har i dataindsamlingen, men gennem sine metoder og redskaber skaber en pålidelig og brugbar statistik.

Også Eurostat har offentliggjort en række statistikker, som de betegner som eksperimentelle, bl. a. en web-baseret opgørelse af populariteten af steder optaget på UNESCOs Verdensarvliste (se tidl. indlæg), en rapport om multinationale koncerner (se tidl. indlæg) og en longitudinel arbejdsmarkedsstatistik (se tidl. indlæg).

Referencer:
Danmarks Statistik: “Eksperimentel statistik og analyse”, (link)
Danmarks Statistik: “Anløbsaktiviteten i danske havne (eksperimentel statistik)”, Statistikdokumentation (link)
Eurostat: “Eksperimental statistics” (link)
European Statistical Systen: “Experimental Statistic” (link)
Office for Statistcs Regulation: “Experimental statistics – official statistics in development “, August 2019 (link)


Den officielle statistiks rolle i et digitaliseret og globaliseret samfund

03/03/2020          Taleboble Kommentarer

Vilkårene for de officielle statistikmyndigheders arbejde er i hastig forandring, især drevet af digitataliseringen og globaliseringen. Digitaliseringen giver nye muligheder, men rejser også store forventninger hos brugerne, og globaliseringen påvirker både det forventede/krævede indhold af statistikken og sætter nye rammer for produktionen. En tidligere generaldirektør for Eurostat — EU’s statistiske kontor — Walter J. Radermacher har i en interessant artikel gjort sig nogle overvejelser over både karakteren af udfordringerne og de mulige måder at håndtere dem på.

Forståeligt nok ønsker politikere og andre beslutningstagere at udnytte de store mængder information, der — bl.a. som følge af digitaliseringen  — er til rådighed. Forskellige betegnelser, f.eks, “evidensbaseret beslutningstagning”, “data for politics” og  “governing by the number” har været anvendt om den type bestræbelser. Emnet er meget omfattende og berører mange former for informationssøgning og -behandling. Den officielle statistik er blot et af elementerne, men dog et af de væsentlige.

Et af de markante træk i udviklingen i offentlig administration i de senere år  har været en privatisering af funktioner, der traditionelt har været anset for en del af det offentlige system. Postvæsen jernbaner og radio og TV er eksempler. Men det er også markant, at privatisering af den officielle statistik ikke har været forsøgt, og der er heller ikke er udsigt til, at det vil ske. Der ser ud til at være en generel erkendelse af, at den traditionelle officielle statistik er en vigtig del af et moderne samfunds infrastruktur. Eller sagt på en anden måde: der er forventninger til at den officielle statistik kan yde et vigtigt bidrag til til den information, beslutningstagerne har brug for. Det centrale spørgsmål er så, hvori forventningerne mere præcist består, og hvordan statistikmyndighederne kan leve op til disse forventninger. Radermacher søger at finde svaret ved at analysere den officielle statistiks fumktion og vilkår, både i et historisk og et nutidigt perspektiv og i lyset af nogle forventninger omkring den fremtidige udvikling.

En af de vigtigste opgaver statistikmyndighederne skal løse er at sikre opretholdelse (eller måske i nogle tilfælde genoprettelse) af tilliden til den officielle statistik i en tid, hvor tilliden til autoriteter er faldende. En offentlig statistikmyndighed skal levere fakta, og det er i den forbindelse efter Radermachers opfattelse vigtigt at gøre sig klart, at fakta er et resulatat af en proces, dvs. at fakta er noget, der produceres. Råvaren for faktaproduktionen er data. Data kan f.eks. bestå i digitale registreringer, der kan være meget omfattende, men som ikke er direkte anvendelige som grundlag for beslutninger. De skal først omformes til fakta gennem en proces, der kan være både meget ressourcekrævende, herunder meget vidensintensiv. Men det er fakta — ikke data — der efterspørges af beslutningstagerne.

En konsekvens af at fakta er produceret er at de som alle andre produkter kan være af forskellig kvalitet og normalt ikke kan være fuldkomne. Fakta er med andre ord ikke lig med sandheden. I det hele taget er sandhed ikke efter Radermachers opfattelse et hensigtmæssigt begreb i denne sammenhæng. Det hensigtsmæssige begreb er kvalitet. Fakta af høj kvalitet er ønskelige, og de fremkommer gennem en produktionsproces, der opfylder en række kvalitetskrav. Men de er aldrig perfekte, og det er heller ikke tilstræbt at gøre dem perfekte. Kvaliteten er et resultat af de ressourcer, der er anvendt på at producere dem, og indsatsen af ressurcer sker efter en afvejning af ønsket om høj kvalitet og begrænsning af produktionsomkostningerne. I sidste ende er denne afvejning en politisk beslutning. En af Radermachers bekymringer er, at der opbygges store forventninger til omfanget af de fakta, der kan leveres på grundlag af de enorme datatmængder den digitale udvikling skaber, men at forståelsen af kvalitetskravene og de omkostninger der er forbundet med høj kvalitet, ikke helt kan følge med. At der altså kan opstå forventninger om en både omfattende og billig statistik, som statistikmyndighederne ikke samtidig kan leve op til. Et dilemma, der helt sikkert  kan genkendes af mange andre institutioner.

Et gennemgående træk i Radermachers overvejelser er en konstatering af at faktaproduktion er en omfattende proces der involverer mange typer af ressourcer og mange fag- og brugergrupper. Det bliver derfor vigtigt på produktionssiden både at forbedre eksisterende modeller for samarbejde mellem faggrupper og at udvikle nye. Men også i beslutningsprocessen er det nødvendigt med øget inddragelse af brugerne for at sikre, at forventningerne både til omfang og kvalitet er realistiske, og at de i videst muligt omfang opfyldes.

Radermacher har øje for, at statistikmyndighederne er helt bevidste om både de mange krav og de mange muligheder, og også har iværksat initiativer der udnytter og udforsker mulighederne. Men en stor indsats er også nødvendig. Mister brugerne tilliden til kvaliteten af den officielle statistik bliver den irrelevant og vil ikke kunne overleve, samtidig med at de problemer, som den skulle  bidrage til at løse ikke bliver mindre. Samfundet får svært ved at undvære den officielle statistik, så det er et stort ansvar, der hviler på statistikmyndighederne.

Referencer:
Walter J. Radermacher : “Governing-by-the-numbers/Statistical governance: Reflections on the future of official statistics in a digital and globalised society”, Statistical Journal of the IAOS 35 , 2019 (link)


Retssagerne mod Andreas Georgiou — tidligere græsk statistikschef

18/02/2020          Taleboble Kommentarer

Græsk statistik har ikke noget godt ry. Tilbage i 2010 leverede EU-kommisionen en sønderlemmende kritik af den officielle græske statistik, og krævede en revision af både metoder og organisation. Den græske regering udpegede Andreas Georgiou — en velrennomeret økonom, der på det tidspunkt arbejdede for IMF — til at stå for genopretningen. Den gennemførte han med stor succes, og på forholdsvis kort tid fik han genskabt den internationale tillid til den officielle græske statistik. Det var af stor betydning, da de græske statsfinanser på det tidpunkt var i en kritisk forfatning og landet lå i vanskelige forhandlinger med sine debitorer. Debitorerne krævede etablering af en pålidelig statistik som en af betingelserne for at yde hjælp.

Men hvor George Georgiou høstede megen international anerkendelse for sin indsats, så var den gæske reaktion noget anderledes. En del af prisen for den ganskabte tillid til statistikken var, at den skulle være pålidelig, og at det ikke måtte være muligt for regeringen at  manipulere den. Det er et grundlæggende krav i både EU’s lovgivning og i FN’s retningslinier omkring officiel statsitik, men grækerne så det som en indskrænkning af de redskaber, de havde til rådighed i internationale forhandlinger. De mente, at de kunne have opnået bedre hjælpeaftaler hvis man — i strid med EU-reglerne — havde pyntet lidt på de officielle statistikker. Georgiou blev derfor opfattet som en forræder, der havde skadet Grækenlands nationale interesser.

Det førte til, at der blev rejst en række retsager  mod ham. Sagerne har tidligere været behandlet i denne blog (16/10-2018 og 15/8-2017). En række statistiske institutioner har udtrykt støtte til Gerogiou, og i november 2019 har American Statistical Association (ASA) udsendt en ny støtteerklæring, der opfordrer den nye gæske regering til at råde bod på den uretfærdige behandling, Georgiou har været udsat for . Det er dog ikke sandsynligt, at det vil ske. Medlemmer af premierminister Mitsotakis’ parti, Nyt Demokrati, som har en stor del af ansvaret for landets finansielle sammenbrud og manipulationen med statistikken, har været ivrige fortalere for retsforfølgelsen af Georgiou.

I en af sagene er han idømt to års betinget fængsel for pligtforsømmelse. Forseelsen bestod i, at han havde indberettet data til EU, uden først at have forelagt dem til godkendelse i statistikbureauets ledelse. Gorgious fremgangsmåde var i fuld  overensstemmelse med EU’s regler om chefstatistikerens rolle i forbindelse med sikringen af den officielle statistiks uafhængighed, som også Grækenland er forpligtet til at overholde. I en anden sag, et privat søgsmål om æreskrænkelse, er han dømt til at betale erstatning og at offentliggøre en undskyldning. Sagen er  rejst af Georgious forgænger som statistikchef, der føler sig krænket over Georgious udtalelser om den tidligere statistiske praksis. Sandheden i Geogious udtalelser er ikke anfægtet, men  græsk lov gør det muligt at sagsøge for æreskrænkelse, selvom de krænkende ytringer er i overensstemmelse med sandheden. Denne sag er appeleret og er for tiden under behandling af en appeldomstol. Herudover verserer yderligere to kriminalsager i systemet.

Referencer:
American Statisticel Association: “ASA Issues New Statement of Support for Greek Statistician Andreas Georgiou”, (link)
American Statisticel Association: “
Eight Years of Government Persecution of Greek Statistician” (link)
Miranda Xafa: “A Statistician’s Ordeal – The Case of Andreas Georgiou“, World Economics vol 20 No  3 July-Sept  2019 (link)
Miranda Xafa: A Statistician’s Prosecution For Slander”, World Economics 16 Januar 2020 (link)
European Commision: “Report on Greek Government Deficit and Debt Statistics”, Brussels 8/1-2010 (link)


Nationernes statistiske kapacitet

13/08/2019          Taleboble Kommentarer

For brugere af officiel statistik er det afgørende at kunne stole på, at statistikproducenten har viljen og evnen til at levere statistik af tilstrækkelig høj kvalitet. FN’s “Fundamentale Principper for Officiel Statistik” stiller krav om, at statistikproducenterne skal oplyse om deres kilder, metoder og procedurer, således at en bruger kan vurdere, om kvaliteten er tilstrækkelig til hans formål. For de fleste brugere vil det dog, selvom den nødvendige information er tilgængelig, være en stor og uoverskuelig opgave, selv at skulle foretage en grundig vurdering.

Heldigvis kan brugerne finde støtte i de vurderinger centrale statistikbrugere som EU og Verdensbanken stiller til rådighed. For EU-landene har EU’s statistiske kontor — Eurostat —  offentliggjort detaljerede rapporter, de såkaldte peer reviews, for alle medlemslande, og verdenbanken har beregnet og offentliggjort et kapacitetsindeks (Statistical Capacity Index, SCI) for en række lande.

Eurostats peer reviews er baseret på en grundig gennemgang af hvert lands statistiske system, hvor en lille gruppe eksperter, i samarbejde med landets statistiske myndigheder, undersøger og vurderer alle væsentlige aspekter af systemet. De resulterende rapporter er grundige, men systemet er kostbart og tidskrævene, så der går flere år mellem hver vurdering. Den seneste række af landerapporter er udarbejdet i perioden 2013-2015, og erstatter rapporter fra perioden 2006-2008.

 Verdensbankens SCI-indeks er baseret på en simplere metode, baseret på offentligt tilgængelige data. Det muliggør beregning af indeks hvert år, således at indekset kan anvendes som indikator for den løbende udbygning af et lands statistiske kapacitet, hvilket også er et af formålene. I teorien kunne indekset beregnes for alle lande, men er i praksis kun beregnet for 146  fortrinsvis lav- og mellemindkomstlande.

SCI blev udviklet i 2004. Siden da har kravene til den officielle statistikproduktion ændret sig, bl.a som følge af globalisering og fremkomsten af nye datakilder, nye beregningsmetoder og nye præsentationsformer. Det har ført til overvejelser om en revision af SCI, og i et arbejdsnotat fra Verdensbanken præsenteres et forslag til et nyt indeks, Statistical Performance Index (SPI). Det planlagte nye SPI-indeks adskiller sig fra det hidtidige SCI-indeks bl.a. ved at  inddrage flere dimensioner og omfatte flere lande, herunder også højindkomstlande.  

Referencer:
Michael M. Lokshin, Hai-Anh H. Dang, James Foster, Mustafa Dinc og Grant J. Cameron:
Measuring the Statistical Capacity of Nations”, WORLD BANK…BLOGS, 5/2-2019 (link)
Grant J. Cameron, Hai-Anh H. Dang, Mustafa Dinc, James Foster og Michael M. Lokshin: 
“Measuring the Statistical Capacity of Nations”, World Bank Group, Policy Research Working Paper 8693, januar 2019 (link)
UN Statistics Division: “Fundamental Principles of Official Statistics”, E/RES/2013/21 (link)
Eurostat: “Peer Reviews in the European Statistical System”, (link)
The World Bank: “Data on Statistical Capacity”, (link)

 


Differential privacy i den amerikanske folketælling

14/05/2019          Taleboble Kommentarer

Som omtalt i mit tidligere indlæg om differentiel privacy (link) har man i USA besluttet, at differential privacy (i det følgende kaldet DP) skal være grundlaget for fortrolighedsbeskyttelsen i den amerikanske folketælling for 2020.  Den beslutning har stillet Folketællingsbureauet (Census Bureau) over for en række udfordringer. Bureauets afdelingsdirektør for forskning og metode — John Abowd — har i et foredrag offentliggjort på YouTube leveret nogle overvejelser omkring disse udfordringer. Han har også sammen med  Simson L. Garfinkel og Sarah Powazek lidt dybere redegjort for udfordringerne i artiklen Issues Encountered Deploying Differential Privacy“.

DP er et ret nyt forskningsobjekt — de første artikler om emnet udkom i begyndelsen af dette årtusind —  så en af udfordringerne har været, at finde kvalificeret personale og egnede redskaber bl.a i form af programmel og matematiske metoder. I det omfang programmel og metoder eksisterer, har de vist sig ikke umiddelbart at kunne opfylde bureauets konkrete behov, så udviklingen af nye metoder er også en udfordring. Men den største udfordring er efter Abowds opfattelse at få brugerne til at forstå, at de nye offentliggørelsesprincipper, som bliver følgen af DP, i mange tilfælde kræver, at de de hidtil anvendte modeller, værktøjer og metoder må ændres.

Det er et centralt led i en DP-baseret fortrolighedpolitik, at den samlede information, der kan offentliggøres på grundlag af en given database, i dette tilfælde folketællingsresultaterne, må begrænses. Det kan ske ved lægge loft over omfanget af data , der offentliggøres, eller ved af mindske præcisionen i offentliggørelserne. Præcisionen mindskes ved de tal der offentliggøres afviger lidt fra de faktisk opgjorte tal. Det kaldes at indlægge støj i opgørelserne. I praksis vil en kombination af de to metoder blive anvendt

Hvor megen information, der tillades udtrukket af databasen, skal afgøres på forhånd ud fra en afvejning mellem risikoen for fortrolighedsbrud og ønsket om mest mulig information. Det er en politisk og ikke en teknisk afvejning, så den afgørelse vil blive truffet i en politisk beslutningsproces. Resultatet bliver et informationsbudget, som herefter skal fordeles mellem forskellige anvendelser. Det kan næppe undgå at give konflikter mellem forskellige brugerinteresser. Det vil nok også skabe utilfredshed hos brugerne, at deres hidtidige metoder og programmer skal tilpasses.  F.,eks. vil mikrodatasæt ikke nødvendigvis kunne leveres i den hidtidige form.

Referencer:
Simson L. Garfinkel, John M. Abowd og Sarah Powazek:  “Issues Encountered Deploying Differential Privacy”, arXiv:1809.02201v1 [cs.CR] 6 Sep 2018 (link)
 John M. Abowd: “
Stepping-up: The Census Bureau Sets an Example of How to Be a Good Data Steward in the 21st Century”, YouTube (link) 


Offentliggørelse af usikkerhed i officiel statistik — COMUNIKOS-projektet

07/05/2019          Taleboble Kommentarer

Resultatene fra en officiel statistisk opgørelse præsenteres sædvanligvis som en række observationer, f.eks antal personer og gennemsnitlig indkomst, vedrørende en række klart afgrænsede delpopulationer, f.eks. aldersgrupper. I enkelte tilfælde bliver der i forbindelse med offentliggørelsen leveret nogle oplysninger omkring usikkerheden på opgørelserne, og i dokumentationen af statistikkerne findes altid en vurdering af usikkerheden. Denne vurdering er dog oftest ret generel og holdt i vage vendinger. Der er ikke tradition for en systematisk, formaliseret og standardiseret præsentation af usikkerheden i statistiske opgørelser.

Med henblik på dels at skabe bedre overblik over eksisterende metoder og praksis for præsentation af usikkerheden i opgørelse af officiel statistik, og dels at vurdere mulighederne for forbedringer i præsentationen, er der i EU-regi blevet etableret et projekt under overskriften “Communicating Uncertainty in Key Official Statistics” — forkortet COMUNIKOS. Som pilotprojekt er valgt opgørelsen af forbrugerprisindeks på grundlag af scannerdata. Projektet forventes afsluttet i juni2020 og resultaterne vil løbende blive rapporteret.

Referencer:
EU: “Conunikos-projektets hjemmeside” (link)


Differentiel privacy som grundlag for beskyttelse af statistisk fortrolighed

23/04/2019          Taleboble Kommentarer

Det er et centralt krav til den officielle statistik at den skal levere pålidelige og detaljerede data til alle brugere. Det er også et centralt krav, at den skal sikre statistisk fortrolighed, herunder beskyttelse af dataleverandørernes identitet. Kravene fremgår bla. af EU’s Adfærdskodeks for Europæiske Statistikker. De to krav kan stride imod hinanden, så ved offentliggørelse må der foretages en afvejning af de to krav. I praksis har man hidtil løst problemet ved simple metoder, som at undlade offentliggørelse af celler i tabeller, hvis cellen kun omfatter meget få enheder, eller ved at anonymisere mikrodata, før de stilles til rådighed for forskere.

De simple metoder har været anset for tilstrækkelige, fordi det er blevet betragtet som utænkeligt, at nogen ville forsøge at udlede beskyttede data fra statistikkerene ved at kombinere forskellige opgørelser fra den samme kilde. Ikke fordi det i princippet var umuligt, men fordi det ville kræve så omfattende ressourcer, bl.a.  i form af computerkraft, at ingen ville finde det umagen værd.

Det er ikke nødvendigvis tilfældet længere. Computerkraft er blevet billigere og blandt producenter af statistik har den erkendelse bredt sig, at der nu er en seriøs risiko for alvorlige angreb på statistikkernes fortrolighedsbeskyttelse. Det har skærpet bevistheden om afvejningsproblemet, for man har også erkendt, at fuld beskyttelse af fortroligheden kan kun opnås ved helt at undlade offentliggørelse. Derfor er den  eneste praktiske mulighed, at man på forhånd gør sig overvejelser om, hvor stor en risiko for brud på fortroligheden, man vil acceptere, og efterfølgende indretter sin publiceringspolitik på det grundlag.

En metode til at beskyttelse af fortroligheden er at gå på kompromis med præcisionen i opgørelserne. I stedet for at offentliggøre det tal der faktisk fremgår af de statistiske opgørelser, så offentliggøres et lidt afvigende tal. Er det korrekte tal f.eks 1, kan man vælge at offentliggøre 0 eller 2 i stedet. Den tekniske betegnelse for fremgangsmåden er at indlægge støj i resultaterne. Brugeren vil stadig få en brugbar indikation af størrelsesordenen samtidig med, at det bliver vanskeligere at gennemføre et vellykket angreb på fortrolighedsbeskyttelsen.   

Differential privacy er en egenskab ved en matematisk teknik, der gør det muligt, at fastlægge hvor meget støj, der skal implementeres i forbindelse med offentliggørelsen, for at sikre et givet niveau af fortrolighedsbeskyttelse. Før offentliggørelsen påbegyndes fastlægges et såkaldt fortrolighedsbudget, der er et mål for, hvor meget og hvor detaljeret der kan offentliggøres. Differential privacy leverer redskaberne til at opgøre budgettet, når beskyttelsesniveauet er fastlagt. Fastlæggelsen af hvilket beskyttelsesniveau, man vil acceptere,  kan differentiel privacy-metoderne derimod ikke bidrage til. Det er og bliver et  politisk spørgsmål.   

Når fortrolighedsbudgettet er fastlagt, skal det afgøres, hvilke tabeller der skal offentliggøres. Hver tabel, der offentliggøres, trækker på budgettet, så det skal nøje overvejes, hvilke tabeller man vil vælge at offentliggøre. Enhver offentliggørelse belaster budgettet, således at der blive mindre til rådighed for andre offentliggørelser. Og budgettet lægger naturligvis en øvre grænse for, hvor meget der i alt kan offentliggøres.

USA’s folketællingsbureau har besluttet, at differentiel privacy skal være grundlaget for fortrolighedspolitikken i forbindelse med den næste folketælling der finder sted i 2020. Forberedelserne har givet anledning til en række erfaringer og overvejelser om, hvordan anvendelse af differentiel privacy i officiel statistik på en række områder vil ændre den måde hvorpå statistikken opfattes og anvendes. Disse erfaringer og overvejelser vil jeg vende tilbage til i et senere indlæg.

Referencer:
Eurostat:
“Adfærdskodeks for Europæiske Statistikker”, Eurostat 2017 (link)
Hector Page, Charlie Cabot & Kobbi Nissim,: Differential privacy: an introduction for statistical agencies,  Privatar 2018 (link)


Kvaliteten af det kinesiske nationalregnskab

26/03/2019          Taleboble Kommentarer

Der er blandt verdens brugere af officiel statistik en kritisk holdning til kvaliteten af den officielle kinesiske statistik. Landets centrale statistikmyndighed anses generelt for kompetent, men der er naturligt nok store vanskeligheder, der skal overvindes, landets størrelse, historie og administrative system taget i betragtning. Hertil kommer, at åbenheden om problemer og metoder er begrænset. Da Kinas stigende rolle i vedensøkonomien, som den bla. viser sig i bruttonationalproduktet (BNP) og andre størrelser fra nationalregnskabet, medfører et øget behov for pålidelig statistik, har flere forskere førsøgt at vurdere størrelsen af de formodede skævheder i den kinesiske statistik, og at udarbejde alternative skøn, der søger at korrigere for disse skævheder.

Et eksempel er en gruppe forskere — en fra University of Chicago og tre fra Chinese University of Hong Kong — der for nyligt har offentliggjort en kritisk gennemgang af nogle centrale størrelser i det kinesiske nationalregnskab. De kalder ligefrem deres gennemgang for kriminalteknisk (forensic) undersøgelse. Deres fremgangsmåde er. at sammenligne de officielle nationalregnskabstal med andre målinger, som de betragter som mere pålidelige. I tabellen herunder er de officielle opgørelser af Kinas bruttonationalprodukt sammenholdt med ét af forskergruppens skøn.

Årlig vækst i Kinas bruttonationalprodukt (pct.) siden 2007

År Officielle data Moms-korrigeret
2007 23,15 23,15
2008 18.24 16,25
2009 9,25 7,92
2010 18,32 14,99
2011 18.47 15,43
2012 10,44 9,86
2013 10,16 8,77
2014 8,19 6,48
2015 7,00 6,20
2016 7,91 6,62
Gennensnit 12,00 10,28

Kilde: Wei Chen Chinese, Xilu Chen, Chang-Tai Hsieh & Zheng (Michael) Song, tabel 2

Tabellens første kolonne viser den officielle opgørelse af væksten i det kinesiske bruttonationalprodukt (BNP). Den anden viser en skønnet vækst opgjort på grundlag of udviklingen i momsprovenuet.

De officielle tal er baseret på indberetninger fra de lokale statistikmyndigheder i Kinas provinser. Det er opfattelsen hos de fire forfattere, at de centrale statistikmyndigheder gør sig store anstrengelser for at etablere pålidelige skøn, men at det samme ikke er tilfældet for de provinsernes lokale myndigheder. De er under pres fra lokale administrative myndigheder for at overvurdere væksten i indberetningerne, fordi væksten indgår som en faktor i deres aflønnings- og forfremmelsessystem. Det er de centrale myndigheder fuldt bevidste om, og søger at kompensere for det, ved at justere de indberettede tal nedad ved opgørelsen af Kinas samlede vækst.

Når det gælder indberetningen af momsprovenuet har de lokale myndigheder ingen interesse i at undervurdere indberetningerne, da de får del i indtægterne. Derfor har de fire forfattere antaget, at man kunne opnå et mere pålideligt skøn, ved at estimere væksten i BNP med udgangspunkt i væksten i momsprovenuet.

Som det fremgår af tabellen, ligger de momsbaserede skøn lavere end de officielle. Konklusionen er, at de  officielle tal overvurderer væksten i den kinesiske økonomi. Der er stadig tale om en høj vækst, men den gennemsnitlige årlige vækst er ifølge denne beregning overvurderet med 1,7 procentpoint. Set over en tiårig periode betyder det en overvurdering af det samlede BNP på omkring 14 pct.

Gruppen har også opgjort et alternativt skøn baseret på en model, hvor nationalproduktet bestemmes på grundlag af en række variable uden for nationalregnskabet. De anvendte variable er  det samlede skatteprovenu, eksport, import, forbrug af elektricitet, godstransport på jernbane, nye banklån og nattelys registeret af satellitter. Resultaterne fra de modelbaserede skøn peger i samme retning som de momsbaserede.

Referencer:
Wei Chen Chinese, Xilu Chen, Chang-Tai Hsieh & Zheng (Michael) Song: “A Forensic Examination of China’s National Accounts”, Brookings 7/3 2019 (link)
Dmitriy Plekhanov: “Quality of China’s Official Statistics: A Brief Review of Academic Perspectives”, The Copenhagen Journal of Asian Studies, Vol 35., no 1 (2017) (link)
The Economist: “China’s economy might be nearly a seventh smaller than reported”, 7/3-2019 (link)

 


Statistisk selvforsvar — Hvordan beskytter man sig mod vildledende statistik?

12/02/2019          Taleboble Kommentarer

Statistik er en tillidssag. Det har jeg ofte påpeget i denne blog. Det er derfor altid vigtigt at vide, hvem der har produceret en statistik, og at vurdere producentens troværdighed, før man for alvor begynder at anvende den. Men selv om en statistik er  produceret af en yderst pålidelig producent, og der ikke kan sættes en finger på dens grundlæggende kvalitet, så kan den blive præsenteret i en form, der gør den mere vildledende end informativ. Den nederlandske journalist, Sanne Blauw, giver i en YouTube video en række råd til brugere af statistik om, hvordan man kan undgå at blive ført bag lyset af en vildledende præsentation. Statistisk selvforsvar kalder hun det.

Blauw tager udgangspunkt i fem kategorier af  — bevidst eller ubevidst — statistisk vildledning, og giver eksempler på hver af dem. Om alle eksemplerne er lige velvalgte er åbent for diskussion, men det er uden betydning for relevansen af hendes advarsler. Og gennemgangen er ganske underholdende.

De fem vildledningskategorer er:

Den overbevisende graf
(The good-looking graph)
Grafer, der ved første øjekast virker overbevisende, men som ved nærmere eftersyn viser sig at være misvisende
Den misvisende måling
(The polluted poll)
Målinger baseret på små stikprøver, lav besvarelsesprocent, og komplicerede spørgsmål,  der bliver  formidlet, uden at der redegøres for de nødvendige forbehold.
Det overmodige decimalkomma
(The overconfident decimal point)
Præcisionen i statistiske opgørelse overvurderes. Det gælder specielt foreløbige opgørelser, der offentliggøres kort efter udløbet af den periode, de vedrører.
Den ikke så spektakulære statistik
(The not so spectacular statistic)
Statistiske resultater, der bringes uden at blive vurderet i en sammenhæng, kan virke mere spektakulære, end de i virkeligheden er
Den overfortolkede sammenhæng
(The cocky correlation)
En sammenhæng mellem to variable (korrelation) betyder ikke nødvendigvis en årsagssammenhæng (kausalitet)

På sin hjemmeside præsenterer Sanne Blauw sig som talkorresondent (numeracy correspondent) for den nederlandske nyhedsplatform De Correspondent. De Coorrespondent er en alternativ journalistisk platform, der i sin formidling lægger mere vægt på indhold og sammenhæng end på det seneste døgns mere eller mindre tilfældige begivenheder. De dækker klimaet, men ikke vejret, som de selv udtrykker det. Reglerne for platformens virke er fastlagt i ti principper, der udover det allerede nævnte om vægt på indhold, bl.a. omfatter annoncefrihed, fokus ikke blot på problemer, men også på løsninger, og åbenhed om kilder. Det økonomiske grundlag stammer fra netværksfinansiering (crowdfunding)  og salg af  medlemskaber (abonnementer). Artiklerne er fortrinvis på nederlandsk, men en engelsksproget udgave er under forberedelse med planlagt start i midten af 2019.

Referencer:
Sanne Blauw: “How to defend yourself against misleading statistics in the news”, YouTube (link)
Sanne Blauw: Hjemmeside (link)
De Correspondent: Hjemmeside (link)


Andreas Georgiou — tidligere græsk statistikchef — hædres for sin indsats for sikring af kvalitet og uafhængighed i den officielle statistik

16/10/2018          Taleboble Kommentarer

Den tidligere græske chefstatistiker — Andreas Georgiou — er af seks internationale statistikorganisationer (se noten) blevet tildelt en særlig hædersbevisning for sin indsats for opretholde den højeste professionelle standard i sin stræben efter integritet i statistiske systemer. Bag hæderen ligger især hans indsats for genoprettelse af tilliden til den græske økonomiske statistik. Han var chef for den nationale græske statistikmyndighed (ELSTAT) i perioden august 2010 til august 2015. Før hans tiltræden havde EU-kommisionen i en rapport fastslået, at den græske økonomiske statistik var så fejlbehæftet og upålidelig, at den var uanvendelig. Det lykkedes Georgiou i løbet af sin embedsperiode  at genskabe den internationale tillid til græsk statistik.

Uheldigvis deles den respekt, Georgiou nyder internationalt, ikke af de græske myndigheder. De ser hans insisteren på — i overensstemmelse med EU-reglerne — at levere pålidelige statistiske opgørelser som ubekvem i forbindelse med Grækenlands forhandlinger med landets kreditorer. Han og andre topchefer fra ELSTAT har været udsat for en række retsager, der for Georgieu’s vedkommende kulminerende i en dom på 2 års fængsel for pligtforsømmelse (se tidl. indlæg).

Geogiou har tidligere modtaget international støtte, bl.a. fra FENStatS, hvis medlemmer er de nationale statistiske selskaber fra 23 europæiske lande. Det danske medlem er Dansk Selskab for Teoretisk Statistik. FENStatS har i et brev til den græske regering i oktober 2017 opfordret til at standse den retslige forfølgelse af Geogieu og andre tidligere ansatte i ELSTSAT. FENStaTs påpeger også i brevet det paradoks, at man forfølger de personer, der genoprettede den græske statistik, hvorimod ingen af de ansvarlige for manipulationerne før Georgiou’s embedsperiode er blevet retsforfulgt.

Note: De seks organisationer bag hædersbevisningen er International Statistical Institute (ISI), American Statistical Association (ASA), International Association for Official Statistics (IAOS), Federation of European National Statistical Societies (FENStatS) og Société Française de Statistique (SFdS).

Referencer:
Royal Statistical Society:
Stats community honours Andreas Georgiou, Statslife 25/9-2018 (link)

Internation Statistical Institute: Commendation of Andreas Georgiou, Pressemeddelelse 18/9-2018
Internation Statistical Institute: Court proceedings against Andreas Georgiou, former President of ELSTAT (the Hellenic Statistical Authority), (link)
FENStatS: Brev til den græske regering, (link)
Bruegel: The European Union must defend Andreas Georgiou, 26/6-2018 (link)


LIBOR — en vigtig rentestatistik — skal afvikles

09/10/2018          Taleboble Kommentarer

Det er ikke altid at vigtig statistik også er officiel statistik. Et eksempel er statistikken om den rente Londons banker betaler for korte lån uden sikkerhed hos hinanden — den såkaldte interbankrente. Statistikken går under navnet LIBOR (London Interbank Offered Rate) og den bliver sommetider kaldt verdens vigtigste tal.

LIBOR’s store betydning skyldes i første omgang, at London er verdens finanscentrum, og at den rente Londons banker anvender indbyrdes derfor er vigtig for renteniveauet i hele verden. Men betydningen øges af, at den også anvendes som grundlag for fastlæggelse af renten for andre lån, f.eks. visse obligationslån med variabel rente. Den indgår også i beregningen af værdien af mange finansielle instrumenter, f.eks. derivater. LIBOR har været betragtet som den mest anerkendte indikator for for den kortfristede rente.

Men trods vigtigheden er den ikke en officiel statistik, og den er ikke underlagt de kvalitets- og kontrolregler, der gælder for officiel statistik. Den blev oprindeligt udarbejdet og offentliggjort af den britiske bankforening (British Bankers Association), men efter at det i 2012 blev afsløret, at nogle af de store banker var faldet for fristelsen til at manipulere med indberetningerne, med henblik på at øge indtjeningen, blev opgørelsen overtaget af tilsynsmyndigheden (Financial Services Agency) og senere af  ICE Benchmark Administration (IBA). IBA er et datterselskab af Euronext — et stort børsselskab, der ejer en række børser i bl.a. i Paris, Amsterdam, London og New York.

Manipulationerne var mulige fordi beregningen sker på grundlag af relativt få indberetninger, så indberetterne havde god mulighed for at påvirke opgørelsen ved at tilpasse indberetningerne til det ønskede resultat. Manipulationerne var klart ulovlige og udløste nogle store bøder til de involverede banker. Også ved en tidligere lejlighed havde opgørelsen været manipuleret, men dengang med henblik på at undgå en generel panik på markedet, og muligvis med kontrolmyndighedernes stiltiende indforståelse (Economist 29/9-2018)

De to manipulationsaffærer har svækket respekten for LIBOR. Hertil kommer, at pålideligheden af opgørelsen er blevet svækket, fordi omfanget af interbanklån er faldet, såldes at der er blevet færre transaktioner at basere statistikken på. Derfor har de britiske bankmyndigheder besluttet, at opgørelsen af LIBOR skal afvikles i 2021.

Afviklingen betyder naturligvis ikke, at de behov, som LIBOR opfylder, bare forsvinder. Der  må findes et  alternativ. Den amerikanske centralbank har i samarbejde med finansministeriet etableret et muligt  alternativ, SOFR (the Secured Overnight Financing Rate). SOFR er som statistikprodukt af højere kvalitet end LIBOR, og skulle være vanskeligere at manipulere.

Referencer:
The Economist: The end of LIBOR, The Economist 27/9-2018 (link)
The Economist: Replacing LIBOR — The Price of Everything, The Economist 29/9-2018 

ICE: ICE LIBOR (link)
Philip Stafford: Global regulators warn banks must abandon reliance on Libor, Finacial Times 12/7-2018 (link)
Why Libor Will Disappear—and What It Means for You, 30/7-2018 (link)

James McBride: Understanding the Libor Scandal, Council on Foreign Relations 12/10-2016 (link)

 


Faldende villighed til at deltage i spørgeskemaundersøgelser

05/06/2018          Taleboble Kommentarer

Tidskriftet The Economist udtrykker bekymring over, at befolkningerne i de rige lande viser en faldene villighed til at deltage i spørgeskemaundersøgelser. Som eksempler nævnes den britiske arbejdskraftundersøgelse, hvor besvarelsesprocenten er faldet fra 70 pct i 2001 til 43 pct i 2017 og den amerikanske Løbende Befolkningsundersøgelse (Current Population Survey), hvor procenten i samme periode faldt fra 94 pct til 85 pct. Men tendensen er ifølge The Economist den samme i Canada og på det europæiske kontinent.

Den lave deltagelse svækker kvaliteten af disse statistikker. Navnlig øges risikoen for upræcise eller ligefrem misvisende opgørelser. Det er bekymrende, fordi den statistik, som undersøgelserne danner grundlag for, er vigtige redskaber i den politiske beslutningsproces. Den stigende uvillighed betyder også, at det kræver en større indsats at finde deltagere og at motivere dem til at deltage. Det resulterer i øgede omkostninger.

De tre årsager, nægterne  oftest giver for deres afvisning, er at de er ligeglade med statistikken, at de er bekymrede omkring privatlivets fred og at de ikke har tid. The Economist tilføjer at omfanget af spørgeskemaundersøgelser kan være blevet så stort, af befolkningen føler deltagelse som en større belastning end tidligere.Det kan også spille ind, at deltagelse i mindre grad end tidligere opfattes som en borgerpligt. Sidstnævnte årsag paralleliserer The Economist med faldende valgdeltagelse.

Kortere spørgeskemaer og tilbud om betaling for deltagelse har været forsøgt som midler til at øge deltagelsen. Det forsøges også, at kompensere for lave svarprocenter ved forskellig statistiske teknikker som vægtning og imputation. Men hverken de incitamentsfremmende eller de kompenserende metoder er uden problemer, og det er ikke givet, at de i alle tilfælde fører til mere pålidelige resultater. En bedre fremgangsmåde er at anvende alternative datakilder i form af allerede eksisterende administrative registre, f.eks. skattevæsenets registre. Problemet i den forbindelse er, at der i mange lande er store bureaukratiske og juridiske vanskeligheder, der skal overvindes, for at gøre statistisk anvendelse af administrative registre mulig. De nordiske lande, herunder Danmark, udgør dog på dette punkt en undtagelse. Her har  administrative registre allerede i mange spillet en central rolle som grundlag for den officielle statistik.

Referencer:
The Economist:   Plunging response rates to household surveys worry policymakers, 2/5-2018 (link)


Den officielle statistiks rolle i en post-faktuel verden

17/10/2017          Taleboble Kommentarer

Decentral kommunikation på sociale medier er ved  at fortrænge den traditionelle, mere centraliserede, vidensformidling. Samtidig er tilvejebringelse af omfattende information blevet enklere og billigere, bl.a takket været big data og kraftfulde algoritmer. Og endelig har brugerne fået flere kilder til information, men står ofte uden mulighed for at vurdere pålideligheden og andre kvalitetsaspekter af kilderne. Den udvikling udfordrer den officielle statistiks rolle som den dominerende, stabile og pålidelige leverandør af data om samfundet.  Nogle mulige konsekvenser af udviklingen vurderes i et arbejdspapir  — Communication of Statistics in Post-truth society: the Good, the Bad and the Ugly — udgivet af Eurostat.

Forfatterne til papiret er Emanuelle Baldacci, der er leder af Eurostats direktorat for metodologi, og Felicia Pelagalli, der er grundlægger og leder af  konsulentvirksomhededen Culture, der beskæftiger sig med forskning og kommunikation. De to forfattere mener ikke, at udviklingen og de ændrede betingelser for produktion og formidling af statistisk nødvendigvis er udtryk for noget negativt, men de ser nogle mulige risici, som de officielle statistikproducenter efter deres opfattelse bør forholde sig til. De opstiller tre mulige scenarier for den fremtidige udvikling, som de betegner det gode, det onde og det grusomme (the good, the bad and the ugly).

I det onde scenarie vil der ikke ske yderligere væsentlige ændringer i betingelserne for produktion og formidling af statistik, og de nationale statistikinstitutter vil heller ikke gennemgå voldsomme ændringer. Resultatet vil blive, at den officielle statistik fortsat vil spille en vis rolle, men være langt fra den dominerende position, den i dag har i produktion og formidling af statistik.

Fortsætter udviklingen derimod i retning af dannelse af få store ikke-offentlige producenter og formidlere, samtidig med, at de officielle producenter fortsætter stort set uændret, kan den officielle statistik ende med at blive nærmest irrelevant. Brugerne vil stadig anvende statistik, både den private og den officielle, men de vil anvende individualiserede webbaserede værktøjer, og vil være tilbøjelige til at opfatte alle producenter på lige fod, og ingen af dem som specielt pålidelige. Sandsynligvis vil tabet af relevans føre til mindre politisk interesse og dermed mindre bevillinger. En ond cirkel vil være skabt. For brugerne og samfundet vil det nok betyde adgang til mere information end i dag, men informationen vil være mindre brugbar, fordi der savnes redskaber til at vurdere kvaliteten. Ægte og falsk information bliver vanskelig at adskille. Det er det post-faktuelle samfund i al sin gru, og derfor det grusomme scenarie.

I det gode scenarie placerer den officielle statistik sig som en producent, der skiller sig ud fra private producenter ved at brugerne opfatter den som særligt troværdig. I det scenarie bliver den officielle statistik brugernes beskyttelse mod falsk information. Forfatterne ser denne udvilking som den mest sandsynlige, men påpeger, at den stiller krav til omstilling og modernisering af den officielle statistik. F.eks må der etableres præsentationsformer, der er individuelt rettet mod den enkelte bruger, og der må satses på at udvikle brugernes færdigheder i anvendelse af statistik (statistisk læsefærdighed).

I praksis kan det vise sig vanskeligt, at etablere et officielt statistikbureau i rollen som den ophøjede beskytter af formidlingen af troværdig statistik. Den officielle statistik er selv en del af et politisk system, hvor styring af information indgår som et magtinstrument. Tænk blot på den uvilje der af og til kommer til udtryk i forbindelse med produktion og præsentation af statistik på områder som intelligens, religion, etnicitet og indvandring.

Referencer:
Emanuelle Baldacci og Felicia PelagalliCommunication of Statistics in Post-truth society: the Good, the Bad and the Ugly, Eurostat 2017 (link)


Stigende bekymring omkring 2020-Folketællingen i USA

19/09/2017          Taleboble Kommentarer

Med henblik på fastlæggelsen af fordelingen mellem delstaterne af medlemmerne af Repræsentanternes Hus og af de direkte skatter til forbundet, er det i USA’s forfatning fastlagt, at der hvert tiende år skal afholdes en folketælling. Planlægningen af den næste, der skal finde sted i 2020, er i fuld gang, men en vis bekymring for, at projekteret er ved at komme vanskeligheder, er begyndt at brede sig. I et tidligere indlæg har jeg beskrevet de vigtigste træk ved Folketællingen i forbindelse med en omtale af den hidtidige folketællingschefs beslutning om at forlade posten.

Forfatningens krav, der blot omfatter en simpel optælling af befolkningen i delstaterne, skal nok blive opfyldt, men folketællingerne har hidtil været anvendt til en langt mere omfattende dataindsamling, som har udgjort en hovedhjørnesten i det amerikanske statistiske system. Uheldigvis er traditionelle folketællinger af den amerikanske type kostbare at gennemføre, og omkostningerne har været stigende. Kongressen har for længst besluttet, at omkostningerne ved den kommende tælling ikke må være højere end ved den forrige, og da dette loft er fastlagt i løbende priser, dvs. uden hensyn til inflationen, så skal den kommende tælling i praksis gennemføres med færre ressourcer.

Det har folketællingsbureauet (Census Bureau) fra starten været forberedt på og indrettet sin planlægning efter. Tilpasningen har især bestået i, at nedbringe antallet af ansatte i forbindelse med tællingen og i stedet anvende mere teknologi, f.eks. ved at få respondenterne til at indberette via internettet. Alt det er forberedt i de seks år, der er gået siden forrige tælling, hvor bureauet har fået stillet de forventede ressourcer til rådighed. Men sædvanen er, at bevillingerne forøges betydeligt i de tre sidste år op til tællingen, hvor den konkrete aftestning og iværksættelsen af de praktiske foranstaltninger går i gang. Og her har Kongressen, og efter Trumps’s tiltræden også præsidenten, vist sig uvillige.

Blandt de bekymrede er Government Accountability Office (GAO, kan sammenlignes med Rigsrevisionen), hvis opgave det er at støtte Kongressen (og ikke præsidenten) i at opfylde sine forfatningsmæssige forpligtelser. Hver andet år, ved åbningen af en ny Kongres, offentliggør GAO en liste — The High Risk List — over institutioner og programmer under Kongressens ansvarsområde, hvor risikoen er høj for at de er på vej ind i alvorlige vanskeligheder. I 2017 er Folketællingens problemer blevet optaget på listen, der i alt omfatter 34 punkter.

Problemerne, hvor store de end er, kan således ikke siges at være helt ignorerede. Det er nok baggrunden for, at John H Thompsen, den tidligere chef for folketællingsbureauet, i et interview i Significance i juli, kort efter sin fratræden, udtrykker det synspunkt, at situationen giver grund til bekymring, men ikke til panik.

Referencer:
John H Thompson: Interview i Significance , 19. juli 2017 (link)
Robert Shapiro: The 2020 Census may be wildly inaccurate— and it matters more than you think, Fixgov, Borookings (link)
GAO: The High Risk List, 2017 (link)
GAO: Webside om problemerne omkring Folketællingen i 2020 (link)


Arbejdskraftundersøgelser i EU-landene

12/09/2017          Taleboble Kommentarer

Den europæiske arbejdskraftundersøgelse er hovedkilden til EU’s statistik om beskæftigelse og arbejdsløshed. Den gennemføres hvert kvartal som en interviewundersøgelse i alle EU-lande, kandidatlande og EFTA-lande. Interviewene for et givet kvartal er fordelt ud over alle uger i kvartalet. Undersøgelsens indhold og metode er reguleret i en EU-forordning (link til forordning og ændring)

Fokus i undersøgelsen er arbejdsmarkedsrelaterede variable som f.eks. arbejdsmarkedsstaus, stilling, fag, arbejdstid, erhvervserfaring og jobsøgningensaktivitet, men en lang række data om demografi og uddannelse og indkomst indgår også. Populationen er personer i private husholdninger. For arbejdsmarkedsvariable indhentes dog kun oplysninger for personer over 14 år.

Grundlaget for undersøgelsen er en stikprøve af enten de husholdninger eller de personer, der har bopæl i landet. Som hovedregel indsamles oplysninger om alle personer i husholdningen, uanset om stikprøveenheden er husholdninger eller personer. Derved bliver det muligt, også at belyse forhold omkring den husholdning, de omfattede personer indgår i, f.eks. antal personer i husholdningen og alderen på husholdningens yngste barn. I Danmark anvendes dog en lidt anden fremgangsmåde. Stikprøven består af enkeltpersoner, men øvrige personer i de husholdninger, de udtrukne personer tilhører, inddrages ikke. I stedet hentes husholdningsoplysningerne for de udtrukne personer fra befolkningsstatistikkens registre.

En centralt del af arbejdskraftundersøgelsen er opdelingen af befolkningen i hhv. den del, der indgår i arbejdstyrken, dvs er i job eller søger job,  og resten. Arbejdsstyrken opdeles yderligere i beskæftigede og ledige. Et velegnet redskab til analyse af en sådan landefordelt opdeling i arbejdsmarkedsstatus på tre kategorier  — beskæftigede, ledige, uden for arbejdsstyrken —  finder man i trekantgrafen (se evt. tidligere indlæg). Neden for er vist trekantgrafer for arbejdsmarkedsstatus for hhv. mænd og kvinder i de lande, der indgår i EU-undersøgelsen. Ved farvekodning er landede opdelt i geografiske regioner efter FN’ geokoder, dog med den udvidelse, at de fem nordiske lande skilt ud som en særlig gruppe. Danmarks placering i de to diagrammer er angivet med en sort cirkel.

Arbejdsmarkedstatus, mændKilde: Eurostats Statistikbank, lfsq_pganws,   Grafik: Veusz

I begge diagrammer skiller Island sig ud med lav arbejdsløshed (tæt på nederste kant) og lav andel uden for arbejdsstyrken (tæt på højre kant). En gruppe østeuropæiske lande skiller sig ud med både høj ledighed og høj andel uden for arbejdsstyrken. For kvindernes vedkommende er især Tyrkiets placering markant med en meget høj andel uden for arbejdsstyrken.

Arbejdsmarkedsstatus, kvinderKilde: Eurostats Statistikbank, lfsq_pganws,   Grafik: Veusz

Den Europæiske Arbejdskraftundersøgelse indeholder også en longitudinel del, hvor de samme personer følges fra en periode til en anden. Den longitudinelle undersøgelse er behandlet i indlægget den 29/10-15.

Referencer:
EU’s arbejdsmarkedsundersøgelse, webside (link)
EU-forordning nr. 577/98 af 9. marts 1998 om stikprøveundersøgelse vedrørende arbejdsstyrken (link)
EU-forordning nr. 2257/2003 af 25. november 2003 om ændring af forordning 577/98  (link)


EU’s harmoniserede forbrugerprisindeks (HICP)

29/08/2017          Taleboble Kommentarer

Et vigtigt mål for den Europæiske Centralbanks aktiviteter er at sikre stabile priser i  Euro-området, hvilket defineres som en årlig inflation under, men tæt på, to pct. Bankens redskab til måling af inflationen er EU’s Harmoniserede Indeks for Forbrugerpriser (HICP). Også EU-Kommisionen anvender HICP i dens overvågning af økonomien både i EU som helhed og i de enkelte medlemslande, herunder især kontrollen med overholdelsen af inflationskravet i Maastricht-kriterierne.

Indeksene for de enkelte lande udarbejdes af de nationale statistikinstitutioner efter en fælles metode. På grundlag heraf beregner Eurostat indeksene for EU som helhed og for Euro-området. Der beregnes delindeks for omkring 100 produktgrupper (ECOICOP 5-ciffer niveau). Reglerne for opgørelsen er fastlagt i EU’s forordning af 11. maj 2016. Eurostat offentliggør også HICP for en række lande, der ikke er medlemmer af EU, bl.a. Norge  og Tyrkiet. Indeksene offentliggøres månedligt, 2-3 uger efter efter månedens afslutning. For Euro-området som helhed offentliggøres foreløbige og summariske indeks allerede den sidste dag i den måned, tallene vedrører.

De fælles regler for opgørelse kan afvige fra de regler, der anvendes i de enkelte lande ved beregningen af de nationale forbrugerprisindeks. For Danmarks vedkommende er opgørelsen af  HICP identisk med opgørelsen af forbrugerprisindekset bortset fra, at ejerboliger og privathospitaler indgår i forbrugerprisindekset, men ikke i HICP.

Inflationen i EU-lande opdelt på Euro-lande og lande med egen valuta

Inflation i EU

Kilde: Eurostats statistikbank prc_hicp_midx
Grafik: Veusz

Figuren viser et plot af inflationen i hhv. de EU-lande, der har Euro som valuta og de EU-lande, som har bevaret deres egne valutaer. Figuren til venstre viser den årlige inflation opgjort i juli 2017 og figuren til højre, den gennemsnitlige årlige inflation i femårsperioden juli 2012 til juli 2017. Begge figurer viser at variationen i inflationsrater er større i Euro-landene end i landene med egen valuta. Det er lidt overrakende! Man ville forvente at inflationsraterne i lande med samme valuta lå tæt på hinanden, hvorimod raterne i lande med egen valuta i højere grad kunne variere.

Der kan være mange grunde til, at inflationen varierer indenfor Euro-landene. En række mulige forklaringer herpå har Danmarks Statistik fremlagt i en Analyse (26/9-2016).  Danmark er ganske vist ikke et Euro-land, men i praksis ligger kursen på den danske krone fast i forhold til Euroen, så med hensyn til inflationsrate kan Danmark sammenlignes med et Euroland. De forklaringer Danmarks Statistiks Analyse giver på, at inflationen i Danmark i nogle perioder afviger fra den gennemsnitlig inflation i Euro-området, kan derfor også være relevante for de egentlige Euro-lande.

Referencer:
Eurostat: Metadata, Harmonised index of consumer prices (HICP) (link)
Danmarks Statistik: EU-harmoniseret forbrugerprisindeks juli 2017, Nyt fra Danmarks Statistik 22. august 2017 (link)

Danmarks Statistik: Statistikdokumentation for EU-harmoniseret forbrugerprisindeks (HICP samt HICP-CT) (link)
Thomas Hjort Jacobsen: Hvorfor er den danske inflation forskellig fra euroområdets?, DSTAnalyse 2016:13, 26/9-2016 (link)


Den officielle statistiks uafhængighed er under pres i Grækenland

15/08/2017          Taleboble Kommentarer

De nationale statistikbureauers uafhængighed af regeringer og andre politiske myndigheder er en central del af grundlaget for tilliden til kvaliteten af den officielle statistik. Uafhængighed er derfor et centralt krav i  EU’s adfærdsregler for officiel statistik. På den baggrund har det vakt nogen opsigt, at en tidligere græsk chefstatistiker — Andreas Georgiou — i Athen er blevet idømt to års fængsel for pligtforsømmelse. Pligtforsømmelsen består i at have offentliggjort en revision af opgørelserne af underskuddet på de offentlige finanser i 2010, uden at offentliggørelsen var godkendt af det græske statistikbureaus direktion. Tidsskriftet Significance, der udgives af Royal Statistical Society og American Statistical Association har i det seneste nummer en gennemgang af sagen.

Sagen har stor politisk interesse, fordi Grækenland på tidspunktet for offentliggørelsen af revisionerne var i gang med forhandlinger om en international redningsplan for landets kriseramte økonomi, og at revisionerne viste, at situationen var værre end hidtil hævdet af den græske regering. Med til historien hører også, at EU’s statistikmyndigheder tidligere havde meddelt, at man nu anså den græske statistik for værende så upålidelig, at den var uanvendelig. På tidspunktet for domfældelsen havde Eurostat genvundet tilliden til den græske statistik, netop på grund af den genopretning og heraf følgende revisioner, som den domfældte Andreas Georgiou havde stået i spidsen for.

Georgiou blev i august 2010 udnævnt som chef for det nationale græske statistikbureau, særligt med den opgave at genoprette den tabte tillid til den officielle græske statistik. Her er født i Grækenland, men har boet i USA i mere end tredive år. På tidpunktet for udnævnelsen var han ansat i Den Internationale Valutafond (IMF).

Afsløringerne af problemerne i statistikken bidrog til at gøre den økonomiske nedtur endnu mere smertefuld. I den situation valgte nogle grækere, herunder de skiftende regeringer, at rette bebrejdelserne mod budbringerne, fremfor de ansvarlige for den politik, der havde skabt problemerne. Og den anklage, som Georgiou blev kendt skyldig i er ikke den alvorligste af de sager, der er rejst. Langt alvorligere er en beskyldning for bevidst at have leveret et for negativt billede af den græske økonomi, for at gavne forhandlingspositionen for landets kreditorer, blandt hvilke en af de vigtigste er Georgious tidligere arbjejdsgiver, IMF. Det er en anklage for landsforrædderi, som kan medføre fængsel på livstid. Men i den sag blev han frikendt.

Blandt Grækenlands kreditorer og navnlig hos Eurostat, der løbende overvåger kvaliteten af EU-landenes statistikproduktion, er der en udbredt respekt for  Georgiou og hans indsat for opretningen af den græske statistik, og Eurostat anser nu de statistiske oplysninger fra Grækenland for fuldt pålidelige.

Referencer:
Eurostat: European Statistics Code of Practice (link)
GREEKREPORTER Aug 11, 2017Former ELSTAT Chief Andreas Georgiou Handed Suspended Two-Year Jail Sentence (link)
Robert Langkjær-Bain: Trials of a statistician, Significance, August 2017 (link)


Tvivl om museumsstatistikkens kvalitet

11/07/2017          Taleboble Kommentarer

I mit indlæg den 2. maj 2017 beskrev jeg museumsstatistikken som en en statistik af meget høj kvalitet. Beklageligvis er der siden opstået tvivl om kvaliteten af statistikkens vigtigste variabel, besøgstallet, bl.a udtrykt i en artikel i Politiken.

Producenten af statistikken — Danmarks Statistik — har næppe forestillet sig, at der kunne være tvivl om, hvad der skulle forstås ved besøgstal. Men det viser sig at kunstmuseet Aros i Århus, der ifølge statistikken er blandt museerne med de højeste besøgstal, anvender en ret kreativ metode ved opgørelsen. Besøgende på Aros omfatter nemlig ikke blot gæster, der har købt en billet, men alle, der har vist sig i forhallen. Det giver naturligvis et højere besøgstal, og det er jo nok også meningen med den kreative metode, der til gengæld ikke siger meget om interessen for museets samlinger. Et andet meget besøgt kunstmuseum — Louisiana i Humlebæk — og forhåbentlig de fleste andre museer, har kun registreret betalende gæster.

Ifølge Politiken bliver Aros-metoden delvis forsvaret af formanden for Dansk Center for Muesumsforskning, professor Hans Dam Christensen. Politiken citerer ham for udtalelsen “Det at gå på museum handler ikke kun om at se på værker på en udstilling. Det kan også være at få oplevelser af anden karakter”. Det er selvfølgelig korrekt, at der kan være mange motiver til at gå på museum, som alle kan være interessante at belyse statistisk. Men museumsstatistikkens besøgstal måler ikke karakteren af en oplevelse. Det vil kræve andre og mere komplicerede målemetoder. Besøgstallet giver en indikation af hvor mange, der har besøgt museets samling, uden hensyn til formålet med eller udbyttet af besøget. Og det giver ikke mening at blande den opgørelse sammen antallet af købere af postkort, antal besøg i caféen eller antal turister, der ønsker en selfie med museet som baggrund.

Der kan være gode grunde til at udvide museumsstatistikken med andre mål, som f.eks. antal besøgende i butik, cafe og forhal, målinger af forskellige aspekter af formålet med og oplevelsen af besøget og om  arten og omfanget af anvendelsen af museernes hjemmesider. Men ønsker om forbedret statistik må ikke føre til at den eksisterende statistik udvandes og evt. gøre ubrugelig.

Referencer:
Politiken 14/6 2017. Eksperter efter tællerod : Museer skal tælle deres besøgende på samme måde (link)


Arbejdsmarkedsregnskabet — dynamisk analyse af beskæftigelsesgrad

27/06/2017          Taleboble Kommentarer

Arbejdsmarkedsregnskabet er Danmarks Statistiks mest detaljerede opgørelse af befolkningens tilknytning til arbejdsmarkedet. Det er en registerbaseret statistik, dvs. en statistik baseret på en række administrative registre, der egentlig er oprettet til andre formål, men som af Danmarks Statistik er bearbejdet til statistikformål. Registerstatistikkerne er totalopgørelser af hele befolkningen. I kraft af cpr-numre kan de forskellige registerstatistikker kombineres med hinanden, således at antallet af variable, der belyses i statistikken, kan udvides. Cpr-numrene kan også anvendes til at kombinere samme registerstatistik for flere år og derved frembringe såkaldte longitudinelle eller dynamiske opgørelser. Begge muligheder — flere variable og dynamisk opgørelse — har Danmarks Statistik udnyttet i en analyse med overskriften “Seks ud af ti i stabil beskæftigelse”, der udkom 14. juni 2017.

I analysen har man set på de 25-64 årige i treårperioden 2013-2015. Personer med beskæftigelse er opdelt efter graden af arbejdsmarkedstilknytning på grundlag af den andel af treårsperioden, de har været beskæftiget. Løntilskudsjob betragtes ikke som beskæftigelse i denne sammenhæng. Personer med en beskæftigelsesgrad på under 80 pct. bliver kun betragtet som værende i beskæftigelse, hvis de ikke i den del af perioden, hvor de var uden beskæftigelse, hovedsageligt var under uddannelse eller under tilbagetrækning fra arbejdsmarkedet.

I tabellen nedenfor gengives nogle af analysens hovedresultater.

Beskæftigelsesgrad for 25-64 årige i treårsperioden 2013-2015

Beskæfti-gelsesgrad Personer i alt Mænd Kvinder
pct. tusinde pct.
Stabil beskæftigelse 100 1.568 60 62 57
Næsten stabil beskæftigelse 80-99 293 11 12 11
Ustabil beskæftigelse 50-79 168 6 6 7
Turbulent beskæftigelse Under 50 175 7 6 7
Beskæftigelse i alt   2.204 84 86 82
Under uddannelse/tilbagetrækning 85 3 3 4
Uden beskæftigelse 332 13 11 15
25-64-årige i alt   2.621 100 100 100

Kilde: DSTAnalyse 2017:9

Udover fordelingen på køn beskriver analysen sammenhængen mellem beskæftigelsesgrad og hhv. indkomst, uddannelse, socioøkonomisk gruppe og branche.

Referencer:
Danmarks Statistik: Seks ud af ti i statbil beskæftigelse, DSTAnalyse 2017:9, 14/7-2017 (link)
Danmarks Statistik: Statistikdokumentation for Arbejdsmarkedsregnskab 2015 (link)


Statistik om livskvalitet — nyt område for den officielle statistik

20/06/2017          Taleboble Kommentarer

For ikke så mange år side blev direkte måling af personers lykke betragtet som et højst usikkert, ja måske ligefrem tvivlsomt foretagende. I hvert fald ikke noget, som seriøse officielle statistikproducenter beskæftigede sig med.

Det var ikke fordi, at der var uenighed om at størst mulig lykke for befolkningen var det vigtigste formål med økonomisk og politisk aktivitet, selv om man nødigt brugte ordet lykke. Man talte i stedet om velfærd og foretog gerne sammenligninger af velfærd mellem lande eller over tid i et enkelt land. Som mål anvendtes ofte bruttonationalproduktet (BNP). Somme tider blev BNP suppleret med eller erstattet af andre mål som som f.eks. middellevetid og spædbørnsdødelighed. Der var således tale om en meget indirekte måling af lykke eller velfærd for nationen som helhed. Direkte at måle følelsen af lykke eller velfærd for den enkelte person kom ikke på tale.

Alt det har ændret sig, efter at økonomer omkring årtusindskiftet for alvor begyndte at beskæftige sig individuel subjektiv lykkemåling. Med subjektiv måling menes, at at man lader det enkelte individ selv vurdere, i hvilken grad det føler sig lykkelig eller tilfreds eller  hvilket ord man nu vælger i den konkrete udformning af spørgsmålene. Blandt de første bøger i denne bølge var Frey og Stutzer, 2002  og Layard , 2005.  Andre faggrupper — f.eks. psykologer og sociologer— havde tidligere beskæftiget sig med emnet, men det var først, da det kom på økonomernes dagsorden, at producenterne af officiel statistik begyndte at vise emnet interesse. Helt afgørende betydning for den officielle statistik blev offentliggørelsen af Stiglitz-rapporten (2009) og OECD’s manual (2013).

Området har stadig en eksperimenterende karakter, men bla. i OECD er man nu overbevist om, at det faktisk er muligt gennem svar på simple spørgmål, at opnå pålidelige målinger af en subjektiv følelse som lykke. Der er dog også udbredt enighed om, dels at lykke er for snævert et begreb og dels at området er komplekst og må analyseres fra flere vinkler. OECD anvender begrebet wellbeing (af Danmarks Statistik oversat til livskvalitet) som samlet betegnelse for området og  anbefaler at tre aspekter belyses:

Flere landes officielle statistikbureauer er begyndt at offentliggøre statistikker om livskvalitet (wellbeing) med UK, Italien og Østrig som de europæiske pionerer på området. Danmarks Statistik offentliggjorde for første gang en omfattende samling indikatorer for livskvalitet i september 2016. Nogle eksempler på resultaterne er vist i tabellen nedenfor.

Tabel: Kerneaspekter af subjektiv livskvalitet, 2015

    Mænd Kvinder I alt
Tilfredshed Alt i alt, hvor tilfreds er du med dit liv for tiden? 7,5 7,5 7,5
Sindstilstand I hvilken udstrækning følte du dig glad i går? 7,3 7,3 7,3
I hvilken udstrækning følte du dig bekymret i går? 3,2 3,7 3,4
I hvilken udstrækning følte du dig nedtrykt i går? 2,1 2,5 2,3
Meningsfuldhed I hvilken grad føler du, at de ting, du foretager dig i dit liv, giver mening? 7,7 7,9 7,8

Anm: Der er anvendt en skala fra 0 til 10. For spørgsmålet vedr. tilfredshed betyder 0 “slet ikke tilfreds” og 10 “fuldt ud tilfreds. For spørgsmålene under sindstilstand betyder 0 “på intet tidspunkt” og 10 “hele tiden”. For spørgsmålet under meningsfuldhed betyder 0 “slet ingen mening” og 10 “fuldt ud mening”
Kilde: Danmarks Statistikbank, www.statistikbanken.dk/LIVS2,LIVS3 og LIVS4

Dannmarks Statistiks opgørelser omfatter 38 indikatorer, afspejlende svarene på 38 spørgsmål om livskvalitet. I tabellen ovenfor er valgt de fem indikatorer som OECD anbefaler som basismodul i enhver statistik om livskvalitet. OECD har valgt disse fem indikatorer, dels fordi de er væsentlige, og dels fordi man har gode erfaringer omkring deres kvalitet og anvendelighed.

Tabellen viser kun et ganske lille udsnit af de de data, der er til rådighed i statistikbanken. Her er alle 38 indikatorer fordelt på en lang række baggrundsvariable bla. kommune, alder, indkomst og uddannelse.

Referencer:
Frey, B. S. and A. Stutzer (2002): “Happiness and Economics”, Princeton University Press
Layard, Richard (2005): “Happiness – Lessons from a new Science”, The Penguin Press, New York
Stiglitz, J. E., Amarthy Sen and J. P. Fitoussi (2009): “Report by the Commission on the Measurement of Economic Performance and Social Progress” (link)
OECD (2013),  OECD Guidelines on Measuring Subjective Well-being, OECD Pubklishing (link)
Danmarks Statistikwww.statistikbanken.dk


Befolkningsfremskrivning — stigende andel af ikke-vestlige indvandrere og efterkommere

30/05/2017          Taleboble Kommentarer

Danmarks Statistik har den 10. maj 2017 offentliggjort sin årlige befolkningsfremskrivning, der går frem til 2060 for hele landet. For kommuner og landsdele er der udarbjedet fremskrivninger frem til 2045. Landfremskrivningen viser en samlet førøgelse af  befolkningen fra 5,7 mio. til 6,5 mio fra 2017 til 2060. Traditionelt har hovedinteressen omkring fremskrivningerne været befolkningens aldersmæssige og geografiske fordeling, fordi denne viden er vigtig i forbindelse med planlægning omkring uddannelse, sundhedsvæsen, boligbyggeri, pensions- og bistandssystemer osv. I forbindelse med indvandringens stigende betydning er der også i de senere år kommet øget fokus på ændringerne i sammensætningen efter herkomst, og navnlig andelen med en ikke-vestlig herkomst. Det skyldes, at andre statistikker viser, at denne gruppe på en række punkter — f.eks. uddannelse, beskæftigelse, bistandsbehov og kriminalitet — afviger fra den øvrige befolkning (Danmarks Statistik: Indvandrere i Danmark 2016 og blogindlæg fra 30/11-2015).

I nedenstående tabel er vist nogle hovedtal for fremskrivningen af fordelingen efter herkomst:

Befolkningsudviklingen 2017-2060 ifølge Danmarks Statistiks fremskrivning

 Danskere Indvandrere og efterkommere 
Vestlige lande Ikke-vestlige lande I alt
1000 personer
Befolkning primo 2017 5.007 265 477 5.749
Levendefødte 2017-2060 2.703 146 225 3.074
Nettoindvandring 2017-2060 19 167 298 485
Døde 2017-2060 2.542 92 147 2.780
Befolkning ultimo 2060 5.188 486 853 6.527
pct.
Fordeling 2017 87% 5% 8% 100%
Fordeling 2060 79% 7% 13% 100%

Kilde: Statistikbanken/FRDK217

En befolkningsfremskrivning er ikke en forudsigelse af den fremtidige udvikling, men et forsøg på at kombinere den eksisterende viden om befolkningens fordeling på køn og alder mm. med nogle plausible forudsætninger om den fremtidige udvikling i  fertilitet, dødelighed og ind- og udvandring. Fremskrivningens resultater er helt bestemt af forudsætningerne, og som et led i offentliggørelsen har Danmarks Statistik da også  omhyggeligt redegjort for disse forudsætninger.

Udarbejdelsen af befolkningsfremskrivningen sker i et samarbejde mellem Danmarks Statistik og forskningsinstitutionen DREAM. Danmarks Statistik står for fremskaffelsen af grunddata, og DREAM beregner fremskrivningen for hele landet. På grundlag af landsfremskrivningen beregner Danmarks Statistik efterfølgende fremskrivninger for de enkelte kommuner og landsdele. Fastlæggelse af forudsætningerne sker i samarbejde mellem de to institutioner.

Referencer:
Befolkningsfremskrivninger 2017-2060, Nyt fra Danmarks Statistik 10. maj 2017
Statistikbanken/FRDK117, FRDK217, m.fl. (Danmarks Statistik)
Statistikdokumentation af befolkningsfremskrivning for Danmark (Danmarks Statistik)
Temaside om befolkningsfremskrivning, bl.a. med en række ekstra dokumentationsnotater (Danmarks Statistik)
Introduktion til DREAM’s befolkningsfremskrivningsmodel (dreammodel.dk/intro_befolkning.html)
Indvandrere i Danmark 2016 (Danmarks Statistik, publikation)


Chefen for USA’s folketællingsbureau har overraskende opsagt sin stilling

23/05/2017          Taleboble Kommentarer

John H Thomsen, chef for det amerikanske folketællingsbureau (Census Bureau) har overraskende opsagt sin stilling med virkning fra 1. juli. Det var ellers ventet at han ville forsætte  året ud, hvor hans embedsperiode udløber. Thompson begrunder sin fratræden med, at han ønsker et job i den private sektor, men hans opsigelse vækker en del  opmærksomhed, da den kommer umiddelbart efter, at kongressen har beskåret den af Obama-administrationen foreslåede forhøjelse af bureauets budget.

USA afholder folketællinger hvert tiende år, og den næste skal finde sted i 2020, Forberedelserne er i fuld gang, men der er i kongressen uenighed om finansieringen af disse forberedelser. Kritikere — i kongressen repræsenteret af demokraterne — mener at der er bevilget alt for få midler til den store opgave. Noget af diskussionen vedrører et nyt it-system, der naturligvis har til formål at nedbringe omkostningerne, men har vist sig at blive langt dyrere at udvikle end først antaget.

Den amerikanske forfatning fastslår, at delegerede til Repræsentanternes Hus og direkte skatter skal fordeles på staterne i forhold til deres indbyggertal. Derfor indeholder forfatningen også et krav om folketællinger. Forfatningen forudsætter kun en simpel optælling, men i praksis har man ved folketællingerne altid indsamlet supplerende oplysninger om køn, alder, beskæftigelse og race mm. Oplysningerne anvendes ikke blot til de i forfatningen fastlagte formål, men også til en lang række andre fordelings- og planlægningsformål, f.eks. fordelingen af forbundsregeringens tilskud til sundhed, uddannelse og transport.

En fuldstændig optælling af hele den amerikanske befolkning er umulig. Der vil altid være nogle, der ikke bliver talt. F.eks. udgør hjemløse et problem, selvom der udfoldes store bestræbelser på også at få dem talt. Samlet set vil der altid være en underdækning i folketællingen. Underdækningen er naturligvis ikke ligeligt fordelt, men vil typisk være størst for de svageste samfundsgrupper. En konsekvens af direkte anvendelse af folketællingsresultaterne vil derfor være, at de underdækkede grupper også bliver underrepræsenteret i de valgte forsamlinger, og at deres andel af støtteordninger bliver mindre end deres virkelige antal berettiger. Der findes anerkendte og pålidelige statistiske metoder til opregning, og dem gør folketællingsbureauet også brug af. Men da opregningen som nævnt har vigtige fordelingsmæssige konsekvenser, så er overvejelserne omkring den blevet genstand for både politiske og juridiske slagsmål. Også andre sider af folketællingen, f.eks. hvilke emner, der skal og må belyses, er genstand for konflikt.

I USA er folketællingen således en del af den polititiske dagsorden, og det er baggrunden for, at præsidentens og kongressens udtalelser og beslutninger omkring den kan være kontroversielle og give anledning til mistanker om skjulte dagsordener. I forvejen har præsident Trumps udtalelser om den officielle statistik givet anledning til bekymring blandt statistikere, jf. mine blog-indlæg fra 31/1 og  7/2-2017.

Referencer
Biografi på folketællingsburauets hjemmeside
Officiel meddelelse om fratræden fra Department of Commerce
Artikel fra The Washington Posts netavis


Problemer med tolkningen af BNP

04/04/2017          Taleboble Kommentarer

Rigsstatistiker Jørgen Elmeskov har i sin klumme på Danmarks Statistiks hjemmeside peget på nogle problemer omkring tolkningen at BNP (Virksomhedenes globalisering udfordrer tolkningen af BNP) . Han gør det klart, at det fremover kan blive sværere at fortolke BNP-tal. Der er mange årsager til, at BNP-begrebet er under pres (se evt. mine indlæg fra  og 3/6 og 14/6 2016), men i klummen koncentrerer rigsstatistikeren sig om de problemer, der skyldes internationaliseringen af virksomhederne.

Multinationale selskaber spiller en stor rolle i Irlands økonomi, så det er ikke overraskende at problemerne har været særligt tydelige her. De irske problemer fylder en del i klummen, men dens egentlige baggrund er, at Danmarks Statistik i november 2016 også måtte ændre skønnene for BNP-væksten i opadgående retning (Bag Tallene, 21. januar 2017) . Korrektionerne var ikke nær så dramatiske som de irske, med førte dog til en ret ophedet debat, hvor den hypotese blev luftet, at hvis korrektionerne var sket før folketingsvalget, så havde regeringen Thorning-Schmidt regeringen måske kunnet fortsætte (se f.eks. Ekstrabladet 21/1 2017).

Konklusionen i klummen er, at vi lejlighedsvis vil komme til at se tal for BNP, som kan være svært fortolkelige, men at Danmarks Statistik (og andre nationale statistikbureauer) vil finde måder at håndtere problemet, således at det stadig vil være muligt, at følge økonomien. Et vigtigt element her er anvendelse af andre økonomiske indikatorer, til supplering af BNP.


Præsident Trump og statistikken

07/02/2017          Taleboble Kommentarer

Det er vist ingen overdrivelse at påstå, at præsidentskiftet i USA har rejst forventninger om betydelige ændringer i amerikansk administrativ praksis. Der er en del usikkerhed omkring ændringernes omfang og karakter, og usikkerhed er en kilde til frygt. Frygten har også ramt de amerikanske statistikere. De er navnlig bekymrede for, at kvaliteten af den officielle amerikanske statistik kan komme i fare.

I en artikel i The Guardian: “Statisticians fear Trump White House will manipulate figures to fit narrative” refereres nogle af  bekymringerne, sådan som de udtrykkes af fremtrædende amerikanske statistikkere. Blandt de bekymrede er Katherine Wallman, som netop er trådt tilbage som USA’s chefstatistiker efter næsten 25 år på posten. Hendes bekymring går på, at der kan komme en tendens til kun at producere og offentliggøre  den statistik, der fremmer regeringens politik. F.eks. kan statistikker om abort, fattigdom og racemæssig ulighed være i fare.

Knap så pessimistisk er Erica Groshen, en anden netop afgået topstatistiker. Hun var af præsident Obama udpeget som chef for The Bureau of Labor Statistics (BLS), som er en central del af USA’s statistiske system. Selv om hun frygter følgerne af nedskæringer i et budget, der i forvejen hænger dårligt sammen, så har hun tillid til at den nye administration vil respektere BLS’ uafhængighed. Flere statitstikere mener også, at de økonomiske indikatorer er så vigtige for erhvervslivet, at regeringen ikke vil turde røre dem.

Fra det Hvide Hus forklares situationen med, at præsidenten ikke er fokuseret på statistikken i sig selv, men på om det som helhed går fremad for det amerikanske folk. Det fokus vil statistikerne nok være enig i, så længe man gør sig klart, at statistik af høj kvalitet er en forudsætning for, at kunne afgøre i hvilken retning et folk og et samfund bevæger sig.


Benfords lov

05/09/2016          Taleboble Kommentarer

Kolonne 2 og 3 i tabellen nedenfor viser resultatet af et eksperiment. Fra Danmarks Statistikbank har jeg udtrukket alle regnskabstallene (undtagen totaler og undersummer) fra tabellen med regnskabsstatistik for byeerhverv (REGN5) . Derefter har jeg fordelt alle tallene efter første ciffer, uanset hvor mange cifre, der i alt var i tallet. Tallene 3, 34, -34, 30.458 og 0,345 er altså alle optalt i rækken med 3 som første ciffer. Nuller er helt udeladt.

Første
ciffer

Regnskabsstatistik Benfords
lov
pct.
Græsk
nationalregskab
2009, pct.
Optælling Fordeling
pct.
1  558  31  30 29
2 324  18  18 26
3 212  12  13 20
4 180  10  10 10
5 124  7  8 2
6 108  6  7 4
7 102  6 6 5
8 85  5  5 3
9 102  6  6 0

Kilde: Bernhard Rauch, Max Göttsche & Gernot Brähler, Fact and Fiction in EU-Governmental Economic Data, German Economic Review 12(3).
Danmarks Statistikbank REGN5

I kolonne 4 er til sammenligning vist en fordeling, der går, under navnet Benfords lov. Den beskriver hvordan første ciffer i en række tal fordeler sig, hvis tallene er fremkommet fuldt tilfældigt, hvor tilfældig også betyder, at intervalgrænserne for hvert tal er tilfældigt. Tilfældige (eller pseudotilfældige) tal, dannet af en tilfældighedsgenerator ligger normalt i et bestemt interval, f.eks. mellem nul og en, og vil ikke følge Benfords lov. Men regnskabsstatistikkens tal kan formodes at opfylde kravene om fuld tilfældighed, og det er derfor ganske betryggende, at det ser ud til, at de er i nogenlunde overensstemmelse med Benfords lov. Hvis en statistik, der opfylder tilfældighedskravene, ikke følger Benfords lov, kan det være en indikation af, at der er noget galt, f.eks. at tallene er manipulerede.

I den sidste kolonne er vist første-ciffer fordelingen i det græske nationalregnskab for 2009. Her ser ikke ud til at være overensstemmelse med Benfords lov. Der kan være gode grunde til, at en statistisk talserie ikke følger Benfords lov, men i dette tilfælde er grundene nok ikke så gode. I hvert fald udgav Kommisionen for EU i januar 2010 en rapport (Report on Greek Government Deficit and Debt Statistics) , hvori det blev konstateret, at den græske økonomiske statistik var i en meget dårlig forfatning og stærkt fejlbehæftet.

Det kan virke overraskende, at første ciffer i statistiske talserier ikke er ligeligt fordelt, men det har naturligvis en god og naturlig årsag. Den vil jeg ikke komme nærmere ind på her, men henvise til denne udmærkede forklaring.