År: 2019

Eurostats koncernregister

Erhvervsregistre spiller en central rolle for den økonomiske statistik i alle EU-landene. Et lands erhvervsregister indeholder en række centrale oplyser som adresse, branche antal ansatte og virksomhedsform for alle virksomheder, der er registreret i landet. For statistikmyndighederne tjener erhvervsregistrene først og fremmest som lister over de virksomheder, der skal indberette til statistikkerne, enten ved totaltællinger, hvor alle virksomher skal indberette, eller ved stikprøveundersøgelser, hvor registet tjener som den ramme, hvorfra stikprøven trækkes. Det danske erhvervsregister kaldes det Centrale Virksomhedsregister (CVR) og føres af Erhvervsstyrelsen. Det anvendes af mange offentlige myndigheder, ikke mindst Danmarks Statistik, men alle har gratis adgang til registrets data.

For multinationale koncerner, vil det nationale erhvervsregister normalt kun indeholde oplysninger om kocernens aktivitet i indenlandske enheder, men ikke i filialer, datterselskaber og eventuelt hovedselskab i udlandet. Det betyder, at ingen nationale myndigheder har fuldt overblik over en multinational koncerns aktiviteter, og der er ingen garanti for konsistens i koncernens indberetninger til forskellige landes myndigheder. Det vanskeliggør opbygning af statistikker, der afspejler globaliseringen. Som svar på den udfordring har Eurostat opbygget et fælleseuropæisk koncernregister: EuroGroups Register eller ERG.

ERG omfatter multinationale koncerner, der har aktivitet i mindst et af EU’s eller EFTA’s medlemslande. Registret kan benyttes af landenes statistikmyndigheder og centralbanker, men der er ikke offentlig adgang til registret.

Hovedkilden til ERG er erhvervsregistrene i de deltagende lande, suppleret med data fra en kommerciel dataudbyder. Eurostat vurderer og konsoliderer kildedata, således at resultatet bliver et konsistent register, der giver et samlet overblik over hver multinational koncerns aktivitet.

Registret er under opbygning, og kvaliteten er endnu ikke er helt tilfredsstillende. Eurostat har dog fundet det forsvarligt, at udarbejde en eksperimentel rapport om multinationale koncerner i EU. Rapporten beskriver bl.a koncernernes antal, beskæftigelse, kompleksitet (aktivitet i flere brancher) og geografiske udbredelse.

Referencer:
Erhvervsstyrelsen: “Om CVR – det Centrale Virksomhedsregister” (link)
August Götzfried, Zsolt Völfinger & Agne Bikauskaite: “The EuroGroups Register”, Paper prepared for the 16th Conference of IAOS, 2018 (link)
Eurostat: “Structure of multinational enterprise groups in the EU” (link)

20. august 2019
Nationernes statistiske kapacitet

For brugere af officiel statistik er det afgørende at kunne stole på, at statistikproducenten har viljen og evnen til at levere statistik af tilstrækkelig høj kvalitet. FN’s “Fundamentale Principper for Officiel Statistik” stiller krav om, at statistikproducenterne skal oplyse om deres kilder, metoder og procedurer, således at en bruger kan vurdere, om kvaliteten er tilstrækkelig til hans formål. For de fleste brugere vil det dog, selvom den nødvendige information er tilgængelig, være en stor og uoverskuelig opgave, selv at skulle foretage en grundig vurdering.

Heldigvis kan brugerne finde støtte i de vurderinger centrale statistikbrugere som EU og Verdensbanken stiller til rådighed. For EU-landene har EU’s statistiske kontor — Eurostat — offentliggjort detaljerede rapporter, de såkaldte peer reviews, for alle medlemslande, og verdenbanken har beregnet og offentliggjort et kapacitetsindeks (Statistical Capacity Index, SCI) for en række lande.

Eurostats peer reviews er baseret på en grundig gennemgang af hvert lands statistiske system, hvor en lille gruppe eksperter, i samarbejde med landets statistiske myndigheder, undersøger og vurderer alle væsentlige aspekter af systemet. De resulterende rapporter er grundige, men systemet er kostbart og tidskrævene, så der går flere år mellem hver vurdering. Den seneste række af landerapporter er udarbejdet i perioden 2013-2015, og erstatter rapporter fra perioden 2006-2008.

Verdensbankens SCI-indeks er baseret på en simplere metode, baseret på offentligt tilgængelige data. Det muliggør beregning af indeks hvert år, således at indekset kan anvendes som indikator for den løbende udbygning af et lands statistiske kapacitet, hvilket også er et af formålene. I teorien kunne indekset beregnes for alle lande, men er i praksis kun beregnet for 146 fortrinsvis lav- og mellemindkomstlande.

SCI blev udviklet i 2004. Siden da har kravene til den officielle statistikproduktion ændret sig, bl.a som følge af globalisering og fremkomsten af nye datakilder, nye beregningsmetoder og nye præsentationsformer. Det har ført til overvejelser om en revision af SCI, og i et arbejdsnotat fra Verdensbanken præsenteres et forslag til et nyt indeks, Statistical Performance Index (SPI). Det planlagte nye SPI-indeks adskiller sig fra det hidtidige SCI-indeks bl.a. ved at inddrage flere dimensioner og omfatte flere lande, herunder også højindkomstlande.

Referencer:
Michael M. Lokshin, Hai-Anh H. Dang, James Foster, Mustafa Dinc og Grant J. Cameron: “Measuring the Statistical Capacity of Nations”, WORLD BANK…BLOGS, 5/2-2019 (link)
Grant J. Cameron, Hai-Anh H. Dang, Mustafa Dinc, James Foster og Michael M. Lokshin: “Measuring the Statistical Capacity of Nations”, World Bank Group, Policy Research Working Paper 8693, januar 2019 (link)
UN Statistics Division: “Fundamental Principles of Official Statistics”, E/RES/2013/21 (link)
Eurostat: “Peer Reviews in the European Statistical System”, (link)
The World Bank: “Data on Statistical Capacity”, (link)

13. august 2019
USA’s statistiske system

USA’s statistiske system er stærkt decentraliseret, med en produktion af officiel statistik, der er fordelt på mere end 100 forskellige enheder. Udviklingen er tydeligvis sket ved knopskydning — når et behov er opstået, har man etableret ny enhed — uden særlig fokus på fordelene ved koordinering. Det har naturligvis skabt problemer, og kongressen har da også gennem lovgivning søgt at skabe lidt mere overblik. Den vigtigste lov omhandlende den federale statistikproduktion blev oprindeligt vedtaget i 1980, men revideret 1995. Lovens officielle navn: “Lov om Begrænsning af Papirarbejde” (Paperwork Reduction Act”) antyder, at irritation over, at skulle indberette samme oplysninger til flere myndigheder har været en drivkraft bag loven. Yderligere rammer for den officielle statistik er fastlagt i andre love som “Lov om Beskyttelse af Fortrolig Information og om Statistisk Effektivitet” (Confidential Information Protection and Statistical Efficiency Act, CIPSEA) fra 2002, og “Lov om Evidensbaseret Politisk Beslutningstagning” (Evidence-Based Policymaking Act) fra 2018 .

Der er stor variation i størrelse og betydning af de mange officielle statistikproducenter. En væsentlig del af den officielle statistikproduktion — 43 pct. målt ud fra de størrelsen af den finanslovbevillingen til statistikproduktion i 2016 — varetages af 13 såkaldte statistiske hovedmyndigheder (principal statistical agencies). De statistiske hovedmyndigheder er karakteriseret ved, at deres hovedformål er indsamling, behandling og analyse mm. af statistiske oplysninger. Langt den vigtigste er Folketællingebureaet (Bureau of the Census). Andre vigtige hovedmyndigheder er Det Nationale Center for Uddannelsesstatistik (National Center for Education Statistics), Det Nationale Center for Sundhedsstatistik (National Center for Heath Statistics), Bureauet for Arbejdsmarkedsstatistik (Bureau of Labor Statistics) og Det Økonomiske Analysebureau (Bureau of Economic Analysis). De resterende 57 pct. af finanslovbevillingerne er fordelt mere end 90 institutioner, der ikke har statistikproduktion som hovedopgave, men som på finansloven modtager en bevilling øremærket til statistik. Hertil kommer produktion officielle statistikker som ikke har deres eget punkt på finansloven og statistikker produceret af enheder uden for den egentlige regering (executive branch), f.eks. Nationalbanken (Federal Reserve).

Folketællingerne, der som fastlagt i forfatningen afholdes hvert 10 år, spiller en helt grundlæggende rolle i den amerikanske statistik, og har været behandlet i en række tidligere indlæg((14/5-2019, 12/6-2018, 19/9-2917 og 23/5-2017). Næste folketælling afholdes i 2020.

Lovgivningen etablerer tre vigtige værktøjer til koordinering og kvalitetssikring af den officielle statistik: et embede som chefstatistiker, et fællesråd for planlægningen af den officielle statistik (Interagency Council on Statistical Policy, ICSP) og en ramme for beskyttelse af den statistiske fortrolighed. Chefstatistikeren har det overordnede ansvar for og myndigheden til at koordinere og overvåge den officielle statistik. Hun (Nancy Potok) er formand for ICSP, der herudover som medlemmer har cheferne for de tretten statistiske hovedmyndigheder og en enkelt repræsentant for de øvrige officielle statistikproducenter.

I forbindelse med Donald Trumps tiltræden som USA’s præsident blev der fra nogle statistikere og statistikbrugere udtrykt bekymring for, at den nye administration ville svække kvaliteten af den officielle statistik, og måske ligefrem søge at manipulere den (se tidl. indlæg). Den debat kører stadig. Catherine Rampell, kommentator ved The Washington Post, mener at vigtige statistikproducenter som Bureauet for Arbejdsmarkedsstatistik og Det Økonomiske Analysebureau endnu har deres uafhængighed og troværdighed i behold, men at at andre områder, f.eks. miljøstatistikken og fattigdomsstatistikken, er truet.

Referencer:
Office of Management and Budget: “Statistical Programs of the United States Government, fiscal year 2018” (link)
National Academies of Sciences, Engineering, and Medicine: “Principles and Practices for a Federal Statistical Agency” : Sixth Edition. Washington, DC: The National Academies Press. 2017 (link)
US Government: “Strengthening Federal Statistics”, Kapitel 18 i Analytical Perspectives, Budget of the US Government Fiscal Year 2020, (link)
Catherine Rampell: “The Trump Administration’s War on Statistics isn’t Slowing Down”, The Washington Post 23/5-2019 (link)

6. august 2019

Danske husholdningers gæld

I internationale opgørelser, f.eks. fra OECD og EU, præsenteres danske husholdninger som verdens mest forgældede. Det billede er korrekt, men ufuldstændigt, fordi der udelukkende fokuseres på gælden (bruttogæld), uden hensyn til at husholdningerne også har formue. Ser men i stedet på nettogælden — dvs. forskellen mellem formueposterne og gældsposterne — ser billedet anderledes ud, fordi de husholdningerne har betydelige formuer, der modsvarer gælden. Danmarks Statistik har i en analyse søgt at give et mere nuanceret billede af husholdningernes formueforhold. I analysen anvendes familier, og ikke husholdninger, som tællingsenhed, men den forskel påvirker ikke de gundlæggende resultater.

Analysens hovedkonklusion er, at danske familiers finansielle stilling ganske er solid, når man ser på det samlede billede, dvs. inddrager både aktiver og passiver i analysen. Forskellen mellem værdien af aktiverne og passiverne udgør nettoformuen, og her står danske familier som helhed ganske stærkt med en gennemsnitlig nettoformue på næsten 2 mio. kr. En summarisk opgørelse af af familiernes aktiv- og gældsposter er vist nedenfor.

Danske familiers formue og gæld, 2017 (Gennemsnitlige beløb i 1000 kr.)

Aktiver		Gæld
Ejerboliger	1.194	Prioritetsgæld	685
Pensionsformue	903	Lån i pensinstitutter	136
Indstående i pengeinstitut	232	Anden gæld	34
Værdipapirer	211
Andre aktiver	291
I alt	2.831	I alt	855
Nettoformue	1.976

Kilde: Danmarks Statistik, www.statistikbanken.dk/FORMUE1

Som det fremgår af oversigten er det prioritetsgælden — først og fremmest lån med pant i ejerboliger — der dominerer på gældsiden. Men som det også ses, så er værdien af ejerboligerne på aktivsiden langt større end prioritetsgælden. Dertil kommer en betydelig pensionsformue. Det er på den baggrund, at analysen konkluderer, at familiernes økonomiske stilling ikke er helt så dyster, som en fokusering udelukkende på bruttogælden kunne antyde.

Analysen påpeger dog også, at den store bruttogæld kan være et problem. I en krisesituation kan ejerboligerne falde i værdi og være vanskellige at sælge, men der skal stadigvæk betales renter og afdrag på gælden. Og pensionsformuen kan der ikke trækkes på i en sådan situation.

Den gennemsnitlige nettoformue op ca. 2 mio. kr dækker over betydelige forskelle familierne imellem. Den tiendedel af familierne, der har de højeste indkomster har en gennemsnitlig nettoformue på over 7 mio. kr og tiendedelen med de laveste indkomster har en gennemsnitlig formue på 0,2 mio. For familier midt i indkomstfordelingen (medianen) ligger den gennemsnitlige nettoformue omkring 1,3 mio. kr.

Under 5 pct af alle familier har en nettogæld på 100.000 kr. eller mere, men andelen noget større blandt familierne med de laveste indkomster. Analysen omfatter en lidt dybere redegørelse for denne gruppes arbejdsmarkedstilknytning og familietype (alder og antal børn). Der leveres også nogle overvejelser om den tidsmæssige mobilitet i formue og gæld, f.eks. i hvilket omfang familierne over tiden kommer ud af gammel gæld.

Referencer:
Danmarks Statistik: “Er de danske familier dybt forgældede?”, DSTAnalyse, 11/6-2019 (link)

25. juni 2019

Den globale indkomstfordeling

Gini-koefficienten er det mest udbredte (men ikke det eneste) mål for ulighed i indkomstfordelinger (se tidl. indlæg). Oftest angives Gini-koefficienten i procent således at en kvotient på 0 angiver fuldstændig lighed, dvs at alle har samme indkomst, og en kvotient på 100 angiver fulstændig ulighed, dvs. at al indkomst tilfalder en indkomstmodtager. I paksis ligger værdien naturligvis et sted derimellem. I EU-landende ligger koefficienten mellem 23 og 40. Danmark ligger i den lave ende med en Gini-koefficient omkring 28.

Traditionelt opgøres og sammenlignes Gini-koefficienter for lande, som f.eks i tabel ilc_di12 i Eurostats statistikbank. EU opgør også en Gini-koefficient for EU som helhed — den er omkring 40 — og der forekommer også opgørelser af Gini-koefficienten for verden som helhed. Verdens samlede indkomstulighed kan dels tilskrives forskelle i indkomstniveau mellem rige og fattige lande og dels ulighed indenfor de enkelte lande. Der kan bo meget rige mennesker i meget fattige lande, og fattigdom forekommer også i rige lande. Økonomen Jørgen Modalsli — forskningsleder i det norske statistikbureau — har i en artikel (Modalsli 2017) søgt at opdele Gini-koefficienten for hele verden i de komponenter, der kan tilskrives indkomstforskelle mellem lande, og de komponenter, der kan tilskrives ulighed inden for de enkelte lande.

Modalslis beregninger vedrører året 2005, hvor han opgør Gini-koefficienten for verden som helhed til 69,7. I hans samlede beregninger indgår 188 lande. I tabellen neden for er resultatene aggregeret på syv regioner. Diagonalen i tabellen viser hvor stor en andel (i pct.) af den samlede Gini-koefficent på 69,7, der kan tiskrives indkomstforskelle mellem indkomstmodtagere indenfor hver af de syv regioner. Tallene uden for diagonalen angiver andelen, der kan tilskrives forskelle mellem regionerne indbydes. De indbyrdes forskelle afspejler både forskelle i de regionale Gini-koefficienter, dvs. graden af ulighed i de enkelte regioner, og forskelle i gennemsnitsindkomst mellem regionerne.

Global Gini-koefficient dekomponeret på regioner (pct. af samlet koefficient¹)

	Afrika	Latin-amerika²	Nord-amerika	Europa	Asien, vest	Asien, øst	Oceanien
Afrika	0
Latinamerika¹	1	1
Nordamerika	5	3	1
Europa	5	3	3	2
Asien, vest	2	3	10	11	2
Asien, øst	5	4	10	11	10	7
Oceanien	0	0	0	0	0	1	0

Noter: ¹Tallene i tabellen summer op til 100 ²Inklusiv Caribien

Som det fremgår af tabellen, så er det forskellene mellem Nordamerika og Europa på den ene side og Asien på den anden og mellem det vestlige og østlige Asien, der bidrager mest til den samlede ulighed. Også de interne forskelle i det østlige Asien, der både omfatter et stort rigt land som Japan og et stort fattigt land som Kina, bidrager betydeligt. Selv om Afrika og Latinamerika er fattige regioner med en høj grad af ulighed i indkomstfordelingen, indgår de kun med forholdsvis beskedne andele i den samlede verdensulighed. Det skyldes, at de to regioners folketal er lavt i forhold til Asiens.

Ser man på de detaljerede landeresultater, så er det naturligt nok forskellen mellem verdens største rige økonomi, USA, og verdens største fattige økonomier, Kina og Indien, der dominerer. Ulighederne mellem Kina og USA tegner sig for for 6,0 pct af den globale ulighed, og forskellene mellem USA og Indien for 5,5 pct.

Referencer:
Jørgen Modalsli: “Decomposing Global Inequality”, Review of Income and Wealth Ser 3 Nr 3 september 2017

18. juni 2019

Avislæsning i Danmark

Der læses markant mindre avis i Danmark i dag end for ti år siden. Værst er det gået for de landsdækkende dagblade, der i 2018 har mindre end en trediedel af det antal læsere, de havde i 2017, men som det fremgår af figuren nedenfor, så er også søndagsaviser og regionale dagblade ramt af tilbagegangen. Det relativt høje niveau for landsdækkende søndagsaviser i perioden 2011 – 2016 skyldes udelukkende, at den husstandsomdelte gratisavis — Søndagsavisen — kun i denne peride indgår i talllene. Antallet af læsere af en avis, er opgjort som antallet af personer, der har læst mindst to minutter i den pågældende avis. Læsertallene i figuren er opgjort som bruttotal, dvs. en person, der har læst i flere aviser indgår i læsertallet med det antal aviser, han har læst.

Figur 1: Læsere af dagblade og søndagsaviser 2007 – 2018

Kilde:Danmarks Statistikbank/DAGBLAD2

Læsertallene offentliggøres af Danmarks Statistik, men er baseret på data indsamlet af Index Danmark/Gallup. Danmarks Statistik offentliggør kun aggregerede tal, men IndexDanmark/Gallup offentliggør læsertal for de enkelte aviser.

Tilbagegangen har, som det fremgår af figur 2, ramt næsten alle aviser. De eneste, der skiller sig ud er Kristeligt Dagblad, der har haft en beskeden fremgang, og Information, der sammenlignet med de øvrige aviser kun har haft en beskeden tilbagegang.

Figur 2: Avisernes læsertal i 2007 og 2018

Kilde: Læsertal fra Index Danmark/Gallup

Det er en nærliggende tanke, at det store fald i avislæsning hænger sammen med internettets stigende udbredelse. Af Danmarks Statistiks årlige opgørelser af IT-anvendelse i befolkningen (Statistikbanken/BBRIT07) fremgår da også, at den andel af befolkningen, der læser nyheder på nettet er steget fra 52 pct. i 2008 til 84 pct. i 2017.

Referencer
Danmarks Statistik: “Statistikdokumentation for Dagblade og tidsskrifter 2018”, (link)
Danmarks Statistik: Statistibanken/DAGBLAD2 (link)
Danmarks Statistik: Statistibanken/NEBRIT09 (link)
Indeks Danmark/Gallup: Halvårlige opgørelser af læsertal

11. juni 2019
Økonomisk vækst målt gennem lysdata fra satellitbilleder

Bruttonationalproduktet (BNP) pr capita er — trods problemer med opgørelse og tolkning — standardmålet ved sammenligning af nationers velstand og økonomiske udvikling. Men opgørelsen kræver et omfattende og pålideligt statistisk system og er ofte behæftet med betydelig usikkerhed, navnlig for mellem- og lavindkomstlande, med svagt udbyggede statistiksystemer. I et arbejdspapir fra IMF har to forskere — Yingyao Hu og Jiaxiong Yao — forsøgt at belyse usikkerheden ved at sammenligne de officielle opgørelser af BNP med den natlige oplysning, de kan måles fra satellitter. Antagelsen er at graden den natlige oplysning afspejler økonomisk aktivitet og formåen, og derfor vil variere i nogenlunde samme takt som BNP.

Hu og Yao ser ikke en opgørelse baseret på satellitdata som et alternativ til den traditionelle BNP-opgørelse. Deres ide er at skaffe viden om den generelle sammenhæng mellem BNP og lysmængde, og bruge denne viden til at konstruere et alternativt, mere præcist, BNP-mål ved at kombinere observationer af lysdata med den officielle BNP-opgørelse.

Metoden virker bedst for lav- og mellemindkomstlande. For højindkomstlande kan lysdata kun bidrage beskedent til en forbedret opgørelse, bl.a. fordi de officielle opgørelse i forvejen er af god kvalitet. Hertil kommer, at sammenhængen mellem lysemission og økonomisk aktivitet er mindre udpræget i højindkomstlande, hvor økonomisk vækst ofte har forbindelse med teknologisk innovation, der ikke genererer så meget lysemission som f.eks. opbygning af fysisk infrastuktur i form af bygninger og veje.

I forbindelse med konflikter og politisk ustabilitet kommer et lands statistiske kapacitet er under pres, fordi dataindsamlingen vanskeliggøres. En statistikproducent, der har vanskeligt ved at indsamle nye data, vil være nødt til at tage udgangspunkt i eksisterende data og søge at fremskrive dem. En sådan fremskrivning vil ofte være konservativ, og tendere mod at undervurdere et fald i BNP. Pålideligheden af satellitdata påvirkes derimod ikke af begivenheder på jorden, så det alternative mål kan i et sådanne tilfælde bidrage til et bedre billede af udviklingen.

Referencer:
Yingyao Hu og Jiaxiong Yao: “Illuminating Economic Growth”, IMF Working Paper WP/19/77, 9. april 2019 (link)

28. maj 2019
Data Science Campus

I marts 2017 oprettede det britiske nationale statistikinstitut, Office for National Statistics (tidl. indlæg) en særlig enhed for forskning og uddannelse under navnet Data Science Campus (DSC). Enheden fik hjemsted i Newport i Wales, hvor Office for National Statistics har et af sine kontorer. Oprettelsen var et af resultaterne af anbefalingerne i den såkaldte Bean-rapport fra 2016 (tidl. indlæg), hvor professor Charles Bean leverede en samlet vurdering af den britiske økonomiske statistik og en række anbefalinger til forbedringer. I anledning af DSC’s toårsdag i marts 2019, blev en status for udviklingen i de første to år offentliggjort.

På udannelsessiden tilbyder DSC et omfattende program for videreuddannelse af offentligt ansatte, rækkende fra to-timers workshops til en 2-4 årig kandidatuddannelse som datanalytiker med særlig fokus på behovene i den offentlige administration, herunder den officielle statistik. Der tilbydes også overbygningsuddannelser for kandidater (post-graduate).

På udviklingssiden har DSC en række projekter kørende bl.a. om statistisk anvendelse af betalingsdata, risiko for ensomhed, og bedre forståelse af hvad der kendetegner virksomheder med høj vækst. Blandt de afsluttede projekter kan nævnes dannelse af syntetiske data og forbedring af søgefunktionen på Office for National Statistics’ hjemmeside. DSC tilstræber en høj grad af åbenhed i sit arbejde og stiller det programmel, der udvikles, til rådighed for andre gennem GitHub.

Referencer:
Data Science Campus: Hjemmeside, (link)
Data Science Campus: “Our First Two Years”, (link)
Data Science Campus: github side (link)

21. maj 2019
Differential privacy i den amerikanske folketælling

Som omtalt i mit tidligere indlæg om differentiel privacy (link) har man i USA besluttet, at differential privacy (i det følgende kaldet DP) skal være grundlaget for fortrolighedsbeskyttelsen i den amerikanske folketælling for 2020. Den beslutning har stillet Folketællingsbureauet (Census Bureau) over for en række udfordringer. Bureauets afdelingsdirektør for forskning og metode — John Abowd — har i et foredrag offentliggjort på YouTube leveret nogle overvejelser omkring disse udfordringer. Han har også sammen med Simson L. Garfinkel og Sarah Powazek lidt dybere redegjort for udfordringerne i artiklen “Issues Encountered Deploying Differential Privacy“.

DP er et ret nyt forskningsobjekt — de første artikler om emnet udkom i begyndelsen af dette årtusind — så en af udfordringerne har været, at finde kvalificeret personale og egnede redskaber bl.a i form af programmel og matematiske metoder. I det omfang programmel og metoder eksisterer, har de vist sig ikke umiddelbart at kunne opfylde bureauets konkrete behov, så udviklingen af nye metoder er også en udfordring. Men den største udfordring er efter Abowds opfattelse at få brugerne til at forstå, at de nye offentliggørelsesprincipper, som bliver følgen af DP, i mange tilfælde kræver, at de de hidtil anvendte modeller, værktøjer og metoder må ændres.

Det er et centralt led i en DP-baseret fortrolighedpolitik, at den samlede information, der kan offentliggøres på grundlag af en given database, i dette tilfælde folketællingsresultaterne, må begrænses. Det kan ske ved lægge loft over omfanget af data , der offentliggøres, eller ved af mindske præcisionen i offentliggørelserne. Præcisionen mindskes ved de tal der offentliggøres afviger lidt fra de faktisk opgjorte tal. Det kaldes at indlægge støj i opgørelserne. I praksis vil en kombination af de to metoder blive anvendt

Hvor megen information, der tillades udtrukket af databasen, skal afgøres på forhånd ud fra en afvejning mellem risikoen for fortrolighedsbrud og ønsket om mest mulig information. Det er en politisk og ikke en teknisk afvejning, så den afgørelse vil blive truffet i en politisk beslutningsproces. Resultatet bliver et informationsbudget, som herefter skal fordeles mellem forskellige anvendelser. Det kan næppe undgå at give konflikter mellem forskellige brugerinteresser. Det vil nok også skabe utilfredshed hos brugerne, at deres hidtidige metoder og programmer skal tilpasses. F.,eks. vil mikrodatasæt ikke nødvendigvis kunne leveres i den hidtidige form.

Referencer:
Simson L. Garfinkel, John M. Abowd og Sarah Powazek: “Issues Encountered Deploying Differential Privacy”, arXiv:1809.02201v1 [cs.CR] 6 Sep 2018 (link)
John M. Abowd: “Stepping-up: The Census Bureau Sets an Example of How to Be a Good Data Steward in the 21st Century”, YouTube (link)

14. maj 2019
Offentliggørelse af usikkerhed i officiel statistik — COMUNIKOS-projektet

Resultatene fra en officiel statistisk opgørelse præsenteres sædvanligvis som en række observationer, f.eks antal personer og gennemsnitlig indkomst, vedrørende en række klart afgrænsede delpopulationer, f.eks. aldersgrupper. I enkelte tilfælde bliver der i forbindelse med offentliggørelsen leveret nogle oplysninger omkring usikkerheden på opgørelserne, og i dokumentationen af statistikkerne findes altid en vurdering af usikkerheden. Denne vurdering er dog oftest ret generel og holdt i vage vendinger. Der er ikke tradition for en systematisk, formaliseret og standardiseret præsentation af usikkerheden i statistiske opgørelser.

Med henblik på dels at skabe bedre overblik over eksisterende metoder og praksis for præsentation af usikkerheden i opgørelse af officiel statistik, og dels at vurdere mulighederne for forbedringer i præsentationen, er der i EU-regi blevet etableret et projekt under overskriften “Communicating Uncertainty in Key Official Statistics” — forkortet COMUNIKOS. Som pilotprojekt er valgt opgørelsen af forbrugerprisindeks på grundlag af scannerdata. Projektet forventes afsluttet i juni2020 og resultaterne vil løbende blive rapporteret.

Referencer:
EU: “Conunikos-projektets hjemmeside” (link)

7. maj 2019