År: 2020

  • Danmarks Statistiks portal for officiel statistik

    Fra Danmarks Statistiks portal for officiel statistik får man et samlet overblik over statistik produceret af offentlige myndigheder. Portalen er en udmøntning af § 4 i den lov om Danmarks Statistik, der trådte i kraft i 2018. Loven pålægger Danmarks Statistik dels at offentliggøre en liste over offenligt produceret samfundsbelysende statistik, og dels at vedligeholde en portal, der giver adgang til al officiel offentligt produceret statistik — i det følgende blot betegnet officiel statistik. Officiel statistik er statistik, som er produceret af en offentlig myndighed og som opfylder de kvalitetskrav, som er fastlagt i EU’s statistiklov og kvalitetskodeks. For at en officiel statistik kan optages i portalen kræves det dog også, at den producerende myndighed tilmelder sig  Ordningen for Officiel Statistik, der bl.a betyder, at Danmarks Statistik overvåger overholdelsen af retningslinierne. Retningslinlierne er beskrevet i et særligt dokument, udarbejdet af Danmarks Statistik.

    Som udgangspunkt er det således frivilligt for en offentlig statistikproducent at tilmelde sig ordningen og dermed underkaste sig vilkårene. Denne frivillighed gælder dog ikke statistik, der indsamles til EU’s statistiske program. Myndigheder der inberetter til EU’s statistikprogram er forpligtet til at være tilmeldt ordningen. I forbindelse med indberetningen skelner EU mellem det nationale statistiske institut, som har det overordnede ansvar for statistikindberetningerne, og andre nationale statistiske myndigheder, som indberetter til systemet. Danmarks Statistik er det danske nationale statistikinstitut, men på EU’s liste over indberettere står herudover 14 danske myndigheder.

    Portalen opdeler den officielle statistik i samme tolv emner, som Danmarks Statistik anvender ved præsentation af sin egen statistik. Man søger i emner og underemner på præcis samme måde som i Statistikbanken. Et underemne indeholder enten en liste over nye underemner, som man må vælge iblandt, eller et eller flere link til sider med officiel statistik. Ved hvert link er angivet navnet på den institution, der er ansvarlig for den statistik, der linkes til. Oftest vil den ansvarlige institution være Danmarks Statistik, og linket vil da normalt være til Statistikbanken. Hvor andre institutioner er ansvarlige vil linket føre til en side, hvor statistikken offentliggøres. Det kan være en side, der vedligeholdes af den ansvarlige institution selv, men kan også være til en side, der vedligeholdes af en anden institution, der står for offentliggørelsen af statistikken, f.eks Eurostat.  Er man vant til at bruge Statistikbanken vil man føle sig helt hjemme i portalen. Faktisk er det nærmest fuldstændigt som at søge i Statistikbanken, blot med adgang til flere tabeller.

    Den del af den offentlige statistik, der ikke tilhører kategorien officiel statistik, enten fordi den ikke opfylder kvalitetskravene, eller fordi producenten har valgt ikke at tilmelde den ordningen, er listet på portalens hjemmeside under overskriften Anden offentligt produceret statistik“.  Også denne liste er opdelt efter samme emner som Danmarks Statistik i øvrigt anvender, men uden opdeling på underemner. I stedet er under hver emne angivet navnene på de institutioner, der producerer offentlig statistik vedrørende emnet, og under hver institution en liste med et eller flere link(s) til de statistikker, institutionen stiller til rådighed.

    Referencer:
    Danmarks Statistik: “Portal for Officiel Statistik“, (link)
    Danmarks Statistik: “Retningslinjer for officiel statistik”, august 2019 (link)
    Eurostat: “List of National Statistical Institutes and aother national authorities” (link)
    Retsinformation: “Bekendtgørelse af lov om Danmarks Statistik”, LBK nr 610 af 30/05/2018 (link)

  • Befolkningsprognoser

    En befolkningsprognose er en fremskrivning af befolkningens størrelse og sammensætning på kategorier, f.eks. køn og alder, baseret dels på statistiske opgørelser frem til udgangssituationen (baseline) og dels på en række forudsætninger om fremtidig fødselshyppighed, dødelighed og migration. I tabellen nedenfor er nogle hovedtræk fra Danmarks Statistiks seneste prognose, der udkom 27/5 2020, sammenholdt med Eurostats prognose. Resultaterne fra de to prognoser er meget forskellige. Danmarks Statistik viser en forøgelse af befolkningen frem til 2060 på  ca. 9 pct. — fra 5,8 mio til 6,3 mio. Eurostat forudser en noget mindre stigning på ca. 5 pct. til 6,1 mio. Begge prognoser har stort set samme udgangspunkt, så forskellene i udviklingen må ligge i forskelle i forudsætningerne.

    Tabel 1: Sammneligning af Eurostats og Danmark Statistiks Befolkningsfremskrivning for Danmark frem til 2060 (udvalgte år)

    År Eurostat Danmarks Statistik
    Primo-befolkning Fødsels-overskud Nettoind-vandring Tilvækst Primo-befolkning Fødsels-overskud Nettoind-vandring Tilvækst
    1000 personer
    2020 5.822,8 6,8 4,4 11,2 5.822,8 7,0 15,1 22,2
    2025 5.895,5 5,3 12,3 17,6 5.930,2 10,5 11,9 22,4
    2030 5.975,0 0,5 12,4 12,9 6.043,3 10,3 10,5 20,8
    2035 6.030,3 -4,1 12,7 8,6 6.137,0 6,0 9,8 15,8
    2040 6.067,1 -6,8 12,5 5,7 6.206,8 2,1 9,2 11,3
    2045 6.091,7 -7,8 11,8 4,0 6.256,7 -0,4 9,0 8,6
    2050 6.109,8 -8,2 11,3 3,1 6.298,2 -0,5 9,0 8,4
    2055 6.123,5 -8,8 11,1 2,3 6.343,8 1,7 8,9 10,6
    2060 6.134,3 -8,9 11,1 2,2 6.403,6 5,1 9,0 14,1

    Anm: Tallene for Eurostet er skaleret, således at folketallet i 2020 er identisk i de to opgørelser.
    Kilder: Eurostats  Statistikbank proj_19ndbi og Danmarks Statistikbank FRDK220

    Som det fremgår af tabellen, forudsætter Eurostat et noget mindre fødselsoverskud end Danmarks Statistik. Fra 2035 viser Eurostats tal et mærkbart fødselsunderskud. Til gengæld ser Eurostat en større nettoindvandring, men samlet set altså en langsommere befolkningsudvikling.

    Nettooindvandringen er den mest usikre del af prognoserne, især fordi den afhænger af en række uforudsigelige forhold omkring den politiske og økonomiske udvikling i resten af verden og fremtidige politiske beslutninger i Danmark og EU. Fødselsoverskuddet er i højere grad knyttet til størrelser, der udvikler sig mere stabilt som antal fødsler pr. kvinde i den fødedygtige alder og dødeligheden for forskellige aldersgrupper.

    Tabel 2: Opgørelsen af fødselsoverskuddet i tabel 1

    År
    Eurostat Danmarks Statistik
    Kvinder 15-49 år Ferti-litet1 Føds-ler Døds-fald Fødsels-over-skud Kvinder 15-49 år Ferti-litet1 Føds-ler Døds-fald Fødsels-over-skud
    2020 1262,6 49,4 62,4 55,6 6,8 1266,4 48,4 61,3 54,3 7,0
    2025 1237,4 51,7 64,0 58,7 5,3 1262,1 53,7 67,7 57,2 10,5
    2030 1225,5 51,6 63,3 62,7 0,5 1254,8 57,0 71,5 61,2 10,3
    2035 1234,9 50,3 62,1 66,2 -4,1 1269,1 55,5 70,5 64,5 6,0
    2040 1237,2 49,4 61,2 67,9 -6,8 1278,1 53,4 68,2 66,1 2,1
    2045 1224,4 49,6 60,7 68,5 -7,8 1281,7 51,7 66,3 66,7 -0,4
    2050 1214,6 50,3 61,1 69,3 -8,2 1288,3 52,0 67,0 67,6 -0,5
    2055 1209,7 50,9 61,5 70,3 -8,8 1297,2 54,2 70,3 68,6 1,7
    2060 1200,7 51,2 61,5 70,3 -8,9 1300,9 56,4 73,3 68,2 5,1

    Anm: Se tabel 1
    Note: Antal fødsler pr 1000 kvinder i aldesgruppen 15-49 år
    Kilder: Eurostats  statistikbank proj_19np, proj_19ndbi og Danmarks Statistikbank FRDK120, FRDK220

    Som det fremgår af tabel 2, er der ikke de store forskelle på den samlede dødelighed i de to prognoser. Det er forskellen i fødselstallet, der er årsag til, at Eurostat når frem til et fald i fødselsoverskuddet, og her er årsagen igen at Eurostat forudser en lavere fertilitet.

    Fertiliteten er her opgjort som antal fødsler pr. 1000 kvinder i den fødedygtige alder (15-49 år). Det er et simpelt, men ikke særligt præcist mål, fordi det kun ser på det samlede antal kvinder i aldersgruppen 15-49 år, og ikke tager hensyn til at fertiliteten er meget forskellig i de forskellige aldersgrupper. Et bedre mål ville være den samlede fertilitetskvotient, der tager højde for aldersfordelingen, men de offentliggjorte data for de to prognoser gør ikke en umiddelbar sammenligning af samlet fertilitetskvotient mulig. 

    Referencer:
    Danmarks Statistik: “Befolkningsfremskrivninger 2020-2060”, Nyt fra Danmarks Statistik, 2020 nr 1999 (link)

  • Designede contra organiske data

    Det er oplagt, at en producent af officiel statistik foretrækker at have fuld kontrol over planlægningen, etableringen og gennemførelsen af en statistik. Hvis producenten kan fastlægge definitionen af begreberne, definere populationen, beslutte  udvælgelses- og dataindsamlingsmetode,  og vælge metoder og procedurer for efterbehandlingen af de indsamlede data, har man alle forudsætninger for at opbygge en statistik af høj kvalitet. Data indsamlet og bearbejdet under dataindsamlerens fulde kontrol kaldes designede data.

    De officielle statistikproducenters muligheder for basere en statistik på egne designede data begrænses dels af de ressourcer, der er til rådighed, og dels af respondenternes villighed til at  medvirke. På begge områder er den officielle statistikproduktion undet pres. Anvendelse af  administrative data som grundlag for statistik er en vej ud af disse begrænsninger. Administrative data er indsamlet af en offentlige myndighed, f.eks. skattevæsenet, til brug for egne ikke-statistiske formål, men de kan ofte bearbejdes til statistisk brug. Udgifterne til dataindsamlingen er allerede afholdt, og problemerne med respondenterne eventuelle modvilje er allerede håndteret, så statistikmyndigheden kan koncentrere sig om efterbehandlingen. Bearbejningen af administrative data til statistiske formål er ikke en triviel opgave, men dog væsentlig mindre ressourcekrævende end etableringen af en egentlig statistisk dataindsamling. Der er stadig tale om designede data, men de er designet til et andet formål end statistik, og statistikmyndigheden har ikke kontrol over defintioner og populationsafgrænsning. I praksis har det dog vist sig at fordelene ved administrative data ofte opvejer ulemperne og at det er muligt at anvende dem som grundlag for fremstilling af statistik af høj kvalitet.

    Designede data udgør den absolut dominerende del af den officielle statistiks grundlag, og vil forstsat gøre det, i hvert fald indenfor en overskuelig fremtid. Men en anden type data — organiske data — der ikke er dannet som led i en planlagt og systematisk dataindsamling, er begyndt at dukke op som supplerende kilde. Det vil typisk være data, der opstår i forbindelse med anvendelse af  informationsteknologi, f.eks ved transaktioner, der involverer stregkoder eller ved anvendelse af mobiltelefoner. Disse data er tæt knyttet til de aktiviteter, der frembringer dem, og  populationsafgrænsningen er sjældent i overesstemmelse med statistikkens krav. Til gengæld kan de være fuldstændigt dækkende og meget pålidelige for det (begrænsende) område de omfatter, de kan være meget omfattende og de er af natur i digital form og således umiddelbart tilgængelige for automatisk behandling.

    Betegnelserne designede data  og organiske data er foreslået af Robert Groves — en tidligere direktør for det amerikanske folketællingsbureau — i et blog-indlæg i 2011. Hans udgangspunkt var, at organiske data udgør en stor og hastigt voksende del af verdens samlede datamængde, og at de er forholdsvis let tilgængelige. Det gør det oplagt for folketællingsbureaet og andre officielle statistikproducenter at inddrage dem som kilder. Groves forestillede sig ikke, at organiske data ville fortrænge deignede data som kilde, men han så en kombination af designede og organiske data som fremtidens kilde for officiel statistik. Og foreløbigt tyder meget på, at det er den vej, det går. De officielle statistikproducenter er meget opmærksomme på mulighederne for at anvende organiske data i statistikproduktionen, ofte under overskriften Big Data. Danmarks statistik anvender f.eks. stregkodedata fra detailhandelen som en supplerende kilde ved opgørelsen af forbrugerprisindekset, og har iværksat et eksperiment, hvor positionsdata for skibe anvendes som grundlag for en statistik om aktivitet i havnene. Mulighederne er  store, men der er også behov for at indvinde mere viden og erfaring, før organiske data for alvor kan komme til deres ret som en betydningsfuld del af grundlaget for officiel statistik.

    Referencer:
    Robert Groves:
    “Designed Data and Organic Data”, United States Census Bureu  31/5-2011 (link)
    Ronberto Ribigon: “Big Data and Measurement: From Inflation to Discrimination”, RBI Bulletin, Reserve Bank of India, 11. sept. 2018 (link)

  • Sundhedsstatistik under COVID-19 epidemien

    Som omtalt i det forige indlæg har Danmarks Statistik i forbindelse med COVID-19 krisen etableret en særlig hjemmeside med statistik om udviklingen i både den sundhedsmæssige og den økonomiske situation. Her er tale om statistikker, der hurtigt kan belyse udviklingen — såkaldt konjunkturstatistik. Konjunkturstatistik står i modsætning til strukturstatistik, der lægger mere vægt på grundighed og detaljer, og som det tager længere tid at producere. Når det gælder de økonomiske indikatorer, er der en lang tradition for konjunkturstatistik i den officielle statistik, og der er derfor opbygget en omfattende viden omkring produktionen og tolkningen af den. Anderledes forholder det sig med sundhedsstatistikken, der traditionelt har været set som en strukturstatistik. Kortsigtsindikatorer ligger ikke lige for hånden, så de officielle statistikmyndigheder har måttet være kreative.

    En ideel epidemistatistik skulle dagligt opgøre bl.a. det samlede antal smittede, antallet af nye smittede, antallet af smittede med alvorlige symptomer og antallet af dødsfald forårsaget af epidemien. Sådanne opgørelser optræder da også på Danmarks Statistiks COVID19-hjemmeside, men de har nogle kvalitetsbrist. Antallet af smittede kan kun skaffes gennem målinger og man har kun testet personer, der opfyldte særlige kriterier, f,eks. viste alvolige symptomer på COVID-19. Opgørelserne er således ikke repræsentative for hele befolkningen. Da kriterierne ikke har ligget fast, giver tallene heller ikke et pålideligt billede af udviklingen. Omfanget af alvorlige tilfælde belyses ved antallet of hospitalsindlagte, specielt indlagte på intensivafdelinger og i repirator. Sålænge kriterierne for indlæggelse er uændrede, er det en udmærket indikator. Hvad dødsfald angår er problemet, at de hurtige opgørelser kun registrerer om afdøde var inficeret, men ikke om COVID-19 var dødsårsagen. Den egentlige statistik over dødsårsager er lidt længere undervejs.

    Ved internationale sammenligninger er problemerne endnu større, først og fremmest fordi  opgørelsesmetoderne i landene kan være meget forskellige. Det er tænkeligt, at man på sundhedsområdet kan etablere kortsigtsstatistikker (konjunkturstatistik) af den type, der er nævnt i foregående afsnit, som opfylder de sædvanlige kvalitetskrav for officiel statistik, men det vil tage noget tid, og de vil næppe kunne nå at blive operationelle i forbindelse med den nuværende epidemi. Den gode umiddelbare løsning er at tilpasse offentliggørelsen af  de eksisterende sundhedsstatistikker til de nye behov. Den simpleste og mest oplagte metode er at sammenligne det samlede antal af ugentlige (eller daglige) dødsfald med gennemsnittet for tilsvarende uger/dage i tidligere år. En sådan statistik er ved at komme i gang i mange lande herunder også Danmark, hvor den kan findes på Dannarks Statistiks COVID-19 side og i Statistikbanken

    I figuren nedenfor er vist udviklingen i det samlede antal døde pr uge i pct. af en beregnet normaldødelighed. Normaldødeligheden er beregnet som medianen for døde i pct. af den samlede befolkning (ved begyndelsen af kvartalet) i den tilsvarende uge i årene 2017-2019.

    Ugentlig overdødelighed 2018 uge 1 – 2020 uge 17

    Kilde: Danmarks Statistík, www.statistikbanken.dk/DODC2

    Som det fremgår af figuren er det tydeligt, at der sker en stigning i overdødeligheden omkring uge 11, hvor epidemien ifølge WHO brød ud.

  • Eksperimentel statistik fra producenter af officiel statistik

    COVID-19 situationen har skabt et særligt behov for statistikker med kort produktionstid, der kan belyse centrale forhold omkring krisen, både vedrørende udbredelsen af epedemien og udviklingen i den økonomiske situation. På den baggrund har Danmarks Statistik på sit websted etableret en side,  hvor en række statistikker af denne type præsenteres. Siden har fået overskriften “Eksperimentel statistik og analyse”.

    Producenter af officiel statistik anvender begrebet eksperimentel statistik om opgørelser, der offentliggøres mens en planlagt statistik endnu er i udviklings- eller overvejelsesfasen. De offentliggjorte opgørelser lever ikke nødvendigvis fuldt ud op til de sædvanlige kvalitetskrav for officiel statistik, men kan dog være af interesse for kvalificerede brugere, der er indstillet på, at statistikken endnu ikke har fundet sin endelige form. Der kan f.eks være tale om, at den endnu ikke er fuldt dækkende for den population, den tilstræber at belyse, eller at metoderne ikke er færdigudviklede eller endelig fastlagt. For brugerne betyder det dels, at de på et tidligt tidspunkt kan anvende resultaterne, selvom det må ske med større forsigtighed end for færdige statistikker, og dels at de gennem feed-back kan bidrage til forbedring af det endelige resultat. De britiske statistikmyndigheder kar opstillet en række klare regler for, hvornår en statistik kan kaldes eksperimentel og hvornår den har nået en sådan grad af modenhed, at betegnelsen eksperimentel skal fjernes, men der eksisterer ikke en internationelt anerkendt definition på begrebet.

    En del af de opgørelser, der præsenteres på Danmarks Statistiks nye side, er gengivelser af statistik produceret af ikke-officielle prodcenter, f.eks Statens Serum Institut (indikatorer for smitetudbredelse og dødsfald), Danske Bank (forbrugsindikatorerpå grundlag af data fra MobilePay), Styrelsen for Arbejdsmarked og Rekruttering (indikatorer for arbejdsløshed mv.), Vejdirektoratet (Indeks for vejtrafik) og Storebæltsforbindelsen (personbilstrafik over Storebælt). Disse opgørelser er naturligvis meget nyttige, men de er ikke et led i en overvejet eller planlagt udvikling af den officielle statistik, og er derfor ikke eksperimentelle i den gængse betydning af ordet.

    Men den nyetablerede side indeholder også et par eksempler på egentlig eksperimentel statistik. Først og fremmest vises resultater fra Anløbsaktiviteten i danske havne , der hidtil kun har været offentliggjort i Statistikbanken. Denne statistiks grundlag er skibpositionsdata (AIS-systemet) leveret af Søfartsstyrelsen og er et eksempel på Danmarks Statistiks eksperimenter med anvendelse af big data (se tidl. indlæg). Særlig interessant er en ny statitsik, udarbejdet i samarbejde med Nationalbanken, der dagligt opgør antallet af flyafgange fra Københavns Lufthavn. Kilden er The OpenSky Network — en organisation, der indsamler omfattende data om flytrafik og stiller dem til rådighed i en åben datatbase. Det kan ses som et eksempel på Trusted smart statistics (se tidl . indlæg), hvor en offentlig statistikmyndighed — i dette tilælde Danmarks Statistik — ingen andel har i dataindsamlingen, men gennem sine metoder og redskaber skaber en pålidelig og brugbar statistik.

    Også Eurostat har offentliggjort en række statistikker, som de betegner som eksperimentelle, bl. a. en web-baseret opgørelse af populariteten af steder optaget på UNESCOs Verdensarvliste (se tidl. indlæg), en rapport om multinationale koncerner (se tidl. indlæg) og en longitudinel arbejdsmarkedsstatistik (se tidl. indlæg).

    Referencer:
    Danmarks Statistik: “Eksperimentel statistik og analyse”, (link)
    Danmarks Statistik: “Anløbsaktiviteten i danske havne (eksperimentel statistik)”, Statistikdokumentation (link)
    Eurostat: “Eksperimental statistics” (link)
    European Statistical Systen: “Experimental Statistic” (link)
    Office for Statistcs Regulation: “Experimental statistics – official statistics in development “, August 2019 (link)

  • Demokrati og ulighed – Eksempel på anvendelse af “Comparative Political Data Set”

    Den officielle statistik gør — som alt andet godt — mere nytte, jo flere, der har adgang til at benytte den.  Frit tilgængelige statistikbanker, som de der leveres af f.eks Danmarks Statistik og Eurostat bidrager derfor stærkt til at øge værdien af den officielle statistik. Samme princip gælder naturligvis for ikke-officiel statistik, og særligt værdifuldt bliver det når nogen påtager sig, at samle data fra forskellige kilder i frit tilængelige databanker. Et eksempel herpå er “Comparative Political Data Set” (CPDS), der kombinerer en række oplysninger for en gruppe af demokratiske lande, hentet fra både officiel statistik og fra andre kilder. Bag dette datasæt står en række forskere fra Universitetet i Zürich med professor Dr. Klaus Amingeon i spidsen. Datasættet indeholder dels oplysninger om valg, regeringsdannelse og politiske partier i de udvalgte lande og dels oplysninger om økonomi og befolkningsforhold. Datasættet har bla. været anvendt af to forskere fra universitetet i Aberdeen — Ioannis Theodossiou og Alexandros Zangelidis. De kombinerer data fra CPDS med data om ulighed fra OECD i et studie af sammenhængen mellem uligheden i et samfund og graden af politisk deltagelse.

    Theodossiou og Zangelidis udgangspunkt er, at uligheden i indkomst i  demokratiske land har været stigende de seneste tre årtier, samtidig med at valgdeltagelsen har været faldende, og de stiller spørgsmålet, om der er en sammenhæng mellem de to udviklinger. Mere præcist stiller de spørgsmålet om der er tale om en selvforstærkende proces, hvor stigende ulighed fører til faldende politisk interesse, med faldende valgdeltagelse som følge, samtidig med at den faldende valgdeltagelse i sig selv fører til større ulighed. Mekanismen bag en sådan selvfortærkende udvikling kan være, at de der sakker bagud i indkomstudviklingen mister troen på, at valgdeltagelse giver dem nogen indflydelse, og derfor undlader at deltage i valgene. Det resulterer i, at de velstillede opnår en større repræsentation i de besluttende organer, som de — ikke overraskende — bruger til at fremme deres egne interesser på bekostning af de mindre velstilledes.

    Anvendelse af denne type data til analyse at en to-vejs sammenhæng rejser en række praktiske og teoretiske problemer. I deres artikel redegør Theodossiou og Zangelidis for problemerne og anvender forskellige metoder for at imødegå dem. Deres samlede konklusion er, at de anvendte data støtter hypotesen om den selvforstærkende mekanisme.

    Referencer:
    Armingeon, Klaus, Virginia Wenger, Fiona Wiedemeier, Christian Isler, Laura Knöpfel, David Weisstanner and Sarah Engler: 2019. Comparative Political Data Set 1960-2017″
    Zurich: Institute of Political Science, University of Zurich.  (link)
    Ioannis Theodossiou og Alexandros Zangelidis: “Inequality and Participative Democrazy — a Self-Reinforcing Mechanism”,  Review of Income and Wealth,  Series 66, Number 1, March 20120 (link)

  • Ulighed i testresultater i grundskolen — Forskelle mellem USA og Danmark

    Der er store forskelle mellem statistiksystemerne i USA og Danmark. De omfattende registerbaserede systemer, der er grundstammen i den officielle danske statistik findes ikke i USA. I stedet har man i USA opbygget en række stikprøvebaserede statsitiksystemer, specialiseret til belysning af forskellige områder, f.eks, indkomst eller uddannelse. De to systemer har hver deres fordele og ulemper. Det amerikanske system gør det muligt at tilpasse dataindsamlingen til statistikkens formål, hvor det danske system er afhængigt af data indsamlet til andre formål, f,eks skattevæsenets data. Til gengæld giver det danske system mulighed for at samkøre de forskellige systemer via cpr-numrene, hvor samkøring af forskellige statistiksystemer i USA er kompliceret og oftest umuligt. Det er også en vigtig forskel, at det danske system er langt det billigste i drift.

    Det er altid forbundet med særlige vanskeligheder at sammenligne statistiske opgørelser fra forskellige lande, selv når landenes statstiksystemer ligner hinanden, men vanskelighederne bliver naturligvis større, når afvigelserne mellem systemerne er så store, som der her er tale om. Men ønsker man at foretage internationale sammenligninger må man forsøge at overvinde vanskelighederne. Det forsøg har to forskere Christopher Jamil de Montgomery fra Københavns Universitet og Hans Henrik Sievertsen fra  VIVE — gjort i forbindelse med en belysning af sammenhængen mellem forældres indkomst og socioøkonomiske baggrund på den ene side og deres børns præstationer i gundskolen på den anden.

    For USA er anvendt et longitudienelt datasæt fra U.S. National Center for Education Statistics (NCES).Early Childhood Longitudinal Study, Kindergarten Class of 1998-99 (ECLS-K) — der følger den årgang, der startede i børnehaveklasse i 1998/99. Datasættet indeholder bl.a testreultater for prøver i matematik og læsning på o. (børnehaveklasse) 1., 3., 5. og 8. klassetrin og oplysninger om husstandsindkomst og forældrenes uddannelsesmæssige baggrund. For Danmark er der taget udgangspunkt i resultaterne fra de nationale tests. For læsning findes testresultater for 2., 4., 6. og 8. klassetrin og for matematik for 3. og 6. klassetrin. Dette datasæt er så udvidet med oplysninger om forældres indkomst og uddannelsemæssige baggrund ved samkøring med Danmarks Statistiks Registre.  

    Der er som det fremgår tale om to ret forskellige datasæt, selvom de belyser de samme fænomener. Blandt de forskelle, som de to forskere må forholde sig til er:

    1. Det amerikanske datasæt er en stikprøve, omend en stor stikprøve, det danske er en totaltælling
    2. Det amerikanske datasæt omfatter alle skoler, både offentlige og private. det danske omfatter kun offentlige skoler
    3. Første måling er ikke sket på de samme klassetrin i de to datatsæt. (trin 0 i USA, trin 2 i Danmark)
    4. Det amerikanske data omfatter personer født omkring 1993. De danske data omfatter peroner født omkring 2000.
    5. De tests, der er er anvendt i de to datasæt, er forskellige

    I artiklen redegøres for betydningen af disse forskelle, og der anvendes metoder, der søger at kompensere for forskellene. Det er klart, at denne fremgangsmåde stiller krav til omhu og forsigtighed ved tolkningen af resultaterne, men trods vanskelighederne mener forfatterne, at de kan påvise klare forskelle mellem USA og Danmark i grundskolesystemets betydning for uligheden. Nogle hovedresultater er vist i tabellen nedenfor.

    Gennemsnitlige testresultater ved prøver i grundskolen, klassetrin 0/2 og klassetrin 8 (percentil score) 

    Forældres indkomst Klassetrin USA Danmark
    Lav indkomst Trin 0/2 43 43
    Trin 8 40 41
    Høj indkomst Trin 0/2 60 57
    Trin 8 62 56
    Forskel Trin 0/2 17 14
    Trin 8 22 15

    Den nederste del af tabellen (blå skrift) viser forskellen i gennemsnitligt testreusltat for børn af forældre med hhv. lav og høj indkomst. I både USA og Dannark klarer børn af velhavende forældre sig bedst, både ved testene på det lave og det høje klassetrin. Forskellene er dog noget mindre i Danmark end i USA. Mest markant er det, at i Danmark er forskellen næsten den samme på de to klassetin, hvor forskellen i USA er markant større på det høje klassetrin. Det amerikanske grundskolesystem ser altså ud til at øge uligheden, hvor det danske er nogenlunde neutralt.

    Referencer
    Christopher Jamil de Montgomery1 og Hans Henrik Sievertsen:
    “The Socio-Economic Gradient in Children’s Test-Scores – A Comparison Between the U.S. and Denmark”, Nationaløkonomisk Tidsskrift 2019:1 (link)

  • Den officielle statistiks rolle i et digitaliseret og globaliseret samfund

    Vilkårene for de officielle statistikmyndigheders arbejde er i hastig forandring, især drevet af digitataliseringen og globaliseringen. Digitaliseringen giver nye muligheder, men rejser også store forventninger hos brugerne, og globaliseringen påvirker både det forventede/krævede indhold af statistikken og sætter nye rammer for produktionen. En tidligere generaldirektør for Eurostat — EU’s statistiske kontor — Walter J. Radermacher har i en interessant artikel gjort sig nogle overvejelser over både karakteren af udfordringerne og de mulige måder at håndtere dem på.

    Forståeligt nok ønsker politikere og andre beslutningstagere at udnytte de store mængder information, der — bl.a. som følge af digitaliseringen  — er til rådighed. Forskellige betegnelser, f.eks, “evidensbaseret beslutningstagning”, “data for politics” og  “governing by the number” har været anvendt om den type bestræbelser. Emnet er meget omfattende og berører mange former for informationssøgning og -behandling. Den officielle statistik er blot et af elementerne, men dog et af de væsentlige.

    Et af de markante træk i udviklingen i offentlig administration i de senere år  har været en privatisering af funktioner, der traditionelt har været anset for en del af det offentlige system. Postvæsen jernbaner og radio og TV er eksempler. Men det er også markant, at privatisering af den officielle statistik ikke har været forsøgt, og der er heller ikke er udsigt til, at det vil ske. Der ser ud til at være en generel erkendelse af, at den traditionelle officielle statistik er en vigtig del af et moderne samfunds infrastruktur. Eller sagt på en anden måde: der er forventninger til at den officielle statistik kan yde et vigtigt bidrag til til den information, beslutningstagerne har brug for. Det centrale spørgsmål er så, hvori forventningerne mere præcist består, og hvordan statistikmyndighederne kan leve op til disse forventninger. Radermacher søger at finde svaret ved at analysere den officielle statistiks fumktion og vilkår, både i et historisk og et nutidigt perspektiv og i lyset af nogle forventninger omkring den fremtidige udvikling.

    En af de vigtigste opgaver statistikmyndighederne skal løse er at sikre opretholdelse (eller måske i nogle tilfælde genoprettelse) af tilliden til den officielle statistik i en tid, hvor tilliden til autoriteter er faldende. En offentlig statistikmyndighed skal levere fakta, og det er i den forbindelse efter Radermachers opfattelse vigtigt at gøre sig klart, at fakta er et resulatat af en proces, dvs. at fakta er noget, der produceres. Råvaren for faktaproduktionen er data. Data kan f.eks. bestå i digitale registreringer, der kan være meget omfattende, men som ikke er direkte anvendelige som grundlag for beslutninger. De skal først omformes til fakta gennem en proces, der kan være både meget ressourcekrævende, herunder meget vidensintensiv. Men det er fakta — ikke data — der efterspørges af beslutningstagerne.

    En konsekvens af at fakta er produceret er at de som alle andre produkter kan være af forskellig kvalitet og normalt ikke kan være fuldkomne. Fakta er med andre ord ikke lig med sandheden. I det hele taget er sandhed ikke efter Radermachers opfattelse et hensigtmæssigt begreb i denne sammenhæng. Det hensigtsmæssige begreb er kvalitet. Fakta af høj kvalitet er ønskelige, og de fremkommer gennem en produktionsproces, der opfylder en række kvalitetskrav. Men de er aldrig perfekte, og det er heller ikke tilstræbt at gøre dem perfekte. Kvaliteten er et resultat af de ressourcer, der er anvendt på at producere dem, og indsatsen af ressurcer sker efter en afvejning af ønsket om høj kvalitet og begrænsning af produktionsomkostningerne. I sidste ende er denne afvejning en politisk beslutning. En af Radermachers bekymringer er, at der opbygges store forventninger til omfanget af de fakta, der kan leveres på grundlag af de enorme datatmængder den digitale udvikling skaber, men at forståelsen af kvalitetskravene og de omkostninger der er forbundet med høj kvalitet, ikke helt kan følge med. At der altså kan opstå forventninger om en både omfattende og billig statistik, som statistikmyndighederne ikke samtidig kan leve op til. Et dilemma, der helt sikkert  kan genkendes af mange andre institutioner.

    Et gennemgående træk i Radermachers overvejelser er en konstatering af at faktaproduktion er en omfattende proces der involverer mange typer af ressourcer og mange fag- og brugergrupper. Det bliver derfor vigtigt på produktionssiden både at forbedre eksisterende modeller for samarbejde mellem faggrupper og at udvikle nye. Men også i beslutningsprocessen er det nødvendigt med øget inddragelse af brugerne for at sikre, at forventningerne både til omfang og kvalitet er realistiske, og at de i videst muligt omfang opfyldes.

    Radermacher har øje for, at statistikmyndighederne er helt bevidste om både de mange krav og de mange muligheder, og også har iværksat initiativer der udnytter og udforsker mulighederne. Men en stor indsats er også nødvendig. Mister brugerne tilliden til kvaliteten af den officielle statistik bliver den irrelevant og vil ikke kunne overleve, samtidig med at de problemer, som den skulle  bidrage til at løse ikke bliver mindre. Samfundet får svært ved at undvære den officielle statistik, så det er et stort ansvar, der hviler på statistikmyndighederne.

    Referencer:
    Walter J. Radermacher : “Governing-by-the-numbers/Statistical governance: Reflections on the future of official statistics in a digital and globalised society”, Statistical Journal of the IAOS 35 , 2019 (link)

  • Retssagerne mod Andreas Georgiou — tidligere græsk statistikschef

    Græsk statistik har ikke noget godt ry. Tilbage i 2010 leverede EU-kommisionen en sønderlemmende kritik af den officielle græske statistik, og krævede en revision af både metoder og organisation. Den græske regering udpegede Andreas Georgiou — en velrennomeret økonom, der på det tidspunkt arbejdede for IMF — til at stå for genopretningen. Den gennemførte han med stor succes, og på forholdsvis kort tid fik han genskabt den internationale tillid til den officielle græske statistik. Det var af stor betydning, da de græske statsfinanser på det tidpunkt var i en kritisk forfatning og landet lå i vanskelige forhandlinger med sine debitorer. Debitorerne krævede etablering af en pålidelig statistik som en af betingelserne for at yde hjælp.

    Men hvor George Georgiou høstede megen international anerkendelse for sin indsats, så var den gæske reaktion noget anderledes. En del af prisen for den ganskabte tillid til statistikken var, at den skulle være pålidelig, og at det ikke måtte være muligt for regeringen at  manipulere den. Det er et grundlæggende krav i både EU’s lovgivning og i FN’s retningslinier omkring officiel statsitik, men grækerne så det som en indskrænkning af de redskaber, de havde til rådighed i internationale forhandlinger. De mente, at de kunne have opnået bedre hjælpeaftaler hvis man — i strid med EU-reglerne — havde pyntet lidt på de officielle statistikker. Georgiou blev derfor opfattet som en forræder, der havde skadet Grækenlands nationale interesser.

    Det førte til, at der blev rejst en række retsager  mod ham. Sagerne har tidligere været behandlet i denne blog (16/10-2018 og 15/8-2017). En række statistiske institutioner har udtrykt støtte til Gerogiou, og i november 2019 har American Statistical Association (ASA) udsendt en ny støtteerklæring, der opfordrer den nye gæske regering til at råde bod på den uretfærdige behandling, Georgiou har været udsat for . Det er dog ikke sandsynligt, at det vil ske. Medlemmer af premierminister Mitsotakis’ parti, Nyt Demokrati, som har en stor del af ansvaret for landets finansielle sammenbrud og manipulationen med statistikken, har været ivrige fortalere for retsforfølgelsen af Georgiou.

    I en af sagene er han idømt to års betinget fængsel for pligtforsømmelse. Forseelsen bestod i, at han havde indberettet data til EU, uden først at have forelagt dem til godkendelse i statistikbureauets ledelse. Gorgious fremgangsmåde var i fuld  overensstemmelse med EU’s regler om chefstatistikerens rolle i forbindelse med sikringen af den officielle statistiks uafhængighed, som også Grækenland er forpligtet til at overholde. I en anden sag, et privat søgsmål om æreskrænkelse, er han dømt til at betale erstatning og at offentliggøre en undskyldning. Sagen er  rejst af Georgious forgænger som statistikchef, der føler sig krænket over Georgious udtalelser om den tidligere statistiske praksis. Sandheden i Geogious udtalelser er ikke anfægtet, men  græsk lov gør det muligt at sagsøge for æreskrænkelse, selvom de krænkende ytringer er i overensstemmelse med sandheden. Denne sag er appeleret og er for tiden under behandling af en appeldomstol. Herudover verserer yderligere to kriminalsager i systemet.

    Referencer:
    American Statisticel Association: “ASA Issues New Statement of Support for Greek Statistician Andreas Georgiou”, (link)
    American Statisticel Association: “
    Eight Years of Government Persecution of Greek Statistician” (link)
    Miranda Xafa: “A Statistician’s Ordeal – The Case of Andreas Georgiou“, World Economics vol 20 No  3 July-Sept  2019 (link)
    Miranda Xafa: A Statistician’s Prosecution For Slander”, World Economics 16 Januar 2020 (link)
    European Commision: “Report on Greek Government Deficit and Debt Statistics”, Brussels 8/1-2010 (link)

  • USA’s folketælling 2020

    En af dette års helt store begivenheder i statistikverdenen er folketællingen i USA. Mange andre lande afholder folketælling i 2020 — og EU-landene holder folketællinger i 2021 — men den amerikanske tælling er noget helt særligt i kraft af sit omfang, sin historie, sin rolle i det politiske spil og den tekniske og statistikfaglige indsats, der ligger bag. Forberedelserne til den amerikanske folketælling har tidigere være behandlet i flere indlæg i denne blog (14/5-2019, 12/6-2018, 19/9-2017 og 23/5-2017)

    Grundlæggende foregår folketællingen på helt traditionel vis, ved at hvert husstandsoverhoved besvarer et spørgeskema om husstandens beboere. Moderne teknologi anvendes naturligvis, hvor det er muligt, men fundamentet er data indsamlet direkte hos borgerne. Det er en meget kostbar dataindsamlingsmetode, som i andre lande er søgt erstattet eller suppleret med anvendelse af data fra allerede eksisterende registre. Ugemagasinet The Economist påpeger da også, at metoden kan forekomme ret utidsvarende, men problemet er, at USA ikke råder over den administrative infrastuktur i form af omfattende administrative registre, der er forudsætningen for alternative og langt billigere metoder.

    Dataindsamlingen er så småt begyndt i afsides liggende områder i Alaska og vil fortsætte sommeren over. Det officielle starttidspunkt var 21. januar. Men den store indsamlingsmåned bliver april. Folketællingsdagen — den 1. april 2020 — vil blive markeret som en mærkedag over hele USA. Det er forholdene på denne dato tællingen tilstræber at beskrive. Alle husholdninger vil på denne dag modtage en opfordring til at deltage. Besvarelsen kan foregå telefonisk, online på internettet eller med gammeldags post. En husholdning forstås i denne sammenhæng som en lille gruppe personer, der deler bolig. Beboere i fælleshusholdninger som fængsler, kollegier og plejehjem kan ikke optælles på denne måde. De vil i stedet blive besøgt af folketællere, der vil indsamle de krævede oplysninger om beboerne. Det samme gælder de almindelige husholdninger, der ikke efterkommer opfordringen til levere data telefonisk, online eller med post. Hjemløse udgør et helt specielt problem, men også de vil blive søgt optalt i dagene omkring 1. april.

    De første resultatater fra folketællingen bliver de opgørelser forfatningen kræver til fordeling af pladserne i kongressen og i det valgmandskollegium, der vælger præsidenten. De vil blive leveret i december 2020. Den 31, marts 2021 vil delstaterne modtage data, der skal danne grundlag for afgrænsningen af valgkredsene. Den egentlige offentliggørelse påbegyndes i maj 2021 og forventes afsluttet i april 2023.

    Referencer:
    Economist: “Out for the Count — Americas census looks out of date in the age of big data”, Economist 20/1-2020 (link)
    United States Census Bureau: Hjemmeside (link)