År: 2020

  • Folketællinger i EU og resten af verden

    Alverden skrives i mandtal i disse år. Det sker ikke på befaling fra Kejser Augustus, men på anbefaling af FN’s Økonomiske og Social Råd (Economic and Social Council of the United Nations, ECOSOC), og selvom en anbefaling fra ECOSOC i det 21. århundrede ikke underbygges af samme magt og autoritet som en befaling fra en romersk kejser omkring år 0, så afholdes der faktisk folketælling i næsten alle verdens lande i disse år.

    ECOSOC anbefaler at folketælling så vidt muligt afholdes i 2020 eller 2021. Kina og Indien, der er verdens suverænt folkerigeste lande, og tilsammen rummer mere end en tredjedel af den samlede verdensbefolkning på 7,8 mia., har fastlagt hhv. 2020 og 2021 som folketællingsår. I Kina er folketællingen i fuld gang, men i Indien vil Covid19-situationen sandsynligvis nødvendiggøre en udsættelse. USA’s folketælling blev gennemført i år* og 2021 bliver EU’s folketællingsår. En lille gruppe lande har afholdt deres folketællinger i perioden  2015-2019, og enkelte har planlagt at afholde dem i 2022 eller senere, men langt de fleste følger anbefalingen om 2020 eller 2021. Kun ganske få lande har hverken gennemført eller planlagt en folketælling.

    I en traditionel folketælling indsamles data ved, at der rettes henvendelse til hver enkelt husstand — personligt eller gennem postvæsenet. Det er en velprøvet metode, og i mange henseender den mest hensigtsmæssige, fordi den giver statistikproducenten fuld kontrol over hele processen. Men metoden er kostbar. En langt billigere fremgangsmåde er at basere opgørelsen på eksisterende administrative registre, f.eks. skattevæsenets og de sociale myndigheders registre, og/eller egentlige folkeregistre, som det danske CPR. Men i de fleste af verdens lande findes sådanne registre ikke, eller de er for ufuldstændige eller upålidelige til  at kunne anvendes som folketællingsgrundlag. Derfor gennemføres folketællingerne i to tredjedele af verdens lande efter den traditionelle metode (Mrkić, s. 37). I den resterende tredjedel anvendes registre enten alene eller i kombination med supplerende dataindsamling, evt i form af stikprøveundersøgelser**.

    Rammerne for EU-landenes folketællinger er fastlagt i en forordning, hvis regler ligger indenfor FN’s retningslinjer. Med hensyn til metoder giver forordningen landene meget vide rammer. Derimod opstilles der ret præcise krav til hvilke data, der skal leveres. Resultaterne fra EU-landenes folketællinger vil blive offentligt tilgængelige gennem EU’s Census Hub (se tidl indlæg), hvor resultaterne fra EU-folketællingen i 2011 allerede findes (link). Landene skal levere data til Census Hub inden 1. april 2024.

    I Danmark har der ikke været afholdt folketællinger siden 1981, og der kommer heller ingen folketælling i 2021. Som EU-medlem er Danmark naturligvis forpligtet til at levere en folketællingsopgørelse til EU, men det kan Danmarks Statistik gøre ud fra den eksisterende statistik. Den løbende registerbaserede statistik indeholder alle de data, der normalt indsamles ved en folketælling, herunder de data EU kræver indberettet, så en egentlig folketælling er overflødig.

    * Den amerikanske folketælling har tidigere være behandlet i flere indlæg i denne blog (20/10-2020, 4/2-202014/5-201912/6-201819/9-2017 og 23/5-2017)

    ** Korte beskrivelser af forskellige typer af folketællinger kan findes i et tidligere indlæg (link)

    Referencer:
    Srdjan Mrkić: The 2020 round of population and housing censuses: An overview, Statistical Journal of the IAOS, vol. 36, no. 1, pp. 35-42, 2020 (link)
    UNSD: Webside – World Population and Housing Census Programme(website), (link)
    Eurostat: “EU legislation on the 2021 population and housing censuses”, 2019 (link)
    EU: “Census Hub”,  (link)

  • Trafikkameraer som grundlag for statistik

    Covid19-krisen har rejst en efterspørgsel efter nye typer af statistik, der kan belyse krisens udvikling og effekten af de politiske tiltag, der sættes i værk for at holde den under kontrol. De nationale statistikmyndigheder — herunder Danmarks Statistik (se tidl. indlæg) — har været hurtige til at søge at imødekomme de nye behov ved at udvikle og offentliggøre nye statistikker, ofte af eksperimentel karakter. Det er navnlig statistik om udviklingen i økonomiske forhold — både nationalt og privat — og i befolkningens sundhed og adfærd, der efterspørges.      

    Et af eksperimenterne går ud på, at anvende trafikovervågningskameraer som grundlag for statistik over den trafikale aktivitet fordelt på fodgængere og forskellige køretøjstyper. Eksperimentet er iværksat af Office for National Statistics (ONS)  — UK’s officielle statistikmyndighed — og udviklingsarbejdet er udført på Data Science Campus  — en forsknings- og uddannelsesenhed under ONS (se tidl. indlæg). Projektet er næmere beskrevet i et dokumentationsnotat fra Data Science Campus

    Udgangspunktet for eksperimentet er, at der i UK findes et meget stort antal trafikovervågningskameraer i drift, som umiddelbart og uden større omkostninger, kan levere et omfattende grundmateriale i form af billeder. Grundlæggende for projektet er anvendelse af programmel, der automatisk kan identificere objekter som biler, busser, cyklister og fodgængere på de mange billeder. En væsentlig del af projektet har derfor været, at sammenligne forskellige systemer til objektidentifikation i bllleder. Valget er faldet på en arkitektur, der går under navnet Faster-RCNN. 

    Der er stor forskel på antallet af kameraer i forskellige geografiske regioner. Derfor er etablering af et system til aggregering af de regionale data til et samlet skøn for UK i første omgang ikke forsøgt, men det nævnes som et muligt fremtidigt projekt. I stedet præsenteres resultaterne for tre regioner — London, Manchester og Nordirland — hver for sig. For hver region vises dagligt antallet af biler, antallet af busser og det samlede antal af fodgængere og cyklister. Antallet af personer i biler og busser kan ikke opgøres med denne metode. Opgørelserne er tænkt som indikatorer for ændringer i aktiviteten over tid, men er ikke egnede til vurdering af det samlede trafikomfang

    Sammenlignet med andre mulige metoder til registrering af trafikstrømme, f,eks.manuel optælling af passerede køretøjer og fodgængere, har kameradata en række fordele. Først og fremmest kan de opgøres med høj frekvens, f.eks. dagligt, og de kan offentliggøres meget hurtigt efter optællingsperiodens afslutning. Dertil kommer, at metoden er billig, bl.a. fordi der er tale om genanvendelse af data indsamlet til andet formål, og at man undgår fortrolighedsproblemer, da kun objekternes type, og ikke deres identitet, registreres.

    Naturligvis er der også en række svagheder ved metoden. Bl.a. er valget af opstillingssteder for kameraerne styret af forskellige myndigheders specifikke behov for trafikdata, så de indsamlede data er ikke repræsentative for den samlede trafik. En anden svaghed er, at variationer i vejr og belysning kan påvirke billedets kvalitet, så præcisionen af optællingen kan variere under dataindsamlingen.

    Generelt er optælling af fodgængere en af de større udfordringer ved denne type opgørelser. I den forbindelse har covid19-restriktionernes afstandskrav været en hjælp, fordi den større afstand har gjort det nemmere at identificere de enkelte fodgængere. Det er derfor ikke sikkert, at metoden uden videre kan anvendes, når engang restriktionerne lettes.

    Dokumentationsnotatet har en række forslag til fremtidige forbedringer af metoden. Ønsket om en aggregeret opgørelse for hel UK er allerede nævnt. Mere generelt ønskes forbedringer af metoden, der kan gøre data mere repræsentative for den samlede trafik. 

    Referencer:
    Alistair Edwardes: “Estimating vehicle and pedestrian activity from town and city traffic cameras”, Data Science Campus (web), September 3, 2020 (link)
    Office for National Statistics: “Coronavirus and the latest indicators for the UK economy and society: 12 November”, (link)

     

  • Syntetiske data

    Originale og fabrikerede datasæt

    Når der i forbindelse med  officiel statistik tales om grunddata, tænkes der normalt på målte og registrerede værdier af en eller flere egenskaber ved et tællingsobjekt. Tællingsobjektet kan f.eks. være en person, og egenskaberne kan være køn og alder. Det er sådanne originale data, der er grundlaget for enhver pålidelig statistik. Den diamentrale modsætning til originale data er fabrikerede data, hvor man — eventuelt ved anvendelse af en tilfældighedsgenerator — danner datasæt, hvor objekterne er fiktive og de værdier der er knyttet til egenskaberne er tilfældige og på ingen måde afspejler virkeligheden. Fabrikerede data kan være nyttige under planlægningen af en statistik. De kan f.eks. gøre det muligt, i et vist omfang at teste programkoder tidligt i udviklingsprocessen, inden dataindsamlingen er sat i værk eller afsluttet.

    Syntetiske datasæt

    Et sted imellem originale og fabrikerede data finder man de syntetiske data. Her er de værdier der tillægges objekterne nok fabrikeret, men det er tilstræbt, at de fabrikerede værdier i en eller anden forstand afspejler virkeligheden. Objekterne i syntetiske data kan selv være syntetiske, men der kan også være tale om originale objekter, der blot tillægges syntetiske værdier for en eller flere egenskaber. Syntetiske data kan ligesom helt fabrikerede data være nyttige i forbindelse med aftestning af programkoder, men kan i nogle tilfælde også anvendes i forbindelse med aftestning af analyse- og målingsmetoder. Den ultimative anvendelse af syntetiske data er til forbedring  (berigelse) af et originalt datasæt.

    ONS — UK’s nationale statistikmyndighed  — har i et arbejdspapir foreslået en klassifikation af syntetiske datasæt ( se oversigten nedenfor), der rangordner dem efter analytisk værdi og risiko for fortrolighedsbrud.. De to rangordninger er identiske — jo større analytisk værdi, jo større risiko for fortrolighedsbrud.

    ONS’s rangordning af syntetiske datasæt

    Type Analytisk værdi Risiko for fortrolighedsbrud Typisk anvendelse
    Ordinære syntetiske datasæt Strukturel Ingen Ingen Grundlæggende testning af programkode
    Validt Ingen Minimal Avanceret testning af programkode
    Udvidede syntetiske datasæt Univariabelt Plausibelt Minimal Betydelig Udvidet testning af programkode
    Multivariabelt plausibelt Nogen Høj Uddannelse og eksperimentel testning af metoder
    Mutivariabelt detaljeret Nogen Meget høj
    Replikeret (beriget) Høj Ekstrem Erstatter originalt datasæt

    Kilde: Office for National Statistics: “Synthetic data pilot”

    Ordinære syntetiske datasæt

    I ordinære syntetiske datasæt er variabelnavne og variabelformater (f.eks. tekst eller heltal) identiske med det originale datasæt. I strukturelle datasæt forekommer forekommer kun værdier af variablene, der også forekommer i det originale datasæt, men uden hensyn til at kombinationen af værdier for den enkelte datapost kan være umulig eller usandsynlig — f.eks gravide mænd eller gifte personer under to år. I valide datasæt er det derimod tilstræbt, at både værdierne og kombinationerne af værdier ar plausible. Endvidere tilstræbes det i valide datasæt at inddrage manglende værdier og fejl, hvis de forekommer i det originale datasæt.Der gøres derimod intet forsøg på at få fordelingerne af de indgående variable til at ligne det originale datasæt. 

    Udvidede syntetiske datasæt

    I udvidede syntetiske datasæt går man skridtet videre, således at datasættet ikke blot i formel struktur ligner det originale datasæt, men også afspejler dele af indholdet. I univariabelt plausible datasæt tilstræber man, at de marginale fordelinger af variablene er som i de originale data. I multivariabelt plausible datasæt tilstræber man yderligere, at også multivariable fordelinger i et vist omfang afspejler det originale datasæt.

    I et replikeret (beriget) datasæt er al information i det originale datasæt bevaret, men yderligere information i form af imputerede data kan være tilføjet. Mangler f.eks. oplysning om en enkelt egenskab for et objekt i det originale datasæt, f.eks. størrelsen af indkomsten for en enkelt husholdning, kan man vælge at erstatte den manglende værdi med værdien fra en anden husholdning, der på de egenskaber, der findes oplysning om f.eks erhverv, adresse, antal børn og alder på husholdningens medlemmer ligner den ufuldstændige husholdning. Ved denne fremgangsmåde, kan syntetiske data øge værdien af det originale datasæt.

    Referencer:
    Office for National Statistics: “Synthetic data pilot”, ONS methodology working paper series number 16,  januar 2019 (link)

  • Nowcasting

    Aktualitet og pålidelighed er to af hovedkravene til den officielle statistik. Uheldigvis er de to krav konkurrerende. Pålidelig statistik tager tid at producere, så brugere af hurtig statistik må acceptere, at aktualiteten kommer på bekostning af pålideligheden. Traditionelt har statistikproducenter søgt at tilgodese begge behov ved at producere to typer statistik:  en konjunkturstatistik, der lægger hovedvægten på aktualitet, og en strukturstatistik, hvor pålidelighed vægtes højt. De to kategorier er dog normalt tæt forbundet, forstået på den måde, at en solid strukturstatistik er det vigtigste grundlag for en anvendelig konjunkturstatistik.

    Men specielt blandt beslutningstagerne i den økonomiske politik er der et stort ønske om  hurtigere data  end konjunkturstatistikken kan levere. Det har ført til bestræbelser på at kombinere konjunkturstatistikkens traditionelle metoder med redskaber, der ellers betragtes som for usikre til at kunne indgå i en statistisk opgørelse. Ofte er der tale om redskaber, der er udviklet til udarbejdelse af prognoser (forecasting). Derfor kaldes metoden for nowcasting.     

    I den økonomiske statistik er bruttonationalproduktet (BNP) den mest efterspurgte opgørelse, og det er derfor hurtige opgørelser af denne størrelse, der navnlig har være i fokus.  BNP er en del af nationalregnskabet og Danmarks Statistik leverer sin første version af det kvartalsvise nationalregnskabet 60 dage efter kvartalets udløb, men allerede efter 45 dage offentliggøres den såkaldte BNP-indikator. BNP-indikatoren er et skøn udelukkende for udviklingen i samlet BNP (og beskæftigelse), uden nationalregnskabets detaljerede opgørelser. Indikatoreren er delvis baseret på now-casting metoder.

    Covid-19 krisen har øget interessen for hurtige skøn over den økonomiske udvikling, og Nationalbanken har i den forbindelse påbegyndt offentliggørelse af løbende (ugentlige) skøn over væksten i det løbende kvartal. Uge for uge i det løbende kvartal  — og  i de første uger efter kvartalets udløb — offentliggøres et opdateret skøn for BNP-væksten. Eller rettere to skøn, for banken arbejder med to forskellige modeller. Den ene model — realtidsmodellen — der er baseret på en model fra New York Federal Reserve, benytter et omfattende datasæt til beregning af skønnet. En vigtig egenskab ved denne model er, at den leverer information om, hvor meget de enkelte kilder, f.eks. importstatistikken og ledighedsstatistiken, har bidraget til resultaterne  Den anden model — vendepunktsmodellen — er baseret på et samarbejde med Den Europæiske Centralbank, og benytter et mindre datasæt. En vigtig egenskab ved den model er, at den leverer en sandsynlighedsfordeling for de mulige vækstrater.

    Nationalbanken lægger vægt på, at modellerne er en metode til at illustrere den information om udviklingen, der kan ligge i de valgte nøgletal, men er ikke et udtryk for bankens forventninger til udviklingen. I bankens samlede skøn og vurderinger om den økonomiske udvikling indgår modellerne kun som del af et større informationsgrundlag.

    Referencer:
    Danmarks Nationalbank: “Nye værktøjer til vurdering af økonomien”, Nyt – Danmarks Nationalbank 1/6 2020, nr.6 (link)
    Danmarks Nationalbank: “Nowcastmodeller”, web-side (link)
    Danmarks Statistik: “BNP-indikator 2.kvt 2020″,Nyt fra Danmarks Statistik”, 14. august 2020 – Nr. 307 (link)
    Danmarks Statistik: “Dokumentation af BNP-indikator”, November 2016, (link)

  • USA’s højesteret standser dataindsamlingen til folketællingen

    I USA er indsamlingen af data til folketællingen for 2020 nu afsluttet. Præcis hvornår afslutningen skulle ske har været genstand for en politisk og juridisk strid, der nu er blevet afgjort af højesteret. Efter den helt oprindelige plan skulle dataindsamlingen afsluttes med udgangen af juli, men på grund af covid-19 krisen blev indsamlingsperioden først udvidet til udgangen af oktober, og senere igen afkortet til udgangen af september. Da en række eksperter udtrykte bekymring for, at afkortningen af indberetningsperioden kunne få negative følger for folketællingens kvalitet, indbragte en alliance af lokale myndigheder og borgerretsgrupper sagen for retten, med krav om at udgangen af oktober blev fastholdt som afslutningtidspunkt.

    Alliancen fik i første omgang medhold ved en distriktsdomstol, og dataindsamlingen blev fortsat ind i oktober, men den den 13. oktober besluttede højesteret, at regeringen har ret til at afslutte dataindsamlingen. I praksis betyder det, at dataindsamlingen blev afsluttet den 15. oktober. Trods nederlaget i Højesteret kan klagerne altså glæde sig over, at de gennem distriktsdomstolens kendelse opnåede 15 dages ekstra indsamlingsperiode.

    Når fastlæggelse af afslutningsdatoen for indsamlæingsperioden kunne blive et politisk stridsspørgsmål skyldes det først og fremmest, at folketællingens resultater afgør fordelingen mellem delstaterne af medlemmerne af Repræsentanternes Hus og af det valgmandskollegium, der vælger præsidenten. Der er en forventning om, at der er en overvægt af økonomisk og socialt dårligt stillede husstande blandt de senest indkomne besvarelser, og da sådanne husstande i højere grad antages at støtte Demokraterne, kan en republikansk præsident og regering alene af den grund have en interesse i så kort en indsamlingsperiode som muligt. Dertil kommer, at folketællingen også anvendes som fordelingsgrundlag for ydelser i forbundets sociale støtteprogrammer. Jo færre fattige, der optælles, jo færre midler til de fattigste områder, og tilsvarende flere til de knap så fattige.

    Der er intet usædvanligt i, at en amerikansk folketælling er genstand for voldsomme politiske og juridiske slagsmål. Forfatningen fastlægger, at tællingen skal afholdes hvert tiende år, men siger meget lidt om det konkrete indhold. Der er derfor rig anledning til politisk uenighed, og med Højesterets rolle som fortolker af forfatningen kommer kampen til at udspille sig både i Kongressen og i Højesteret. Folketællingen for 2020 er dog nok en af de mest omstridte, navnlig fordi Trump-administrationen fra starten har udvist en meget kritisk holdning til officiel statistik i almindelighed og til Folketællingen i særdeleshed (se tidl indlæg, 19/9-2017 og 7/2-1017)

    * Den amerikanske folketælling har tidigere være behandlet i flere indlæg i denne blog (4/2-2020, 14/5-201912/6-201819/9-2017 og 23/5-2017)

    Referencer:
    Mike Schneider: “Supreme Court halts census in latest twist of 2020 count”, AP News 14/10-2020 (link)

  • Generationsstatistik

    De generationer, der er vokset op med internettet — forstået som personer, der er født i 1981 eller senere — udgør fra 2019 flertallet af USA’s befolkning. Det er udgangspunktet for en analyse af den demografiske udvikling i USA, udført af  William H. Frey — seniorforsker ved Brookings Metropolitan Policy Program. Med udgangspunkt i en afgrænsning af generationer, foreslået af PEW Research Center, og data fra Folketællingsbureauet (Census Bureau), beskriver han udviklingen i befolkningens racemæssige og etniske sammensætning. De mest markante træk er, at andelen af hvide er lavere, jo yngre generationen er. Andre analyser viser, at uddannelsesniveauet er højere i de yngre generationer, og at der er betydelige holdningsforskelle mellem generationerne. Der kan derfor forventes ændringer i det politiske billede i USA, efterhånden som de yngre generationer overtager de centrale poster.

    I skemaet nedenfor er PEW’s opdeling i generationer vist. Post-Z generationen ved vi ikke så meget om endnu. Den optræder mest for fuldstændighedens skyld. På et tidspunkt vil den blive afgrænset og muligvis få et andet navn.

    PEW’s opdeling i generationer

    Generation Fødselsårgange Alder 1. januar 2020
    Præ-boomere 1945 og tidligere 74 år og ældre
    Baby-boomere 1946-1964 55-73 år
    Generation-X 1965-1980 39-54 år
    Millennium generation 1981-1996 23-38 år
    Generation-Z 1997-2012 7-22 år
    Post-Z generation 2013 og senere 6 år og yngre

    Kilde: Michael Dimock: “Defining generations: Where Millennials end and Generation Z begins”

    Der er ikke tale om  en autoriseret eller officiel kategorisering, og PEW har udviklet den specielt til brug for amerikanske forhold. Ikke desto mindre vil jeg i det følgende anvende den til en belysning af generationerne i Danmark, idet jeg antager, at de ønskelige tilpasninger er så begrænsede, at umiddelbar anvendelse på danske data giver mening.

    Millennium-generationen er den første, der er der er opvokset med internettet. Den efterfølges af generation-Z, der ikke blot er vokset op med internettet, men for hvem hele den internetbaserede teknologi er en selvfølge. Fra 2019 udgør millennium-generationen og dens efterfølgere, som tidliger nævnt, flertallet af USA’s befolkning. Det er endnu ikke tilfældet for Danmark — den danske befolkning er ældre end den amerikanske — men det vil ske i løbet af få år (se graf nedenfor)

    Andel af befolkningen i Danmark født i 1981 eller senere


    Kilde:
    Danmarks Statistikbank, www.statistikbanken.dk FOLK2

    Forskellene mellem generationernes uddannelsesmæssige status er beskrevet i tabel 1 nedenfor. Som det ses, er tendensen klart at andelen med grundskole som højeste uddannelse er faldende og andelen med lang videregående uddannelse stigende gennem generationerne. Sålænge generationerne ikke er uddøde kan uddannelsesbilledet ændre sig, men for generation-X og tidligere må ændringerne forventes at blive små. En del af millennium-generationen er derimod stadig under uddannelse, så her vil andelen med grundskole falde og andelen med lang videregående uddannelse stige i de kommende år. Det skal også bemærkes, at grundskoleuddannelse i 1972 blev forlænget fra 7 til 9 år. Det betyder, at grundskolen for generation-X og senere repræsenterer en længere uddannelse end for de foregående generationer.

    Tabel 1: Højeste fuldførte uddannelse i generationer, Danmark 2019

    Andel i pct.
    Grundskole Kort og mellemlang uddannelse Lang videregående uddannelse I alt
    Præ-boomere 30 64 6 100
    Baby-boomere 25 67 8 100
    Generation-X 17 68 14 100
    Millennium generation 18 67 16 100

    Kilde: Danmarks Statistikbank www.statistikbanken.dk/FOLK2 og HFUDD11 samt egne beregninger

    Opgørelser af  befolkningen efter etnicitet og race, som de findes i den amerikanske befolkningsstatistik,  findes ikke i den officielle danske statistik. I stedet findes opgørelser efter herkomst, hvor der skelnes mellem personer med dansk oprindelse, indvandrere og efterkommere af indvandrere. Indvandrere og efterkommere er yderligere opdelt på oprindelsesland. I tabel 2 nedenfor er generationernes sammensætning efter oprindelse vist.

    Tabel 2. Befolkningen efter oprindelse, 2020 og 2035 (prognose), Danmark

    Pct.
    Personer med dansk oprindelse
    Indvandrere og efterkommere
    I alt
    Vestlig oprindelse Ikke-vestlig oprindlse
    Befolkningsstatistik 2020
    Præ-boomere 96 3 2 100
    Baby-boomere 92 3 5 100
    Generation-X 85 5 10 100
    Millennium generation 76 10 14 100
    Generation-Z 86 3 10 100
    Prognose 2035
    Præ-boomere 95 3 2 100
    Baby-boomere 92 3 5 100
    Generation-X 86 5 9 100
    Millennium generation 77 9 14 100
    Generation-Z 76 10 14 100

    Kilde: Danmarks Statistikbank, www.statistikbanken.dk/FOLK2 og FRDK120

    Indvandreres og efterkommeres andel er, som det fremgår, størst i de yngste generationer. Der forventes også i de kommende år en betydelig indvandring, og da hovedparten af indvandrere er unge, undervurderer befolkningsstatistikken de yngste generationers fremtidige andel, Derfor er tabellen suppleret med data fra Danmarks Statistiks befolkningsprognose.

    Referencer:
    William H. Frey:  “Now more than half of Americans are millennials or younger”,  Brookings Blog Posts 30/7-2020 (link)
    Michael Dimock: “Defining generations: Where Millennials end and Generation Z begins”. Pew Research Center Facttank, 17/1-2019 (link)

  • Finansloven for 2021

    Finanslovforslaget for 2021 blev fremsat den 31, august og udgivet i statistisk bearbejdet form af Danmarks Statistik den 15. september. Den statistiske opgørelse omfatter ikke blot finansloven (der er statens budget) men også budgetterne for kommuner og regioner. Statistikken viser på flere punkter brud i forhold til den hidtidige udvikling frem mod seneste regnskabsopgørelse fra 2019. Bruddene er naturligvis forårsaget af Covid19-krisen.

    Af tabellen nedenfor fremgår det, at de samlede offentlige udgifter målt i pct. af BNP forventes at stige fra fra 46 pct. i 2019 (regnskab) til  49,1 pct. i 2021. Indtægterne forventes at bevæge sig den modsatte vej — fra 49,8 pct til 46,8 pct. På bundlinien betyder det, at det offentlige går fra et overskud på 3,8 pct. af BNP til et underskud på 2,2 pct.

    Tabel: Offentlige finanser 2018-2021

    mia. kr pct af BNP
    20181 20191 20202 20212 20181 20191 20202 20212
    Forbrug 547 557 577 591 24,3 24,1 25,9 25,1
    Overførsler 425 435 445 465 18,9 18,8 19,9 19,8
    Subsidier 38 38 40 41 1,7 1,6 1,8 1,7
    Andre udgifter 51 36 39 56 2,3 1,5 1,7 2,4
    Udgifter i alt 1061 1065 1101 1153 47,2 46,0 49,4 49,1
    Indkomskat 640 716 671 670 28,5 30,9 30,1 28,5
    Andre skatter 361 363 374 369 16,1 15,7 16,8 15,7
    Andre indtægter 71 75 61 61 3,2 3,2 2,7 2,6
    Indtægter i alt 1072 1153 1106 1100 47,7 49,8 49,6 46,8
    Overskud 11 88 5 -52 0,5 3,8 0,2 -2,2

    Kilder: Danmarks Statistikbank (www.statistikbanken.dk/OFF3, OFF26, OFF3B, OFF26B)
    Noter: 1Regnskab    2Budget

    Som det fremgår af figuren nedenfor bryder budgettet med en tendens til, at forbrug og overførsler har udgjort en faldende andel af BNP i de senste regnskabsår. Det er også udtryk for en ændret tendens, at der efter en række år med overskud nu budgetteres med et underskud. Det er dog Finansministeriets forventning, at disse afvigelser er midlertidige. Det fremgår af en rapport, ministreiet udsendte samtidig med fremsættelsen af finanslovforslaget. I 2025 forventes indtægter og udgifter igen at balancere.

    Figur: Offentlige udgifter i pct af BNP 2010-2021

    Kilder: Danmarks Statistikbank (www.statistikbanken.dk/OFF3, OFF26, OFF3B, OFF26B)

    Referencer:
    Danmarks Statistik: “Statistikbanken, OFF3, OFF26, OFF3B, OFF26B”, (link)
    Finansministeriet:
    DK2025 – en grøn, retfærdig og ansvarlig genopretning af dansk økonomi”, august 2020, (link)

  • Uddannelse og indkomst

    I en artikel i Nyt fra Danmarks Statistik (17/7-2020) er valgt den lidt usædvanlige overskrift og indfaldsvinkel til en belysning af indkomstens afhængighed af uddannelse, at elever, der afslutter folkeskolens 9. klasse med lave karakterer, får et økonomisk forspring i forhold til elever med højere karakterer. Det økonomiske forspring består i, at eleverne med de lavere karakterer i de første år efter afslutningen af 9. klasse har højere indkomster end eleverne med højere karakterer. Det skyldes naturligvis, at eleverne med de lavere karakterer oftere går direke fra folkeskolen til erhvervsmæssig beskæftigelse — og dermed opnår en almindelig erhvervsindkomst — hvor eleverne med de højere karakterer oftere påbegynder en form for videreuddannelse, hvor indkomsten, der typisk vil komme fra uddannelsestøtte og deltidsbeskæftigelse, er lavere.

    Den lavere indkomst for de, der påbegynder yderligere uddannelse, gælder kun så længe uddannelsen varer. Efter endt uddannelse har de uddannede en højre indkomst, men de har naturligvis ved starten af erhvervskarrieren et efterslæb i samlet livsindkomst i forhold til de jævnaldrene, der har været i erhverv.  Men den forskel indhentes igen, og samlet er der en klar positiv sammenhæng mellem livsindkomst og uddannelseslængde. Det belyses i en anden opgørelse fra Danmarks Statitik, baseret på Registret for Akkumulerede Indkomster. I tabellen nedenfor er vist den samlede (akkumulerede) disponible indkomst for perioden 1980-2017 for personer, der har været fuldt skattepligtige i Danmark i alle periodens 38 år.

    Tabel: Akkumuleret disponibel indkomst 2017 efter højeste fuldførte indkomst

    mio. kr. Mænd Kvinder
    Grundskole og gymnasium 7,4 5,6
    Erhvervsfaglig 8,1 6,6
    Kort videregående 9,2 7,6
    Mellemlang videregående 10,2 7,9
    Lang videregående 12,7 10,2

    Kilde: Bo Møller (2019) Figur 2
    Anm. Beløbene er aflæst fra figuren.

    Indkomsterne er før akkumuleringen omregnet til prisniveauet i 2017, men der er ikke indregnet en kompensation for den udskydelse af indkomst, som uddannelse medfører. I nogle opgørelser af livsindkomst vælger man at lade udskudt indkomst indgå med lavere vægt (diskontering). En sådan fremgangsmåde vil betyde, at forskellene mellem de akkumulerede indkomster for de forskellige uddannelsesgrupper bliver mindre. Omvendt kan der argumenteres for, at der er en gevinst ved at udskyde indkomsten, hvis reallønnen er stigende over tid. Danmarks Statistiks metode afspejler implicit en forudsætning om, at de to modsatrettede effekter opvejer hinanden.

    Referencer:
    Danmarks Statistik: “Elever med lave karakterer får økonomisk forspring”, Nyt fra Danmaks Statistik, 17. juli 2020, nr. 280 (link)
    Bo Møller: “Hvor meget tjener man i løbet af livet?”, DST Analyse 2019:20, 20/11-2019 (link

  • Birgitte Anker bliver den ny rigsstatistiker

    Den 1. oktober tiltræder Birgitte Anker som Danmarks nye Rigsstatistiker — den femte i rækken. Rigstatistikeren er daglig leder af Danmarks officielle statistikmyndighed — Danmarks Statistik — og er samtidig formand for Danmarks Statistiks bestyrelse, der fastlægger institutionens arbejdsprogram. Embedet blev etableret ved en lov i 1966, hvor Danmarks Statistik oprettes som afløser for det tidligere Statistisk Departement. Loven fra 1966 gav Danmarks Statistik vidtgående beføjelser til indsamling af data, både fra virksomheder og fra andre myndigheder, og tillagde rigsstatistikeren en central rolle. Embedet blev yderligere styrket ved en ny statistiklov i 2018 (tidl. indlæg), hvor navnlig Danmarks Statistiks rolle som uafhængig institution og som den overordnet ansvarlige for den officielle danske statistikproduktion udtrykkeligt fastslås. Birgitte Anker får derfor en central og inflydelsesrig position i den fremtidige udvikling af  dansk statistik.

    Loven om Danmarks Statistik fra 1966 kan ses som den danske indgang til tredie fase i det skema for den officielle statistiks udvikling som Walter J. Radermacher — en tidligere chef for Eurostat — har opstillet (se oversigten nedenfor). Tredie fase er navnlig karakteriseret ved, at computere og automatisering for alvor begynder at vinde indpas i samfundet. Det betød, at den officielle statistik måtte tilpasse sin produktion til de nye teknologier, navnlig omkring indhold og metoder i forbindelse med dataindsamlingen. I forhold til Radermachers kronologi er loven lidt forud for sin tid, men der kan heller ikke være tvivl om her var tale om en meget fremsynet lov. Bag loven stod bl.a. Viggo Kampmann og som den første rigsstatistiker udpegedes N. V. Skak-Nielsen. Både Kampmann og Skak-Nielsen havde et klart blik for, hvad de nye tekniske muligheder kunne betyde for statistikken, og de var villige til at bruge dem. Resultatet blev en lov, der bl.a. gav Danmarks Statistik ret til at anvende andre myndigheders adminstrative registre i statistikproduktionen, og en administration af loven, der i høj grad udnyttede disse muligheder.

    Oversigt: Fire faser i den officielle statistiks historiske udvikling

    Første fase 1800-1899 Den industrielle evolution
    Fremspirende nationalstater
    Etablering af nationale statistikinstitutter
    Anden fase 1900-1969 Udvikling af statistisk teori
    Udvikling af stikprøvemetoder
    Nationalregnskaber
    Tredie fase 1970-2009 Computere (mainframe)
    PC’ere
    Registerbaseret statistilk
    Udvikling af EU’s statistiske system
    Fjerde fase 2010- Organiske data (Big data)
    Globalisering
    Evidensbaseret beslutningstagning

    Kilde: Radermacher(2019) s. 2-3

    Opbygningen af de registerstatistiske systemer, der i dag er et hovedgrundlag for den danske statistik, var Skak-Nielsens vigtigste indsats. Anvendelsen af admistrative registre er et af de karakteristiske træk i fase tre og er en selvfølgelighed i fase fire,  men i 60’erne og 70’erne blev de nordiske landes bestræbelser på området betragtet med skepsis og mistro mange steder. Registeranvendelse har størst umiddelbar betydning for befolknings- og erhvervstatistikkerne, men Skak-Nielsen interesserede sig i høj grad også for de makroøkonomiske statistikker. Navnlig nationalregnskabet, der ved hans tiltræden havde været lidt forsømt, gennemgik i hans periode en omfattende modernisering og udvidelse.

    Satsningen på registerstatistikken betød bl.a. at de danske statistikker ofte var totaltællinger og ikke baseret på stikprøver, som man i højere grad betjente sig af i andre lande. Danmarks Statistik arbejdede derfor med meget store datasæt, og store mainframecomputere blev som følge deraf et centralt værktøj. Da PC’erne begyndte at vinde udbredelse andre steder, blev de i Danmarks Statistik betragtet som irrelevante og interessen for dem var i begyndelsen ret ringe. I den sidste del af sin periode iværksatte Skak-Nielsen dog nogle forsøg med anvendelse af PC’ere, men det er først under hans efterfølger, Hans Zeuten, der tiltrådte i 1988, at PC-ere for alvor blev taget i brug, dog kun som som supplement til mainframemaskinen. Først i 2003 — flere år efter Zeuthes fratræden i 1995 — var pc-teknologien blevet så udvilket, at man kunne begynde en total afvikling af mainframemaskinen, og fra 2007 foregår hele statistikproduktionen på PC-netværket.

    Den tredie rigsstatistiker — Jan Plovsing — tiltrådte i 1995. Hans periode blev præget af EU’s stigende betydning for statistikken, der bl.a. betød at størstedelen af statistikproduktionen efterhånden blev styret af forpligtende EU-regler. Rigstatistikerens og bestyrelsens direkte inflydelse på statistikproduktionen blev derfor tilsvarende beskåret. Det stigende internationale samarbejde er også en af årsagerne til at ledelses- og  sekretariatsfunktionerne i hans periode blev styrket i forhold til de traditionelt statistikfaglige funktioner.

    Jørgen Elmeskov, der tiltrådte i 2013, blev den fjerde rigsstatistiker. Han repræsenterer på den måde indledningen til fjerde fase. I hans periode har vanskelighederne ved at løse opgaverne ved anvendelse tredie fases metoder og teknologi for alvor vist sig. Det har bl.a givet sig udslag i stigende problemer med at få responenter til at deltage i stikrøveundersøgelser og i at centrale størrelser i nationalregnskabet, herunder BNP, blev vanskeligere at opgøre meningsfuldt og pålideligt. Perioden har dog også i høj grad været præget af Danmarks Statistiks aktive deltagelse i eksperimenter omkring anvendelse af nye metoder, til afhjælpning af problemerne.

    Men som det tegner sig bliver det den netop udnævnte femte rigststistiker, der for alvor skal føre Danmarks Statistik ind i fase 4. Som nævnt er stikprøveundersøgelser og traditionelle opgørelsesmetoder under pres og  de nye krav om f.eks miljøstatistik betyder mere komplekse målinger og nye former for dataindsamlig. Heldigvis er der også opstået en række nye muligheder, bl.a form af omfattende mængder af organiske data (se tidl. indlæg). Men udnyttelse af dem kræver nye metoder  og nye måder at tænke på. Set fra Danmarks Statistiks synspunkt betyder de nye datakilder også, at man mister sit naturlige monopol. Organiske data vil typisk være ejet af andre institutioner og virksomheder, og statistikmyndighederne skal finde måder at samarbejde om udnyttelsen. Alt tyder på, at Birgitte Anker kan se frem til en spændende og betydningsfuld, men også krævende, opgave.

    Referencer:
    Retsinformation : “Bekendtgørelse af lov om Danmarks Statistik”, LBK nr 610 af 30/05/2018 (link)
    Walter J. Radermacher: “Official Statistics 4.0 Facts for People in the 21. Century”, 2019 (link)

     

  • Organiske data (big data) skal anvendes med omtanke

    Som det er fremhævet i adskillige indlæg i denne blog (f.eks. 19/5-2020, 17/9-2019 og 26/4-2016 ) ligger der store muligheder i den officielle statistiks anvendelse af organiske data — ofte omtalt som big data. Covid-19 krisen har øget interessen for organiske data navnlig i forbindelse med sundhedsstatistikken og den økonomiske statistik. Danmarks Statistik har for at imødekomme behovene bl.a.  oprettet en særlig hjemmeside under overskriften Eksperimentel statistik (se indlæg fra 21/4-2020) med en række links til statistikker baseret på organiske data. Tidsskriftet The Economist har på baggrund af denne stigende interesse fundet anledning til at opfordre til forsigtighed og nærmere overvejelser, før man går alt for langt i retning af at lade de organiske data fortrænge de traditionelle i den økonomiske statistik.

    Artiklen i The Economist skelner melem to hovekategorier af de organiske data, der har været i fokus: data der formodes at afspejle økonomien generelt og data, der belyser specifikke områder f.eks. restaurationsbesøg eller antallet af ledige jobs. De generelle data omfatter dels de såkaldte mobilitetsdata fra Google og Apple, og dels data for kreditkorttransaktioner. Mobilitetsdata er baseret på registreringer i forbindelse med brug af mobiltelefoner. Apple baserer sin opgørelse på antallet af anmodninger om vejvisning i Apple Kort, og  Google baserer sin på registrerede besøg i f.eks butikker og parker.

    Den store fordel ved de organiske data er deres aktualitet. Både Apple og Google offentliggør deres mobilitetsdata dagen efter aktiviteten har fundet sted. Så hurtigt kan traditionel statistik slet ikke produceres. Til gengæld har den traditionelle statistik haft ry for at være mere pålidelig, men her spiller det ind, at Covid19-krisen har haft negativ indflydelse på kvaliteten, bl.a. fordi myndighederne midlertidigt har lempet indberetningskravede til virksomhederne.

    Men der er også store kvalitetsproblemer i de organiske data. Mobilitetsdata bruger januar måned som sammenligningsgrundlag, og sammenblander dermed sæsonmønstre i udviklingen med virkningen af Covd19. The Economist påpeger også at mobiliteten, som den måles af Apple og Google, ikke nødvendigvis afspejler økonomisk aktivitet. For kreditkorttransaktionerne sløres billedet af, at frygten for smittespredning kan have påvirket valget mellem kontant- og kortbetaling. Data for specifikke områder vedrører oftest privatforbruget, der ganske vist udgør en meget stor del af den samlede økonomiske aktivitet, men uden data for investeringsaktiviteten, der er langt mere volatil end privatforbruget, bliver billedet af den samlede konjunkturudvikling upålideligt.

    The Economist’s konklusion er, at organiske data har været et nyttigt supplement til den traditionnelle økonomiske statistik under covid19-krisen, og også fremover kan bidrage til forbedring af de ektisterende opgørelser. Men de gode gamle metoder, der i en lang periode har vist deres værdi, står ikke foreløbig overfor total udskiftnking.

    Referencer:
    Economist: “Why real-time economic data need to be treated with caution”, Economist 23/7-2020
    Apple: “Mobilitetstendenser”, (link)
    Google: “Rapporter om lokale bevægelsesmønstre“, (link)