• Uddannelse og indkomst

    I en artikel i Nyt fra Danmarks Statistik (17/7-2020) er valgt den lidt usædvanlige overskrift og indfaldsvinkel til en belysning af indkomstens afhængighed af uddannelse, at elever, der afslutter folkeskolens 9. klasse med lave karakterer, får et økonomisk forspring i forhold til elever med højere karakterer. Det økonomiske forspring består i, at eleverne med de lavere karakterer i de første år efter afslutningen af 9. klasse har højere indkomster end eleverne med højere karakterer. Det skyldes naturligvis, at eleverne med de lavere karakterer oftere går direke fra folkeskolen til erhvervsmæssig beskæftigelse — og dermed opnår en almindelig erhvervsindkomst — hvor eleverne med de højere karakterer oftere påbegynder en form for videreuddannelse, hvor indkomsten, der typisk vil komme fra uddannelsestøtte og deltidsbeskæftigelse, er lavere.

    Den lavere indkomst for de, der påbegynder yderligere uddannelse, gælder kun så længe uddannelsen varer. Efter endt uddannelse har de uddannede en højre indkomst, men de har naturligvis ved starten af erhvervskarrieren et efterslæb i samlet livsindkomst i forhold til de jævnaldrene, der har været i erhverv.  Men den forskel indhentes igen, og samlet er der en klar positiv sammenhæng mellem livsindkomst og uddannelseslængde. Det belyses i en anden opgørelse fra Danmarks Statitik, baseret på Registret for Akkumulerede Indkomster. I tabellen nedenfor er vist den samlede (akkumulerede) disponible indkomst for perioden 1980-2017 for personer, der har været fuldt skattepligtige i Danmark i alle periodens 38 år.

    Tabel: Akkumuleret disponibel indkomst 2017 efter højeste fuldførte indkomst

    mio. kr. Mænd Kvinder
    Grundskole og gymnasium 7,4 5,6
    Erhvervsfaglig 8,1 6,6
    Kort videregående 9,2 7,6
    Mellemlang videregående 10,2 7,9
    Lang videregående 12,7 10,2

    Kilde: Bo Møller (2019) Figur 2
    Anm. Beløbene er aflæst fra figuren.

    Indkomsterne er før akkumuleringen omregnet til prisniveauet i 2017, men der er ikke indregnet en kompensation for den udskydelse af indkomst, som uddannelse medfører. I nogle opgørelser af livsindkomst vælger man at lade udskudt indkomst indgå med lavere vægt (diskontering). En sådan fremgangsmåde vil betyde, at forskellene mellem de akkumulerede indkomster for de forskellige uddannelsesgrupper bliver mindre. Omvendt kan der argumenteres for, at der er en gevinst ved at udskyde indkomsten, hvis reallønnen er stigende over tid. Danmarks Statistiks metode afspejler implicit en forudsætning om, at de to modsatrettede effekter opvejer hinanden.

    Referencer:
    Danmarks Statistik: “Elever med lave karakterer får økonomisk forspring”, Nyt fra Danmaks Statistik, 17. juli 2020, nr. 280 (link)
    Bo Møller: “Hvor meget tjener man i løbet af livet?”, DST Analyse 2019:20, 20/11-2019 (link

  • Birgitte Anker bliver den ny rigsstatistiker

    Den 1. oktober tiltræder Birgitte Anker som Danmarks nye Rigsstatistiker — den femte i rækken. Rigstatistikeren er daglig leder af Danmarks officielle statistikmyndighed — Danmarks Statistik — og er samtidig formand for Danmarks Statistiks bestyrelse, der fastlægger institutionens arbejdsprogram. Embedet blev etableret ved en lov i 1966, hvor Danmarks Statistik oprettes som afløser for det tidligere Statistisk Departement. Loven fra 1966 gav Danmarks Statistik vidtgående beføjelser til indsamling af data, både fra virksomheder og fra andre myndigheder, og tillagde rigsstatistikeren en central rolle. Embedet blev yderligere styrket ved en ny statistiklov i 2018 (tidl. indlæg), hvor navnlig Danmarks Statistiks rolle som uafhængig institution og som den overordnet ansvarlige for den officielle danske statistikproduktion udtrykkeligt fastslås. Birgitte Anker får derfor en central og inflydelsesrig position i den fremtidige udvikling af  dansk statistik.

    Loven om Danmarks Statistik fra 1966 kan ses som den danske indgang til tredie fase i det skema for den officielle statistiks udvikling som Walter J. Radermacher — en tidligere chef for Eurostat — har opstillet (se oversigten nedenfor). Tredie fase er navnlig karakteriseret ved, at computere og automatisering for alvor begynder at vinde indpas i samfundet. Det betød, at den officielle statistik måtte tilpasse sin produktion til de nye teknologier, navnlig omkring indhold og metoder i forbindelse med dataindsamlingen. I forhold til Radermachers kronologi er loven lidt forud for sin tid, men der kan heller ikke være tvivl om her var tale om en meget fremsynet lov. Bag loven stod bl.a. Viggo Kampmann og som den første rigsstatistiker udpegedes N. V. Skak-Nielsen. Både Kampmann og Skak-Nielsen havde et klart blik for, hvad de nye tekniske muligheder kunne betyde for statistikken, og de var villige til at bruge dem. Resultatet blev en lov, der bl.a. gav Danmarks Statistik ret til at anvende andre myndigheders adminstrative registre i statistikproduktionen, og en administration af loven, der i høj grad udnyttede disse muligheder.

    Oversigt: Fire faser i den officielle statistiks historiske udvikling

    Første fase 1800-1899 Den industrielle evolution
    Fremspirende nationalstater
    Etablering af nationale statistikinstitutter
    Anden fase 1900-1969 Udvikling af statistisk teori
    Udvikling af stikprøvemetoder
    Nationalregnskaber
    Tredie fase 1970-2009 Computere (mainframe)
    PC’ere
    Registerbaseret statistilk
    Udvikling af EU’s statistiske system
    Fjerde fase 2010- Organiske data (Big data)
    Globalisering
    Evidensbaseret beslutningstagning

    Kilde: Radermacher(2019) s. 2-3

    Opbygningen af de registerstatistiske systemer, der i dag er et hovedgrundlag for den danske statistik, var Skak-Nielsens vigtigste indsats. Anvendelsen af admistrative registre er et af de karakteristiske træk i fase tre og er en selvfølgelighed i fase fire,  men i 60’erne og 70’erne blev de nordiske landes bestræbelser på området betragtet med skepsis og mistro mange steder. Registeranvendelse har størst umiddelbar betydning for befolknings- og erhvervstatistikkerne, men Skak-Nielsen interesserede sig i høj grad også for de makroøkonomiske statistikker. Navnlig nationalregnskabet, der ved hans tiltræden havde været lidt forsømt, gennemgik i hans periode en omfattende modernisering og udvidelse.

    Satsningen på registerstatistikken betød bl.a. at de danske statistikker ofte var totaltællinger og ikke baseret på stikprøver, som man i højere grad betjente sig af i andre lande. Danmarks Statistik arbejdede derfor med meget store datasæt, og store mainframecomputere blev som følge deraf et centralt værktøj. Da PC’erne begyndte at vinde udbredelse andre steder, blev de i Danmarks Statistik betragtet som irrelevante og interessen for dem var i begyndelsen ret ringe. I den sidste del af sin periode iværksatte Skak-Nielsen dog nogle forsøg med anvendelse af PC’ere, men det er først under hans efterfølger, Hans Zeuten, der tiltrådte i 1988, at PC-ere for alvor blev taget i brug, dog kun som som supplement til mainframemaskinen. Først i 2003 — flere år efter Zeuthes fratræden i 1995 — var pc-teknologien blevet så udvilket, at man kunne begynde en total afvikling af mainframemaskinen, og fra 2007 foregår hele statistikproduktionen på PC-netværket.

    Den tredie rigsstatistiker — Jan Plovsing — tiltrådte i 1995. Hans periode blev præget af EU’s stigende betydning for statistikken, der bl.a. betød at størstedelen af statistikproduktionen efterhånden blev styret af forpligtende EU-regler. Rigstatistikerens og bestyrelsens direkte inflydelse på statistikproduktionen blev derfor tilsvarende beskåret. Det stigende internationale samarbejde er også en af årsagerne til at ledelses- og  sekretariatsfunktionerne i hans periode blev styrket i forhold til de traditionelt statistikfaglige funktioner.

    Jørgen Elmeskov, der tiltrådte i 2013, blev den fjerde rigsstatistiker. Han repræsenterer på den måde indledningen til fjerde fase. I hans periode har vanskelighederne ved at løse opgaverne ved anvendelse tredie fases metoder og teknologi for alvor vist sig. Det har bl.a givet sig udslag i stigende problemer med at få responenter til at deltage i stikrøveundersøgelser og i at centrale størrelser i nationalregnskabet, herunder BNP, blev vanskeligere at opgøre meningsfuldt og pålideligt. Perioden har dog også i høj grad været præget af Danmarks Statistiks aktive deltagelse i eksperimenter omkring anvendelse af nye metoder, til afhjælpning af problemerne.

    Men som det tegner sig bliver det den netop udnævnte femte rigststistiker, der for alvor skal føre Danmarks Statistik ind i fase 4. Som nævnt er stikprøveundersøgelser og traditionelle opgørelsesmetoder under pres og  de nye krav om f.eks miljøstatistik betyder mere komplekse målinger og nye former for dataindsamlig. Heldigvis er der også opstået en række nye muligheder, bl.a form af omfattende mængder af organiske data (se tidl. indlæg). Men udnyttelse af dem kræver nye metoder  og nye måder at tænke på. Set fra Danmarks Statistiks synspunkt betyder de nye datakilder også, at man mister sit naturlige monopol. Organiske data vil typisk være ejet af andre institutioner og virksomheder, og statistikmyndighederne skal finde måder at samarbejde om udnyttelsen. Alt tyder på, at Birgitte Anker kan se frem til en spændende og betydningsfuld, men også krævende, opgave.

    Referencer:
    Retsinformation : “Bekendtgørelse af lov om Danmarks Statistik”, LBK nr 610 af 30/05/2018 (link)
    Walter J. Radermacher: “Official Statistics 4.0 Facts for People in the 21. Century”, 2019 (link)

     

  • Organiske data (big data) skal anvendes med omtanke

    Som det er fremhævet i adskillige indlæg i denne blog (f.eks. 19/5-2020, 17/9-2019 og 26/4-2016 ) ligger der store muligheder i den officielle statistiks anvendelse af organiske data — ofte omtalt som big data. Covid-19 krisen har øget interessen for organiske data navnlig i forbindelse med sundhedsstatistikken og den økonomiske statistik. Danmarks Statistik har for at imødekomme behovene bl.a.  oprettet en særlig hjemmeside under overskriften Eksperimentel statistik (se indlæg fra 21/4-2020) med en række links til statistikker baseret på organiske data. Tidsskriftet The Economist har på baggrund af denne stigende interesse fundet anledning til at opfordre til forsigtighed og nærmere overvejelser, før man går alt for langt i retning af at lade de organiske data fortrænge de traditionelle i den økonomiske statistik.

    Artiklen i The Economist skelner melem to hovekategorier af de organiske data, der har været i fokus: data der formodes at afspejle økonomien generelt og data, der belyser specifikke områder f.eks. restaurationsbesøg eller antallet af ledige jobs. De generelle data omfatter dels de såkaldte mobilitetsdata fra Google og Apple, og dels data for kreditkorttransaktioner. Mobilitetsdata er baseret på registreringer i forbindelse med brug af mobiltelefoner. Apple baserer sin opgørelse på antallet af anmodninger om vejvisning i Apple Kort, og  Google baserer sin på registrerede besøg i f.eks butikker og parker.

    Den store fordel ved de organiske data er deres aktualitet. Både Apple og Google offentliggør deres mobilitetsdata dagen efter aktiviteten har fundet sted. Så hurtigt kan traditionel statistik slet ikke produceres. Til gengæld har den traditionelle statistik haft ry for at være mere pålidelig, men her spiller det ind, at Covid19-krisen har haft negativ indflydelse på kvaliteten, bl.a. fordi myndighederne midlertidigt har lempet indberetningskravede til virksomhederne.

    Men der er også store kvalitetsproblemer i de organiske data. Mobilitetsdata bruger januar måned som sammenligningsgrundlag, og sammenblander dermed sæsonmønstre i udviklingen med virkningen af Covd19. The Economist påpeger også at mobiliteten, som den måles af Apple og Google, ikke nødvendigvis afspejler økonomisk aktivitet. For kreditkorttransaktionerne sløres billedet af, at frygten for smittespredning kan have påvirket valget mellem kontant- og kortbetaling. Data for specifikke områder vedrører oftest privatforbruget, der ganske vist udgør en meget stor del af den samlede økonomiske aktivitet, men uden data for investeringsaktiviteten, der er langt mere volatil end privatforbruget, bliver billedet af den samlede konjunkturudvikling upålideligt.

    The Economist’s konklusion er, at organiske data har været et nyttigt supplement til den traditionnelle økonomiske statistik under covid19-krisen, og også fremover kan bidrage til forbedring af de ektisterende opgørelser. Men de gode gamle metoder, der i en lang periode har vist deres værdi, står ikke foreløbig overfor total udskiftnking.

    Referencer:
    Economist: “Why real-time economic data need to be treated with caution”, Economist 23/7-2020
    Apple: “Mobilitetstendenser”, (link)
    Google: “Rapporter om lokale bevægelsesmønstre“, (link)

  • Danmarks Statistiks portal for officiel statistik

    Fra Danmarks Statistiks portal for officiel statistik får man et samlet overblik over statistik produceret af offentlige myndigheder. Portalen er en udmøntning af § 4 i den lov om Danmarks Statistik, der trådte i kraft i 2018. Loven pålægger Danmarks Statistik dels at offentliggøre en liste over offenligt produceret samfundsbelysende statistik, og dels at vedligeholde en portal, der giver adgang til al officiel offentligt produceret statistik — i det følgende blot betegnet officiel statistik. Officiel statistik er statistik, som er produceret af en offentlig myndighed og som opfylder de kvalitetskrav, som er fastlagt i EU’s statistiklov og kvalitetskodeks. For at en officiel statistik kan optages i portalen kræves det dog også, at den producerende myndighed tilmelder sig  Ordningen for Officiel Statistik, der bl.a betyder, at Danmarks Statistik overvåger overholdelsen af retningslinierne. Retningslinlierne er beskrevet i et særligt dokument, udarbejdet af Danmarks Statistik.

    Som udgangspunkt er det således frivilligt for en offentlig statistikproducent at tilmelde sig ordningen og dermed underkaste sig vilkårene. Denne frivillighed gælder dog ikke statistik, der indsamles til EU’s statistiske program. Myndigheder der inberetter til EU’s statistikprogram er forpligtet til at være tilmeldt ordningen. I forbindelse med indberetningen skelner EU mellem det nationale statistiske institut, som har det overordnede ansvar for statistikindberetningerne, og andre nationale statistiske myndigheder, som indberetter til systemet. Danmarks Statistik er det danske nationale statistikinstitut, men på EU’s liste over indberettere står herudover 14 danske myndigheder.

    Portalen opdeler den officielle statistik i samme tolv emner, som Danmarks Statistik anvender ved præsentation af sin egen statistik. Man søger i emner og underemner på præcis samme måde som i Statistikbanken. Et underemne indeholder enten en liste over nye underemner, som man må vælge iblandt, eller et eller flere link til sider med officiel statistik. Ved hvert link er angivet navnet på den institution, der er ansvarlig for den statistik, der linkes til. Oftest vil den ansvarlige institution være Danmarks Statistik, og linket vil da normalt være til Statistikbanken. Hvor andre institutioner er ansvarlige vil linket føre til en side, hvor statistikken offentliggøres. Det kan være en side, der vedligeholdes af den ansvarlige institution selv, men kan også være til en side, der vedligeholdes af en anden institution, der står for offentliggørelsen af statistikken, f.eks Eurostat.  Er man vant til at bruge Statistikbanken vil man føle sig helt hjemme i portalen. Faktisk er det nærmest fuldstændigt som at søge i Statistikbanken, blot med adgang til flere tabeller.

    Den del af den offentlige statistik, der ikke tilhører kategorien officiel statistik, enten fordi den ikke opfylder kvalitetskravene, eller fordi producenten har valgt ikke at tilmelde den ordningen, er listet på portalens hjemmeside under overskriften Anden offentligt produceret statistik“.  Også denne liste er opdelt efter samme emner som Danmarks Statistik i øvrigt anvender, men uden opdeling på underemner. I stedet er under hver emne angivet navnene på de institutioner, der producerer offentlig statistik vedrørende emnet, og under hver institution en liste med et eller flere link(s) til de statistikker, institutionen stiller til rådighed.

    Referencer:
    Danmarks Statistik: “Portal for Officiel Statistik“, (link)
    Danmarks Statistik: “Retningslinjer for officiel statistik”, august 2019 (link)
    Eurostat: “List of National Statistical Institutes and aother national authorities” (link)
    Retsinformation: “Bekendtgørelse af lov om Danmarks Statistik”, LBK nr 610 af 30/05/2018 (link)

  • Befolkningsprognoser

    En befolkningsprognose er en fremskrivning af befolkningens størrelse og sammensætning på kategorier, f.eks. køn og alder, baseret dels på statistiske opgørelser frem til udgangssituationen (baseline) og dels på en række forudsætninger om fremtidig fødselshyppighed, dødelighed og migration. I tabellen nedenfor er nogle hovedtræk fra Danmarks Statistiks seneste prognose, der udkom 27/5 2020, sammenholdt med Eurostats prognose. Resultaterne fra de to prognoser er meget forskellige. Danmarks Statistik viser en forøgelse af befolkningen frem til 2060 på  ca. 9 pct. — fra 5,8 mio til 6,3 mio. Eurostat forudser en noget mindre stigning på ca. 5 pct. til 6,1 mio. Begge prognoser har stort set samme udgangspunkt, så forskellene i udviklingen må ligge i forskelle i forudsætningerne.

    Tabel 1: Sammneligning af Eurostats og Danmark Statistiks Befolkningsfremskrivning for Danmark frem til 2060 (udvalgte år)

    År Eurostat Danmarks Statistik
    Primo-befolkning Fødsels-overskud Nettoind-vandring Tilvækst Primo-befolkning Fødsels-overskud Nettoind-vandring Tilvækst
    1000 personer
    2020 5.822,8 6,8 4,4 11,2 5.822,8 7,0 15,1 22,2
    2025 5.895,5 5,3 12,3 17,6 5.930,2 10,5 11,9 22,4
    2030 5.975,0 0,5 12,4 12,9 6.043,3 10,3 10,5 20,8
    2035 6.030,3 -4,1 12,7 8,6 6.137,0 6,0 9,8 15,8
    2040 6.067,1 -6,8 12,5 5,7 6.206,8 2,1 9,2 11,3
    2045 6.091,7 -7,8 11,8 4,0 6.256,7 -0,4 9,0 8,6
    2050 6.109,8 -8,2 11,3 3,1 6.298,2 -0,5 9,0 8,4
    2055 6.123,5 -8,8 11,1 2,3 6.343,8 1,7 8,9 10,6
    2060 6.134,3 -8,9 11,1 2,2 6.403,6 5,1 9,0 14,1

    Anm: Tallene for Eurostet er skaleret, således at folketallet i 2020 er identisk i de to opgørelser.
    Kilder: Eurostats  Statistikbank proj_19ndbi og Danmarks Statistikbank FRDK220

    Som det fremgår af tabellen, forudsætter Eurostat et noget mindre fødselsoverskud end Danmarks Statistik. Fra 2035 viser Eurostats tal et mærkbart fødselsunderskud. Til gengæld ser Eurostat en større nettoindvandring, men samlet set altså en langsommere befolkningsudvikling.

    Nettooindvandringen er den mest usikre del af prognoserne, især fordi den afhænger af en række uforudsigelige forhold omkring den politiske og økonomiske udvikling i resten af verden og fremtidige politiske beslutninger i Danmark og EU. Fødselsoverskuddet er i højere grad knyttet til størrelser, der udvikler sig mere stabilt som antal fødsler pr. kvinde i den fødedygtige alder og dødeligheden for forskellige aldersgrupper.

    Tabel 2: Opgørelsen af fødselsoverskuddet i tabel 1

    År
    Eurostat Danmarks Statistik
    Kvinder 15-49 år Ferti-litet1 Føds-ler Døds-fald Fødsels-over-skud Kvinder 15-49 år Ferti-litet1 Føds-ler Døds-fald Fødsels-over-skud
    2020 1262,6 49,4 62,4 55,6 6,8 1266,4 48,4 61,3 54,3 7,0
    2025 1237,4 51,7 64,0 58,7 5,3 1262,1 53,7 67,7 57,2 10,5
    2030 1225,5 51,6 63,3 62,7 0,5 1254,8 57,0 71,5 61,2 10,3
    2035 1234,9 50,3 62,1 66,2 -4,1 1269,1 55,5 70,5 64,5 6,0
    2040 1237,2 49,4 61,2 67,9 -6,8 1278,1 53,4 68,2 66,1 2,1
    2045 1224,4 49,6 60,7 68,5 -7,8 1281,7 51,7 66,3 66,7 -0,4
    2050 1214,6 50,3 61,1 69,3 -8,2 1288,3 52,0 67,0 67,6 -0,5
    2055 1209,7 50,9 61,5 70,3 -8,8 1297,2 54,2 70,3 68,6 1,7
    2060 1200,7 51,2 61,5 70,3 -8,9 1300,9 56,4 73,3 68,2 5,1

    Anm: Se tabel 1
    Note: Antal fødsler pr 1000 kvinder i aldesgruppen 15-49 år
    Kilder: Eurostats  statistikbank proj_19np, proj_19ndbi og Danmarks Statistikbank FRDK120, FRDK220

    Som det fremgår af tabel 2, er der ikke de store forskelle på den samlede dødelighed i de to prognoser. Det er forskellen i fødselstallet, der er årsag til, at Eurostat når frem til et fald i fødselsoverskuddet, og her er årsagen igen at Eurostat forudser en lavere fertilitet.

    Fertiliteten er her opgjort som antal fødsler pr. 1000 kvinder i den fødedygtige alder (15-49 år). Det er et simpelt, men ikke særligt præcist mål, fordi det kun ser på det samlede antal kvinder i aldersgruppen 15-49 år, og ikke tager hensyn til at fertiliteten er meget forskellig i de forskellige aldersgrupper. Et bedre mål ville være den samlede fertilitetskvotient, der tager højde for aldersfordelingen, men de offentliggjorte data for de to prognoser gør ikke en umiddelbar sammenligning af samlet fertilitetskvotient mulig. 

    Referencer:
    Danmarks Statistik: “Befolkningsfremskrivninger 2020-2060”, Nyt fra Danmarks Statistik, 2020 nr 1999 (link)

  • Designede contra organiske data

    Det er oplagt, at en producent af officiel statistik foretrækker at have fuld kontrol over planlægningen, etableringen og gennemførelsen af en statistik. Hvis producenten kan fastlægge definitionen af begreberne, definere populationen, beslutte  udvælgelses- og dataindsamlingsmetode,  og vælge metoder og procedurer for efterbehandlingen af de indsamlede data, har man alle forudsætninger for at opbygge en statistik af høj kvalitet. Data indsamlet og bearbejdet under dataindsamlerens fulde kontrol kaldes designede data.

    De officielle statistikproducenters muligheder for basere en statistik på egne designede data begrænses dels af de ressourcer, der er til rådighed, og dels af respondenternes villighed til at  medvirke. På begge områder er den officielle statistikproduktion undet pres. Anvendelse af  administrative data som grundlag for statistik er en vej ud af disse begrænsninger. Administrative data er indsamlet af en offentlige myndighed, f.eks. skattevæsenet, til brug for egne ikke-statistiske formål, men de kan ofte bearbejdes til statistisk brug. Udgifterne til dataindsamlingen er allerede afholdt, og problemerne med respondenterne eventuelle modvilje er allerede håndteret, så statistikmyndigheden kan koncentrere sig om efterbehandlingen. Bearbejningen af administrative data til statistiske formål er ikke en triviel opgave, men dog væsentlig mindre ressourcekrævende end etableringen af en egentlig statistisk dataindsamling. Der er stadig tale om designede data, men de er designet til et andet formål end statistik, og statistikmyndigheden har ikke kontrol over defintioner og populationsafgrænsning. I praksis har det dog vist sig at fordelene ved administrative data ofte opvejer ulemperne og at det er muligt at anvende dem som grundlag for fremstilling af statistik af høj kvalitet.

    Designede data udgør den absolut dominerende del af den officielle statistiks grundlag, og vil forstsat gøre det, i hvert fald indenfor en overskuelig fremtid. Men en anden type data — organiske data — der ikke er dannet som led i en planlagt og systematisk dataindsamling, er begyndt at dukke op som supplerende kilde. Det vil typisk være data, der opstår i forbindelse med anvendelse af  informationsteknologi, f.eks ved transaktioner, der involverer stregkoder eller ved anvendelse af mobiltelefoner. Disse data er tæt knyttet til de aktiviteter, der frembringer dem, og  populationsafgrænsningen er sjældent i overesstemmelse med statistikkens krav. Til gengæld kan de være fuldstændigt dækkende og meget pålidelige for det (begrænsende) område de omfatter, de kan være meget omfattende og de er af natur i digital form og således umiddelbart tilgængelige for automatisk behandling.

    Betegnelserne designede data  og organiske data er foreslået af Robert Groves — en tidligere direktør for det amerikanske folketællingsbureau — i et blog-indlæg i 2011. Hans udgangspunkt var, at organiske data udgør en stor og hastigt voksende del af verdens samlede datamængde, og at de er forholdsvis let tilgængelige. Det gør det oplagt for folketællingsbureaet og andre officielle statistikproducenter at inddrage dem som kilder. Groves forestillede sig ikke, at organiske data ville fortrænge deignede data som kilde, men han så en kombination af designede og organiske data som fremtidens kilde for officiel statistik. Og foreløbigt tyder meget på, at det er den vej, det går. De officielle statistikproducenter er meget opmærksomme på mulighederne for at anvende organiske data i statistikproduktionen, ofte under overskriften Big Data. Danmarks statistik anvender f.eks. stregkodedata fra detailhandelen som en supplerende kilde ved opgørelsen af forbrugerprisindekset, og har iværksat et eksperiment, hvor positionsdata for skibe anvendes som grundlag for en statistik om aktivitet i havnene. Mulighederne er  store, men der er også behov for at indvinde mere viden og erfaring, før organiske data for alvor kan komme til deres ret som en betydningsfuld del af grundlaget for officiel statistik.

    Referencer:
    Robert Groves:
    “Designed Data and Organic Data”, United States Census Bureu  31/5-2011 (link)
    Ronberto Ribigon: “Big Data and Measurement: From Inflation to Discrimination”, RBI Bulletin, Reserve Bank of India, 11. sept. 2018 (link)

  • Sundhedsstatistik under COVID-19 epidemien

    Som omtalt i det forige indlæg har Danmarks Statistik i forbindelse med COVID-19 krisen etableret en særlig hjemmeside med statistik om udviklingen i både den sundhedsmæssige og den økonomiske situation. Her er tale om statistikker, der hurtigt kan belyse udviklingen — såkaldt konjunkturstatistik. Konjunkturstatistik står i modsætning til strukturstatistik, der lægger mere vægt på grundighed og detaljer, og som det tager længere tid at producere. Når det gælder de økonomiske indikatorer, er der en lang tradition for konjunkturstatistik i den officielle statistik, og der er derfor opbygget en omfattende viden omkring produktionen og tolkningen af den. Anderledes forholder det sig med sundhedsstatistikken, der traditionelt har været set som en strukturstatistik. Kortsigtsindikatorer ligger ikke lige for hånden, så de officielle statistikmyndigheder har måttet være kreative.

    En ideel epidemistatistik skulle dagligt opgøre bl.a. det samlede antal smittede, antallet af nye smittede, antallet af smittede med alvorlige symptomer og antallet af dødsfald forårsaget af epidemien. Sådanne opgørelser optræder da også på Danmarks Statistiks COVID19-hjemmeside, men de har nogle kvalitetsbrist. Antallet af smittede kan kun skaffes gennem målinger og man har kun testet personer, der opfyldte særlige kriterier, f,eks. viste alvolige symptomer på COVID-19. Opgørelserne er således ikke repræsentative for hele befolkningen. Da kriterierne ikke har ligget fast, giver tallene heller ikke et pålideligt billede af udviklingen. Omfanget af alvorlige tilfælde belyses ved antallet of hospitalsindlagte, specielt indlagte på intensivafdelinger og i repirator. Sålænge kriterierne for indlæggelse er uændrede, er det en udmærket indikator. Hvad dødsfald angår er problemet, at de hurtige opgørelser kun registrerer om afdøde var inficeret, men ikke om COVID-19 var dødsårsagen. Den egentlige statistik over dødsårsager er lidt længere undervejs.

    Ved internationale sammenligninger er problemerne endnu større, først og fremmest fordi  opgørelsesmetoderne i landene kan være meget forskellige. Det er tænkeligt, at man på sundhedsområdet kan etablere kortsigtsstatistikker (konjunkturstatistik) af den type, der er nævnt i foregående afsnit, som opfylder de sædvanlige kvalitetskrav for officiel statistik, men det vil tage noget tid, og de vil næppe kunne nå at blive operationelle i forbindelse med den nuværende epidemi. Den gode umiddelbare løsning er at tilpasse offentliggørelsen af  de eksisterende sundhedsstatistikker til de nye behov. Den simpleste og mest oplagte metode er at sammenligne det samlede antal af ugentlige (eller daglige) dødsfald med gennemsnittet for tilsvarende uger/dage i tidligere år. En sådan statistik er ved at komme i gang i mange lande herunder også Danmark, hvor den kan findes på Dannarks Statistiks COVID-19 side og i Statistikbanken

    I figuren nedenfor er vist udviklingen i det samlede antal døde pr uge i pct. af en beregnet normaldødelighed. Normaldødeligheden er beregnet som medianen for døde i pct. af den samlede befolkning (ved begyndelsen af kvartalet) i den tilsvarende uge i årene 2017-2019.

    Ugentlig overdødelighed 2018 uge 1 – 2020 uge 17

    Kilde: Danmarks Statistík, www.statistikbanken.dk/DODC2

    Som det fremgår af figuren er det tydeligt, at der sker en stigning i overdødeligheden omkring uge 11, hvor epidemien ifølge WHO brød ud.

  • Eksperimentel statistik fra producenter af officiel statistik

    COVID-19 situationen har skabt et særligt behov for statistikker med kort produktionstid, der kan belyse centrale forhold omkring krisen, både vedrørende udbredelsen af epedemien og udviklingen i den økonomiske situation. På den baggrund har Danmarks Statistik på sit websted etableret en side,  hvor en række statistikker af denne type præsenteres. Siden har fået overskriften “Eksperimentel statistik og analyse”.

    Producenter af officiel statistik anvender begrebet eksperimentel statistik om opgørelser, der offentliggøres mens en planlagt statistik endnu er i udviklings- eller overvejelsesfasen. De offentliggjorte opgørelser lever ikke nødvendigvis fuldt ud op til de sædvanlige kvalitetskrav for officiel statistik, men kan dog være af interesse for kvalificerede brugere, der er indstillet på, at statistikken endnu ikke har fundet sin endelige form. Der kan f.eks være tale om, at den endnu ikke er fuldt dækkende for den population, den tilstræber at belyse, eller at metoderne ikke er færdigudviklede eller endelig fastlagt. For brugerne betyder det dels, at de på et tidligt tidspunkt kan anvende resultaterne, selvom det må ske med større forsigtighed end for færdige statistikker, og dels at de gennem feed-back kan bidrage til forbedring af det endelige resultat. De britiske statistikmyndigheder kar opstillet en række klare regler for, hvornår en statistik kan kaldes eksperimentel og hvornår den har nået en sådan grad af modenhed, at betegnelsen eksperimentel skal fjernes, men der eksisterer ikke en internationelt anerkendt definition på begrebet.

    En del af de opgørelser, der præsenteres på Danmarks Statistiks nye side, er gengivelser af statistik produceret af ikke-officielle prodcenter, f.eks Statens Serum Institut (indikatorer for smitetudbredelse og dødsfald), Danske Bank (forbrugsindikatorerpå grundlag af data fra MobilePay), Styrelsen for Arbejdsmarked og Rekruttering (indikatorer for arbejdsløshed mv.), Vejdirektoratet (Indeks for vejtrafik) og Storebæltsforbindelsen (personbilstrafik over Storebælt). Disse opgørelser er naturligvis meget nyttige, men de er ikke et led i en overvejet eller planlagt udvikling af den officielle statistik, og er derfor ikke eksperimentelle i den gængse betydning af ordet.

    Men den nyetablerede side indeholder også et par eksempler på egentlig eksperimentel statistik. Først og fremmest vises resultater fra Anløbsaktiviteten i danske havne , der hidtil kun har været offentliggjort i Statistikbanken. Denne statistiks grundlag er skibpositionsdata (AIS-systemet) leveret af Søfartsstyrelsen og er et eksempel på Danmarks Statistiks eksperimenter med anvendelse af big data (se tidl. indlæg). Særlig interessant er en ny statitsik, udarbejdet i samarbejde med Nationalbanken, der dagligt opgør antallet af flyafgange fra Københavns Lufthavn. Kilden er The OpenSky Network — en organisation, der indsamler omfattende data om flytrafik og stiller dem til rådighed i en åben datatbase. Det kan ses som et eksempel på Trusted smart statistics (se tidl . indlæg), hvor en offentlig statistikmyndighed — i dette tilælde Danmarks Statistik — ingen andel har i dataindsamlingen, men gennem sine metoder og redskaber skaber en pålidelig og brugbar statistik.

    Også Eurostat har offentliggjort en række statistikker, som de betegner som eksperimentelle, bl. a. en web-baseret opgørelse af populariteten af steder optaget på UNESCOs Verdensarvliste (se tidl. indlæg), en rapport om multinationale koncerner (se tidl. indlæg) og en longitudinel arbejdsmarkedsstatistik (se tidl. indlæg).

    Referencer:
    Danmarks Statistik: “Eksperimentel statistik og analyse”, (link)
    Danmarks Statistik: “Anløbsaktiviteten i danske havne (eksperimentel statistik)”, Statistikdokumentation (link)
    Eurostat: “Eksperimental statistics” (link)
    European Statistical Systen: “Experimental Statistic” (link)
    Office for Statistcs Regulation: “Experimental statistics – official statistics in development “, August 2019 (link)

  • Demokrati og ulighed – Eksempel på anvendelse af “Comparative Political Data Set”

    Den officielle statistik gør — som alt andet godt — mere nytte, jo flere, der har adgang til at benytte den.  Frit tilgængelige statistikbanker, som de der leveres af f.eks Danmarks Statistik og Eurostat bidrager derfor stærkt til at øge værdien af den officielle statistik. Samme princip gælder naturligvis for ikke-officiel statistik, og særligt værdifuldt bliver det når nogen påtager sig, at samle data fra forskellige kilder i frit tilængelige databanker. Et eksempel herpå er “Comparative Political Data Set” (CPDS), der kombinerer en række oplysninger for en gruppe af demokratiske lande, hentet fra både officiel statistik og fra andre kilder. Bag dette datasæt står en række forskere fra Universitetet i Zürich med professor Dr. Klaus Amingeon i spidsen. Datasættet indeholder dels oplysninger om valg, regeringsdannelse og politiske partier i de udvalgte lande og dels oplysninger om økonomi og befolkningsforhold. Datasættet har bla. været anvendt af to forskere fra universitetet i Aberdeen — Ioannis Theodossiou og Alexandros Zangelidis. De kombinerer data fra CPDS med data om ulighed fra OECD i et studie af sammenhængen mellem uligheden i et samfund og graden af politisk deltagelse.

    Theodossiou og Zangelidis udgangspunkt er, at uligheden i indkomst i  demokratiske land har været stigende de seneste tre årtier, samtidig med at valgdeltagelsen har været faldende, og de stiller spørgsmålet, om der er en sammenhæng mellem de to udviklinger. Mere præcist stiller de spørgsmålet om der er tale om en selvforstærkende proces, hvor stigende ulighed fører til faldende politisk interesse, med faldende valgdeltagelse som følge, samtidig med at den faldende valgdeltagelse i sig selv fører til større ulighed. Mekanismen bag en sådan selvfortærkende udvikling kan være, at de der sakker bagud i indkomstudviklingen mister troen på, at valgdeltagelse giver dem nogen indflydelse, og derfor undlader at deltage i valgene. Det resulterer i, at de velstillede opnår en større repræsentation i de besluttende organer, som de — ikke overraskende — bruger til at fremme deres egne interesser på bekostning af de mindre velstilledes.

    Anvendelse af denne type data til analyse at en to-vejs sammenhæng rejser en række praktiske og teoretiske problemer. I deres artikel redegør Theodossiou og Zangelidis for problemerne og anvender forskellige metoder for at imødegå dem. Deres samlede konklusion er, at de anvendte data støtter hypotesen om den selvforstærkende mekanisme.

    Referencer:
    Armingeon, Klaus, Virginia Wenger, Fiona Wiedemeier, Christian Isler, Laura Knöpfel, David Weisstanner and Sarah Engler: 2019. Comparative Political Data Set 1960-2017″
    Zurich: Institute of Political Science, University of Zurich.  (link)
    Ioannis Theodossiou og Alexandros Zangelidis: “Inequality and Participative Democrazy — a Self-Reinforcing Mechanism”,  Review of Income and Wealth,  Series 66, Number 1, March 20120 (link)

  • Ulighed i testresultater i grundskolen — Forskelle mellem USA og Danmark

    Der er store forskelle mellem statistiksystemerne i USA og Danmark. De omfattende registerbaserede systemer, der er grundstammen i den officielle danske statistik findes ikke i USA. I stedet har man i USA opbygget en række stikprøvebaserede statsitiksystemer, specialiseret til belysning af forskellige områder, f.eks, indkomst eller uddannelse. De to systemer har hver deres fordele og ulemper. Det amerikanske system gør det muligt at tilpasse dataindsamlingen til statistikkens formål, hvor det danske system er afhængigt af data indsamlet til andre formål, f,eks skattevæsenets data. Til gengæld giver det danske system mulighed for at samkøre de forskellige systemer via cpr-numrene, hvor samkøring af forskellige statistiksystemer i USA er kompliceret og oftest umuligt. Det er også en vigtig forskel, at det danske system er langt det billigste i drift.

    Det er altid forbundet med særlige vanskeligheder at sammenligne statistiske opgørelser fra forskellige lande, selv når landenes statstiksystemer ligner hinanden, men vanskelighederne bliver naturligvis større, når afvigelserne mellem systemerne er så store, som der her er tale om. Men ønsker man at foretage internationale sammenligninger må man forsøge at overvinde vanskelighederne. Det forsøg har to forskere Christopher Jamil de Montgomery fra Københavns Universitet og Hans Henrik Sievertsen fra  VIVE — gjort i forbindelse med en belysning af sammenhængen mellem forældres indkomst og socioøkonomiske baggrund på den ene side og deres børns præstationer i gundskolen på den anden.

    For USA er anvendt et longitudienelt datasæt fra U.S. National Center for Education Statistics (NCES).Early Childhood Longitudinal Study, Kindergarten Class of 1998-99 (ECLS-K) — der følger den årgang, der startede i børnehaveklasse i 1998/99. Datasættet indeholder bl.a testreultater for prøver i matematik og læsning på o. (børnehaveklasse) 1., 3., 5. og 8. klassetrin og oplysninger om husstandsindkomst og forældrenes uddannelsesmæssige baggrund. For Danmark er der taget udgangspunkt i resultaterne fra de nationale tests. For læsning findes testresultater for 2., 4., 6. og 8. klassetrin og for matematik for 3. og 6. klassetrin. Dette datasæt er så udvidet med oplysninger om forældres indkomst og uddannelsemæssige baggrund ved samkøring med Danmarks Statistiks Registre.  

    Der er som det fremgår tale om to ret forskellige datasæt, selvom de belyser de samme fænomener. Blandt de forskelle, som de to forskere må forholde sig til er:

    1. Det amerikanske datasæt er en stikprøve, omend en stor stikprøve, det danske er en totaltælling
    2. Det amerikanske datasæt omfatter alle skoler, både offentlige og private. det danske omfatter kun offentlige skoler
    3. Første måling er ikke sket på de samme klassetrin i de to datatsæt. (trin 0 i USA, trin 2 i Danmark)
    4. Det amerikanske data omfatter personer født omkring 1993. De danske data omfatter peroner født omkring 2000.
    5. De tests, der er er anvendt i de to datasæt, er forskellige

    I artiklen redegøres for betydningen af disse forskelle, og der anvendes metoder, der søger at kompensere for forskellene. Det er klart, at denne fremgangsmåde stiller krav til omhu og forsigtighed ved tolkningen af resultaterne, men trods vanskelighederne mener forfatterne, at de kan påvise klare forskelle mellem USA og Danmark i grundskolesystemets betydning for uligheden. Nogle hovedresultater er vist i tabellen nedenfor.

    Gennemsnitlige testresultater ved prøver i grundskolen, klassetrin 0/2 og klassetrin 8 (percentil score) 

    Forældres indkomst Klassetrin USA Danmark
    Lav indkomst Trin 0/2 43 43
    Trin 8 40 41
    Høj indkomst Trin 0/2 60 57
    Trin 8 62 56
    Forskel Trin 0/2 17 14
    Trin 8 22 15

    Den nederste del af tabellen (blå skrift) viser forskellen i gennemsnitligt testreusltat for børn af forældre med hhv. lav og høj indkomst. I både USA og Dannark klarer børn af velhavende forældre sig bedst, både ved testene på det lave og det høje klassetrin. Forskellene er dog noget mindre i Danmark end i USA. Mest markant er det, at i Danmark er forskellen næsten den samme på de to klassetin, hvor forskellen i USA er markant større på det høje klassetrin. Det amerikanske grundskolesystem ser altså ud til at øge uligheden, hvor det danske er nogenlunde neutralt.

    Referencer
    Christopher Jamil de Montgomery1 og Hans Henrik Sievertsen:
    “The Socio-Economic Gradient in Children’s Test-Scores – A Comparison Between the U.S. and Denmark”, Nationaløkonomisk Tidsskrift 2019:1 (link)

Arkiv

Kategorier

År

Få en e-post , når bloggen opdateres
Tilmeldingen kan nårsomhelst tilbagekaldes