År: 2022

  • Klimastatistik

    Klimastatistik er ikke et af Danmarks Statistiks eller andre officielle statistikinstitutters kerneområder, hvis man ved klimaststistik forstår data om fænomener, der direkte beskriver klimaet. Danmarks Statistik har ganske vist på deres hjemmeside en temaside med overskriften klima, men den handler ikke direkte om klimaet, men om udledning af drivhusgasser. Disse udledninger påvirker klimaet, men er ikke klimaet. Den egentlige statistiske belysning af klimaet består i opgørelser af de såkaldte klimatiske dataelementer. Det er lidt forskelligt, hvilke elementer de forskellige producenter af klimastatistik anvender, men Danmarks Meteorologiske Institut (DMI), der står for den danske klimastatistik, leverer i deres klimarapport opgørelser omkring vind (retning og hastighed), lufttryk, lufttemperatur, luftfugtighed, nedbør, solskinstimer og sne (højde og udbredelse).

    Som summarisk mål for udviklingen i klimaet anvendes sædvanligvis temperaturen nær jordoverfladen. Der findes forskellige opgørelser af denne størrelse, men navnlig følgende tre dataserier har vundet stor udbredelse:

    1. HadCRUT4 udarbejdes af UK’s meteorologiske institut — The Met Office
    2. GISTEMP udarbejdes af USA’s nationale myndighed for luftfart og rumforskning — NASA 
    3. NOAA Global Temp udarbejdes af USA’s nationale myndighed for hav- og atmosfæreforskning — NOAA

    I Eurostats statistikbank findes opgørelser fra alle de tre nævnte kilder for temperaturudviklingen for Europa og for Verden. Der er ikke tale om officiel statistik, og ingen af producenterne er hjemmehørende i EU, så man kan ikke uden videre regne med, at de følger EU’s kvalitetskodeks for officiel statistik. Men af Eurostats metadada om de tre serier fremgår det, at data overvåges ved anvendelse af standardiserede metoder for at sikre kvalitet og sammenlignelighed. 

    Selv om der er forskel i opgørelsesmetoderne, så viser alle tre serier i store træk samme udvikling. I figuren nedenfor har jeg valgt at anvende HadCRUT4 fordi det er den serie, der kan føres længst tilbage (til 1850).  Figuren viser stigningen (Celcius) i den gennemsnitlige overfladetemperatur (near surface temperature) i forhold til gennemsnittet for 1850-1899.    

    Figur: Udvikling i overfladetemperatur 1850-2019, HadCRUT4

    Kilde: Eurostats Statistikbank sdg_13_30

    Referencer:
    Eurostat: “Global and European Temperatures”, 22/6-2022, (link 11/12-2022)
    Eurostat: “Mean near surface temperature deviation (source EEA)”, Reference Metadata (link 22/11-2022)

  • Værdien af husholdningernes forbrug af internettjenester

    Den økonomiske statistiks bedst kendte og oftest anvendte begreb — bruttonationalproduktet eller BNP — bliver mere og mere vanskeligt både at opgøre og at fortolke, jvf f.eks Bean rapporten (se tidl.indlæg). BNP er et mål for den samlede værditilvækst, der skabes i produktionen, og reglerne for hvordan denne produktion afgrænses og opgøres er fastlagt i FN’s internationale retningslinjer for nationalregnskaber — System of National Accounts eller SNA. Varer og tjenester, der sælges (og købes) eller som produceres af det offentlige og gratis eller til reduceret pris stilles til rådighed for befolkningen (f.eks politi, uddannelse og gadebelysning) udgør de centrale dele af produktionen. Lidt mere kompliceret er behandlingen af varer og tjenester, som husholdningerne fremstiller internt og selv forbruger. Her opstiller opstiller SNA en række regler for hvad der skal indgå, og hvad der ikke skal. Bl.a. udelades husholdningernes produktion af en række tjenesteydelser til eget brug, f.eks. madlavning, rengøring og børnepasning. Disse udeladelser betyder, at både husholdningernes produktion og forbrug undervurderes. 

    Fremkomsten af gratis digitale tjenester som Facebook og Twitter har sat fokus på endnu en kilde til undervurdering af husholdningernes forbrug. De gratis digitale tjenesters popularitet efterlader ingen tvivl om de spiller en stor rolle for forbrugernes velfærd, men da der ikke sker en direkte betaling, sker der heller ingen registrering i nationalregnskabets opgørelse af forbruget. OECD’s chefstatistiker — Paul Schreyer — har i en artikel søgt at belyse værdien af de gratis digitale tjenester i relation til nationalregnskabet forbrugsopgørelse. Han anvender USA som reference, men hovedresultaterne er uden tvivl anvendelige for ethvert højt digitaliseret samfund.

    Hvis værdien af den underholdning, de digitale tjenester giver husholdningerne, skal indgå i forbruget, sådan som det defineres i nationalregnskabet, skal værdien først indregnes i produktionen. Første spørgsmål er derfor, hvem der står for denne produktion. Schreyers bud er, at det gør husholdningerne selv. Værdiskabelsen ved produktionen (nationalproduktet) sker i nationalregnskabet ved at producenten kombinerer arbejdskraft og kapital i en produktionsproces. I dette tilfælde leveres kapitalen af de digitale tjenester og arbejdskraften af husholdningerne selv i kraft af den tid de bruger på medierne. Da en beregning af værdien af det samlede forbrug af digitale tjenester vil være ret omfattende, vælger Schreyer at koncentrere sig om en enkelt tjeneste, nemlig Facebook. Uheldigvis er stort set ingen af de data der kræves for denne beregning direkte tilgængelige, så den må i høj grad baseres på forenklinger og skøn.

    Med alle forbehold når Schreyer frem til det resultat, at USA’s nationalprodukt (BNP) i perioden 2004-2017 ville være vokset mellem 0,04 og 0,2 procentpoint mere, hvis værdien af husholdningernes forbrug af Facebook-tjenester var inkluderet.. Det lyder måske ikke af meget, men dels er der tale om årlig vækst, der akkumuleres gennem tiden, og dels vedrører beregningen kun Facebook. Inddrages andre tjenester vil effekten naturligvis blive større. Schreyers vigtigste pointe er, at forbruget af digitale tjenester har en væsentlig betydning for husholdningernes velfærd, men at denne værdi ikke afspejles i det nationalregnskabsmæssigt opgjorte forbrug.

    Om reglerne for beregning af nationalregnskabets produktion og forbrug skal ændres, så det kommer til at omfatte et beregnet forbrug af digitale tjenester tager Schreyer ikke direkte stilling til. Tværtimod påpeger han, at der er andre former for ikke-indregnet forbrug, f.eks. rengørings- og børnepasningstjenester, der med lige så stor ret kunne indregnes

    Referencer

    Paul Schreyer: “Accounting for free digital services and household production – an application to Facebook (Meta)”, Eurona juni 2022 s.7-23 (link 26/11-2022)

  • EU-landenes forsørgerbyrde

    En vigtig opgave for ethvert velfungerende samfund er at sikre forsørgelsen af de, der ikke kan forsørge sig selv. Det kaldes samfundets forsørgerbyrde. Der kan være mange grunde til, at en person ikke er i stand til or forsørge sig selv, men i den definition af forsørgerbyrde, der anvendes i den officielle statistik, forenkles begrebet til at omfatte de ældste og de yngste. Det er altså udelukkende alderen, der afgør om en person tilhører gruppen, der skal forsørges eller ej. Den befolkningsgruppe, der skal bære forsørgerbyrden — dvs. som hverken er blandt de ældste eller de yngste — betegnes den erhvervsaktive aldersgruppe. En person, der ikke kan forsørge sig selv på grund af sygdom eller arbejdsløshed, eller som forsørges af en ægtefælle indgår derfor i den erhvervsaktive aldersgruppe, hvis ikke personen tilhører den ældste eller yngste aldersgruppe.

    Hvilke aldersgrænser, der skal gælde, for afgrænsningen, varierer. I det følgende er aldersgrænserne sat til 19 år og yngre for de yngste og 65 år og ældre for de ældste. De yngstes antal i forhold til den erhvervsaktive gruppe betegnes ungebyrden eller ungekvoten og den tilsvarende andel for de ældste betegnes ældrebyrden eller ældrekvoten. Forsørgerbyrden opgøres summen af ungebyrden og ældrebyrden.

    I figuren nedenfor er vist udviklingen i forsørgerbyrden de seneste tyve år (2001-2021) og udviklingen i de kommende tyve år (2021-2041) ifølge EU’s befolkningsprognose for de fem, EU-lande med den højeste og den laveste forsørgerbyrde i 2021. For nogle af de ti lande er forsørgerbyrden faldet de seneste 20 år, og for andre er den steget, men for alle ti gælder, at der kan forventes en stigning — og for de fleste en betydelig stigning — de kommende tyve år.

    Figur: Udvikling i forsørgerbyrde for 10 udvalgte EU-lande 2001-2041

    Kilde: Eurostats statistikbank demo_pjangroup, proj_19np

    Som det fremgår af tabellen nedenfor, så har alle landene — undtagen Luxembourg — oplevet en forøgelse af ældrebyrden de senest tyve år. Til gengæld har ungebyrden været faldende, og det har virket begrænsende på den samlede forsørgerbyrde. Men den lave ungebyrde afspejler jo, at der er færre, der i de kommende år vil indtræde i de erhvervsaktive aldersgrupper til erstatning for de ældre, der går fra. Resultatet er, at der kan forventes en betydelig stigning i ældrebyrden i de kommende år, og da ungebyrden for de fleste landes vedkommende næsten ikke ændres, vil det føre til en stigning i den samlede forsørgerbyrde.

    Tabel Udvikling i forsørgerbyrde for 10 udvalgte EU-lande 2001-2041

     
    Stigning 2001-2021 Forventet Stigning           2021-2041
    I alt
    Heraf
    I alt
    Heraf
    Ældre- byrde Unge- byrde Ældre- byrde Unge- byrde
    Luxembourg -7 0 -8 13 15 -2
    Malta -8 10 -18 5 7 -2
    Slovakiet -4 9 -13 15 16 -2
    Cypern -12 7 -19 9 9 0
    Østrig 0 6 -7 18 17 1
    Grækenland 9 10 -1 17 20 -3
    Danmark 9 11 -1 14 13 1
    Sverige 5 6 -1 3 6 -3
    Finland 11 15 -4 2 8 -7
    Frankrig 8 10 -2 12 14 -2

    Kilde: Eurostats statistikbank demo_pjangroup, proj_19np

  • Kvalitetsgennemgang af den danske officielle statistik

    Eurostat gennemfører i disse år en gennemgang af kvaliteten af den officielle statistik i EU’s og EFTA’s medlemslande, de såkaldte peer-reviews (se tidl. indlæg). Resultatet af disse peer-reviews offentliggøres i landerapporter, og rapporten for Danmark er netop udkommet. Kvalitetsgennemgangen er først og fremmest rettet mod landenes nationale statistikinstitutter, der har hovedansvaret for den officielle statistik — i Danmarks tilfælde Danmarks Statistik —  men et udvalg af andre myndigheder, der bidrager til statistikindberetningen til EU, inddrages også. I Danmark findes 15 sådanne myndigheder, men kun tre af dem er udvalgt i denne gennemgang:  Energistyrelsen, Miljøstyrelsen og Udlændingestyrelsen.

    Rapporten er udarbejdet af en undersøgelsesgruppe bestående af fire eksperter. Gruppen udtrykker generel tilfredshed med kvaliteten af den danske statistikproduktion, og bemærker i den forbindelse, at der er en høj grad af tillid til Danmarks Statistik blandt brugerne af statistikken. Men naturligvis er der stadig ting, der kan gøres bedre, og i rapporten oplister gruppen 22 punkter, hvor ændringer og forbedringer er ønskelige.

    Siden forrige kvalitetsgennemgang i 2015 har Danmark fået en ny statistiklov i 2018 (se tidl. indlæg) Rapporten udtrykker generel tilfredshed med den nye lov og noterer, at den imødekommer mange af forslagene fra den forrige kvalitetsgennemgang i 2015. Undersøgelsesgruppen så dog gerne, at Danmarks Statistiks hjemmel til dataindsamling blev styrket, navnlig i forhold til data ejet af private virksomheder og institutioner. Gruppen mener også, at loven lægger nogle begrænsninger på Rigsstatistikerens autoritet der, skønt de ikke er af afgørende betydning, dog ikke er i overensstemmelse med EU’s retningslinjer for statistikproduktion. Endelig finder gruppen ikke, at databeskyttelsen er tilstrækkelig, og henviser til to konkrete sager, hvor Danmarks Statistik — efter gruppens opfattelse i strid med databeskyttelsesreglerne — er blevet pålagt at levere data indsamlet til statistisk brug til andre offentlige myndigheder, der derefter anvender de leverede data til administrative formål.

    Blandt rapportens øvrige forslag og ønsker kan nævnes: forbedringer i dokumentation af metoder og kvalitet, bedre kvalitetsovervågning, bedre forståelse og bedre forklaringer hvor revisioner er hyppige og forholdsvis store (nationalregnskabet), bedre håndtering af databrud og øget anvendelse af sæsonkorrektion.

    En vigtig forudsætning for vedligeholdelse og navnlig udvikling og forbedring  af statistikken er, at der er tilstrækkelige ressourcer til rådighed. Gruppen frygter, at der her er et problem, navnlig set i lyset af, at statens bevillinger til Danmarks Statistik har været faldende, på trods af, at kravene til statistikproduktionen, bla. fra EU, har været stigende. Gruppen opfordrer derfor regeringen til at sikre, at der er overensstemmelse mellem de lovmæssige krav til statistikken og de ressourcer, der stilles til rådighed.

    Der er indtil nu offentliggjort kvalitetsrapporter for 11 lande. Rapporterne for de resterende lande forventes offentliggjort i løbet af de kommende 14 måneder, således at alle rapporter foreligger ved udgangen af 2023.

    Referencer:
    Eurostat: “Peer Review Report – Demmark”. April 2022 (link 25/10-2022)

  • Danmarks Statistiks portræt af danske landmænd

    Danmarks Statistik har i en analysepublikation givet et statistisk portræt af danske landmænd i 2020. Landbrugsstatistikkens hovedkilde er den årlige landbrugs- og gartneritælling, der leverer en generel beskrivelse af landbrugets struktur med udgangspunkt i bedrifterne, dvs de enkelte gårde. Landbrugs- og gartneritællingerne fotæller meget om bedrifternes beliggenhed, størrelse og produktion, men giver ikke megen information om de personer, der er beskæftiget i bedrifterne. Den information findes til gengæld i Danmarks Statistiks personregistre, så ved at kombinere de to kilder han man kunnet etablere et personorienteret datagrundlag for en analyse af de beskæftigede i landbruget. Normalt udgøres datagrundlaget for landbrugs- og gartneritællingen af en stikprøve, men hvert  tiende år — senest i 2020 — indsamles data for alle bedrifter. Det har derfor været muligt at basere portrættet for 2020 på en totalopgørelse. I portrættet belyses både bedrifter og personer, men jeg vil i dette blogindlæg udelukkende se på persondelen.

    Analysen omfatter udelukkende landmænd over 18 år, der driver landbrug for egen regning og risiko (selveje) og hvor bedriften giver beskæftigelse til mindst en person (fuldtidslandbrug). Landbrug kan også drives i selskabsform, men den type landbrug indgår ikke (landbrug drevet som interessentskaber betragtes dog som selvejede og indgår derfor). I alt var der i 2020 ca. 7.500  selvejere af fuldtidslandbrug. Ti år tidligere, i 2010, var der ca. 12.300.

    Ikke mindre end 94 pct. af landmændene er mænd, men mere end 70 pct, af disse landmænd er gift, og mon ikke mange af ægtefællerne tager aktivt del i driften og også ser sig som landmænd, selvom tradition og lovgivning gør, at kun manden i statistikken registreres som sådan. Det gælder jo i hvert fald nok for en stor del af de 14 procent af landmændenes partnere, der er registreret som medarbejdende ægtefæller, men sikkert også for mange af de øvrige, der kan være registreret som lønmodtagere på familiens bedrift.

    Aldersmæssigt adskiller landmændene sig fra den øvrige arbejdsstyrke ved en højere gennemsnitsalder, og gennemsnitsalderen er stigende. I 1920 var den 53,6 år mode 49,2 år i 2010. Omkring 75 pct. af landmændene har en erhvervfaglig uddannelse. For arbejdsstyrken som helhed gælder det 30 pct. En del af årsagen til den høje andel kan være, at der indtil 2010 krævedes en landbrugsuddannelse for at kunne erhverve landbrugsjord.

    I analysepublikationen kan man finde mange flere detaljer i portrættet, også om andre aspekter som indkomst, pensionsforhold og landmandsbørns erhvervsvalg.

    Referenser:
    Danmarks Statistik: Landbrugs- og gartneritællingen”, Dokumentation (link 24/9-2922)
    Henrik Bolding Pedersen, Line Merling Arendt, Charlotte Filt Slothuus og Fenja Søndergaard Møller: “Portræt af danske landmænd”, DSTAnalyse 2022:9, Danmarks Statistik 6/9-2022 (link 24/9-2022)

  • Fertilitet og kvinders erhvervsfrekvens

    Næsten alle rige lande har oplevet et fald i fertiliteten siden 1980 (med Danmark som en markant undtagelse). Ved fertilitet forstås her det antal børn, som 1000 kvinder forventes at sætte i verden gennem deres fertile periode. I samme tidsrum er erhvervsfrekvensen for kvinder (i det følgende betegnet EKV) øget for de lande, hvor den ikke allerede i 1980 lå på et højt niveau, dvs. Danmark, Sverige og Finland.  Det er naturligvis ikke særligt overraskende, at fertiliteten falder i takt en øget EKV, men fire tyske økonomer — Matthias Doepke , Anne Hannusch , Fabian Kindermann og Michele Tertilt — har i en artikel påpeget, at hvor der i 1980 ikke var nogen særlig markant sammenhæng mellem et lands fertilitet og landets EKV, så er der efter fertilitetsfaldet en tendens til at lande med høj EKV også har en relativ høj fertilitet.

    Doepke m.fl. sammenligner i deres analyse tal fra OECD’s statistikbank for årene 1980 og 2000.  I figuren nedenfor er sammenhængen illustreret med anvendelse af de samme OECD-data, som Doepke m.fl. anvender i deres analyse, men udvidet med data for 1984 og 2020. Data for 1984 er medtaget fordi det gør det muligt at inddrage Danmark og UK i analysen. For disse to lande finde indeholder OECD’s statistikbank ikke data for EKV for 1980, og de indgår derfor ikke hos Doepke m.fl. De blå tendenslinier, der er indlagt i figurerne, er såkaldte median-median linier. Doepke m.fl. anvender i deres analyse tendenslinier beregnet efter mindste kvadraters metode, men det gør ikke den store forskel for resultaterne.

    Figur: Fertilitet og erhvervsfrekevens for kvinder i udvalgte OECD-lande, 1980, 1884, 2000 og 2020

    Kilde: OECD’s statistikbank

    At der kan iagttages en positiv sammenhæng mellem EKV og fertilitet i rige OECD-lande, er ikke et udtryk, at øget EKV fører til øget fertilitet. Fertiliteten er faldet i stort set alle lande i takt med stigningen i EKV, jf. tabellen nedenfor. I tabellen er landene sorteret efter størrelsen af stigningen i EKV fra 1984 til 2020, og det fremgår, at med enkelte undtagelser (Danmark er en af dem) er faldet i fertilitet størst i de lande med størst stigning i EKV. Der er med andre ord grund til at antage, at stigende EKV fører til faldende fertilitetet, men samtidig ser det ud til, at de lande der når den højeste EKV ender med et mindre fald i fertilitet end lande der når et lavere EKV-niveau.

    Tabel: Fertilitet og erhvervsfrekevens for kvinder i udvalgte OECD-lande, 1884 og 2020

      Fertilitet Erhvervsfrekvens Stigning 1984-2020
    Land
    1984 2020 1984 2020 Fertilitet Erhvervs-frekvens
    Antal pct.
    Spain 1,73 1,36 34 81 -21 137
    Nederlandene 1,49 1,55 43 84 4 93
    Australien 1,84 1,58 55 79 -14 43
    Tyskland 1,39 1,53 58 83 10 43
    Portugal 1,90 1,4 61 87 -26 42
    Italien 1,48 1,24 47 66 -16 40
    Japan 1,81 1,33 60 80 -27 33
    Storbritannien 1,77 1,56 67 83 -12 24
    Canada 1,63 1,5 67 82 -8 23
    Frankrig 1,80 1,79 68 83 -1 21
    Norge 1,66 1,48 74 83 -11 12
    USA 1,81 1,64 68 75 -9 10
    Danmark 1,40 1,67 83 83 19 0
    Sverige 1,65 1,66 88 88 1 0
    Finland 1,70 1,37 86 85 -19 -1

    Kilde: OECD’s statistikbank

    Doepke m.fl. har også gjort sig nogle overvejelser om mulige årsager til den observerede positive sammenhæng mellem EKV og fertilitet. En vigtig faktor er den familie- og arbejdsmarkedspolitik, landene fører. F.eks påviser de en positiv sammenhæng mellem et lands udgifter til småbørnspædagogik og EMK. En anden faktor er forskelle i landenes normer og praksis for fædres deltagelse i børnepasning. Også på det punkt kan de observere en positiv sammenhæng mellem mænds andel af husholdningernes samlede tidsanvendelse på husholdnings- og børnepasningaktiviteter og EKV.

    Referencer:
    Matthias Doepke,
    Anne Hannusch, Fabian Kindermann og Michele Tertilt: “A new era in the economics of fertility”, CEPR 11 Jun 2022 (link 13/9-2022)

  • EU’s overvågning af statistikkvalitet, peer review af Eurostat

    Som det tidligere er omtalt i denne blog (8/2-22) foregår i disse år er et omfattende kvalitetscheck af statistikken i EU- og EFTA-landene i form af de såkaldte peer-reviews. Der er på nuværende tidspunkt offentliggjort peer review rapporter for ti lande, og den elvte — om Danmark — kan ventes snart. Peer reviews spiller en vigtig rolle i Eurostats overvågning af de nationale statistikinstitutters overholdelse af at kvalitetskravene, som er fastlagt i Adfærdskodeks for Europæiske Statistikker. Eurostat er også selv omfattet af dette adfærdskodeks, men da Eurostat jo ikke kan overvåge sig selv, har Europaparlamentet og Det Europæiske Råd etableret et særligt organ, European Statistical Governance Advisory Board (ESGAB), der har til opgave at overvåge Eurostats overholdelse af adfærdskodekset. Det er derfor ESGAB, der står for peer review af Eurostat. Resultaterne af ESGAB’s peer review  blev offentliggjort i januar 2022.

    ESGAB lægger i rapporten vægt på, at Eurostat skal fremstå som en rollemodel for de nationale statistikinstitutter og derfor må leve fuldt op til kravene i adfærdskodekset. I den sammenhæng finder ESGAB, at der er et par punkter, hvor der bør strammes op. Et af dem vedrører orientering af visse myndigheder — f.eks. regering og nationalbank – om statistikresultater før den officielle offentliggørelse (pre-releasing). Den praksis er adfærdskodekset meget kritisk overfor, men den forekommer i en vis udtrækning i EU-systemet, og ESGAB opfordrer til at den nuværende praksis gennemgås kritisk. ESGAB mener også, at de formelle regler for afskedigelse af chefen for Eurostat og for rekruttering og afskedigelse af ansatte på højt niveau bør strammes op, selvom der ikke i praksis er konstateret problemer. I sit svar til rapporten erklærer Eurostat sig dog uenig i, at der på disse personalemæssige områder er uoverensstemmelse med afdfærdskodekset.

    ESGAB har naturligvis en række forslag til yderligere forbedringer. F.eks anbefales en udbredelse af adfærdskodeksets gyldighedsområde til også at omfatte EU-statistik produceret af andre end Eurostat, en udvidelse af samarbejdet med Den Europæiske Centralbank (ECB) og udvikling af en samlet strategi for anvendelse af nye digitale data. Men generelt udtrykker ESGAB tilfredshed med Eurostats virke og påskønner navnlig indsatsen i forbindelse med Covid-19 krisen, der på mange måder satte den officielle statistik under pres (jf. indlæg fra 21/9-2021)

    Referencer:
    Eurostat: “Peer Reviews, Current Round 2021-2023”, (link 23/8-2022)
    ESGAB: “Annual Reports”, (link 23/8-20229)

  • Bog af Tim Harford om at skabe mening i statistik

    Alle læsere af denne blog må formodes at være enige i, at statistik er nyttig og nødvendig. De fleste vil nok også være enige i, at det kan kræve en indsats, at få styr på, hvad indholdet af en statistik egentlig er. En erfaren statistikbruger — økonomen Tim Harford — har gjort den proces lidt nemmere ved at skrive en bog med vejledning i, hvordan man skaber mening i en statistisk opgørelse. Bogens titel er The Data Detective  og udkom i februar 2021.

    Bogens indhold er sammenfattet i følgende 10 råd:

    1. Vær bevidst om dine følelser
    2. Overvej din personlige oplevelse
    3. Undgå for tidlig opregning
    4. Træd tilbage og nyd udsigten.
    5. Tjek baggrundshistorien
    6. Spørg hvem der mangler
    7. Kræv gennemsigtighed, når computeren siger nej.
    8. Tag ikke det statistiske fundament for givet
    9. Husk, at misinformation også kan være smuk
    10. Fasthold et åbent sind

    I listen har jeg ved farvemarkering opdelt rådene i tre grupper. Råd der vedrører hvordan man mentalt forholder sig, når en statistik vurderes og analyseres, er markeret med rødt, konkrete råd vedrørende vurdering af statistikkens kvalitet er markeret med blåt, og to råd — det syvende og det ottende —  der mere principielt vedrører datagrundlaget og dets tilvejebringelse er markeret med grønt. Jeg vil i det følgende give en kort uddybning af de to sidstnævnte råd. En kort sammenfatning af alle ti råd kan findes hos  Jessica Stillman, og i  Harford’s bog har hvert af rådene sit eget kapitel, hvor det uddybes grundigt.

    Det ottende råd er en opfordring til at værdsætte de muligheder, den officielle statistik tilbyder. Hvis de officielle statistikproducenter overholder de internationale retningslinjer — og det gør producenterne i næsten alle udviklede lande — får man her en statistik, der er udarbejdet efter professionelle og vederhæftige principper, og som ledsages af en dokumentation, der gør det muligt for brugeren selv at vurdere statistikkens kvalitet (råd nr. 3-6) i forhold til hans konkrete behov. Statistikkvalitet er nemlig ikke et absolut begreb. Kvaliteten af en statistik kan være tilstrækkelig til et formål, men ikke til et andet. Det er brugerens opgave at vurdere, om kvaliteten er tilstrækkelig, men det er producentens opgave at levere den dokumntation, der  gør vurderingen mulig.

    En helt central forudsætning for pålidelig officiel statistik af høj kvalitet er, at de institutioner, der producerer den officielle statistik, er professionelle og uafhængige. Som nævnt er det hovedreglen i udviklede lande, men det må ikke ses en som en selvfølge, og Harford opfordrer kraftigt til at støtte de personer — som han betegner som nørder — der i det daglige står for produktionen af den officielle statistik, især ved at beskytte dem mod pression. Han giver adskillige eksempler på at pression er forekommet. Et af de værste eksempler er den græske regerings behandling af chefstatistikeren Andreas Georgiou (beskrevet i denne blog i indlæg fra 18/2-2020, 16/10-2018 og 15/08-2017)

    Det syvende råd handler navnlig om statistik baseret på anvendelse af organiske data (big data, 11/8-2020 og 19/5-2020). De meget store datamængder, der ofte ligger til grund for sådanne statistikker, kan forlede brugeren til at tro, at resultaterne har en høj grad af sikkerhed. I virkeligheden er de anvendte data ofte så usikre, at de er problematiske at anvende. Hertil kommer, at konklusionerne, som ofte er frembragt af algoritmer, der kun søger mønstre i datamaterialet, men ikke inddrager overvejelser om mulige årsager og virkninger, og slet ikke overvejer i hvilket omfang resultaterne kan generaliseres. Resultatet er, at de sammenhænge algoritmerne finder, kan vise sig ikke at holde, når de forsøges anvendt i praksis. Det hele forværres af, at både data og algoritmer ofte ejes af private virksomheder, der ser deres viden kom vigtige forretningshemmeligheder, og derfor kun i begrænset omfang offentliggør detaljer om data og metoder. Harford mener bestemt ikke, at man skal afstå fra at anvende organiske data, men han opfordrer til, at man kræver indsigt i kilder og metoder, på samme måde som det sker i den officielle statistik.

    Harfords bog er på mange måder et modstykke til en af mest udbredte introduktioner til statistik: Hvordan man lyver med statistik af Dariel Huff. Som det fremgår af titlen, så tager Huff udgangspunkt i en anvendelse af statistikken, der kun kan betegnes som misbrug. Og naturligvis bliver statistiske metoder misbrugt til udbredelse af falsk information, men det er dog lidt skævt og negativt, at bygge en vejledning i anvendelse af et redskab på, hvordan redskabet kan misbruges. Tim Harford er bestemt ikke blind for, at misbrug af statistik forekommer. Misbruget kan være led i en bevidst vildledning, men ofte er der nok tale om misforståelser, og rigtigt anvendt og forstået er statistik et nyttigt og helt uundværligt værktøj.

    Referencer:
    Tim Harford: “The Data Detective – Ten Easy Rules to Make Sense of Statistics”, Riverhead 2021
    Jessica Stillman: “10 Rules to Be Smarter About Statistics”, Inc. (link 1/8-2022)

  • Danmarks Datavindue

    Kort efter sin tiltræden som rigsstatistiker i oktober 2020 præsenterede Birgitte Anker sin ide om Danmarks Datavindue — en samlet national indgang til samfundsdata, fortrinsvis rettet mod forskere og analytikere. Danmarks Statistik gik hurtigt i gang med forberedelserne, støttet af en bevilling fra Carlsbergfondet på 10 mio.kr., og i juni 2022 blev der åbnet for en begrænset brugerkreds. Efter planen skal der åbnes for alle brugere i løbet af efteråret 2022.

    Der er ikke tale om en umiddelbart offentligt tilgængelig datakilde, som det kendes fra Danmarks Statistikbank. Brug af datavinduet kræver at der oprettes et projekt, som skal godkendes af Danmarks Statistik, og brugeren skal have en brugeraftale med en institution, der er autoriseret til adgang til Danmarks Statistiks mikrodata. Herudover skal brugeren certificeres, og certificering kræver dokumenteret kendskab til de gældende datasikkerhedsregler.

    Kernen i Danmarks Datavindue er naturligvis de mikrodata, der i forvejen findes i Danmarks Statistik, men vil også omfatte data fra andre dataejere. Gennem datavinduet får brugerne en samlet overblik over hvilke data, der er til rådighed, og data vil være kvalitetssikrede og dokumenterede.

    Datavinduet er ikke blot en samling mikrodatasæt, men også et automatiseret administrativt system til håndtering af projekterne, under hensyntagen til kravene om fortrolighed og datasikkerhed, og redskaber til behandling og analyse af data. I den forbindelse arbejdes der på, at gøre det muligt at knytte såkaldt high performance faciliteter — dvs. meget store og meget hurtige computere — til projekterne.  

    Referencer:
    Danmarks Statistik: “Danmarks Datavindue” (link 15/6-2022)
    Danmarks Statistik: “Arbejdsplan 2022”, januar 2022 (link 15/6-2022)
    Birgitte Anker:Et fælles vindue til Danmarks data vil give stor værdi for alle”, Danmarks Statistik, Rigsstatistikerens Klumme 17/6-2021 (link15/6-2022)
    Carlsbgfondet: “Bevillingsoversigt: Danmarks Datavindue”, 2021 (link 16/6-2022)

  • Integration af makro- og mikrostatistik om husholdningenes økonomi

    Husholdningernes indkomst og forbrug er to centrale størrelse,når husholdningernes økonomiske velfærd skal vurderes. Begge størrelser opgøres i nationalregnskabet, der er et af den officielle statistiks flagskibe, når det gælder opgørelser af høj kvalitet, herunder en høj grad af sammenlignelighed  både mellem lande og over tid. Til gengæld opgøres kun tal for husholdningerne samlet, og intet om forskelle mellem typer af husholdninger, f,eks fordeling efter husholdningsindkomstens størrelse. Den slags opgørelser findes i andre dele af den officielle statistik, men her er kvaliteten og navnlig den internationale sammenlignelighed ringere. En fælles OECD-Eurostat ekspertgruppe har i en årrække arbejdet med en bedre integration af disse to statistikområder — gerne betegnet makro- og mikrostatistik — og de har nu udsendt en rapport om de foreløbige resultater.

    Projektet har fulgt to forskellige spor. I det ene spor udarbejdede en række af de deltagende lande nationalregnskabsbaserede opgørelser med husholdningsfordelinger på grundlag af nationalt tilgængeligt materiale og efter retningslinjer fastlagt af ekspertgruppen. I det andet spor udarbejdede Eurostat tilsvarende opgørelser på grundlag af eksisterende data indberettet af medlemslandene som led i det løbende statistiksamarbejde. Bindingen til eksisterende materiale indsamlet i andre sammenhænge betyder, at Eurostat centraliserede metode har nogle begrænsninger i forhold til de nationale opgørelser, men til gengæld er en større kreds af lande omfattet.   

    I tabellen nedenfor er vist nogle resultater fra den nationale danske opgørelse. Husholdningerne er i tabellen opdelt på kvintiler af ækvivaleret indkomst. Første kvintil omfatter den femtedel af husholdningerne med de laveste indkomster og femte kvintil den femtedel med de højeste indkomster. At indkomsten er ækvivaleret betyder, at der er korrigeret for forskelle i husstandsstørrelse og -sammensætning.

    Tabel: Husholdningernes samlede indkomster fordelt på kvintiler af ækvivaleret disponibel indkomst. 2015

    mia. kr
    Kvintil  
    1. 2. 3. 4. 5. Total
    Løn og virksomhedsoverskud 75 90 145 254 464 1.028
    Lejeværdi af ejerbolig 7 9 12 19 28 74
    Formueindkomst(netto) -10 -8 -9 -11 121 83
    Sociale overførsler 52 97 95 81 85 410
    Andre løbende overførsler (indtægt) 1 1 2 6 32 42
    Indkomst i alt 125 189 244 349 730 1.636
    Skatter og socialsikkringsbidrag 60 69 95 147 268 639
    Andre løbende overførsler (udgift) 38 2 2 2 2 45
    Disponoibel indkomst 27 118 148 200 460 953

    Kilde Eurostat Experimental Statistics

    Ikke overraskende viser tabellen, at skatter og socialsikringsbidrag er stigende med stigende indkomst. Mere overraskende er det måske, at husholdningerne med de laveste indkomster har de største betalinger af andre løbende overførsler. Posten omfatter bl.a. gaver og lignende mellem husholdninger. En del af forklaringen kan være, at den laveste indkomstgruppe omfatter mange immigranter, der sender penge til familien i hjemlandet, de såkaldte personlige remitter (se tidl indlæg).

    På Eurostats hjemmeside under eksperimentel statistik er resultater fra flere lande, både af de nationale og decentraliserede opgørelser, offentliggjort. Her findes også detaljerede beskrivelser af de anvendte begreber og metoder.

    Referencer:
    Eurostat: “ExperimentalStatistics: Income and Consumption”, (link 24/5-2022)
    Alessandra Coli, Radoslav Istatkov, Hakam Jayyousi, Friderike Oehler, Orestis Tsigkas: “Distributional national account estimates for household income and consumption: methodological issues and experimental results, 2022 edition”, European Union / OECD 2022 (link 24/5-2022)