År: 2021

  • Er inflationen vendt tilbage?

    Efter en periode med ret stabile priser, er inflationen måske vendt tilbage. Priserne er i 2021 begyndt at stige i et hastigere tempo. Det er særligt tydeligt i USA, men kan også ses i EU (se grafen for samlet inflation nedenfor). Økonomer diskuterer nu, om det er et midlertidigt fænomen, forårsaget af de særlige forhold skabt af covid-19-krisen, eller om det er en varig udvikling. Et vigtigt argument fra de økonomer, der ser det som et midlertidigt fænomen, er at den registrerede inflation dækker over store prisstigninger på en lille gruppe produkter, hvorimod priserne på langt de fleste produkter er ret stabile.

    Figur: Inflation i EU, Danmark og USA
    Anm: Der er defitionsforskelle mellem opgørelserne for EU og USA.
    Kilde: Eurostats databank prc_hicp_manr

    Tidsskriftet The Economist har søgt at efterpøve hypotesen om, at den aktuelle inflation i USA er koncentreret på relativt få varegrupper, ved at sammenligne prisstigningernes spredning på varegrupper i 2021 med spredningen i tidligere inflationsperioder (The Economist 2021). En stor spredning kan være udtryk for, at prisstigningerne er koncentreret på få varegrupper. Resultatet er faktisk, at spredningen ser ud til at være større nu end gennemsnittet for tidligere inflationsperioder. Det er navnlig prisstigninger på brugte biler, hotelværelser og flyrejser, der ligger bag den aktuelle inflation i USA.

    I EU, herunder Danmark, er det prisstigninger på energiprodukter — elektricitet, benzin og gas — som har været de stærkeste drivkræfter bag inflationen, men det er ikke usædvanligt, at priserne på energiprodukter varierer mere — både op og ned — end priserne på øvrige produkter. Noget tilsvarende gælder ikke-forarbejdede fødevarer. Som et redskab til at vurdere betydningen af de særlige forhold for prisudviklingen på disse to varegrupper udarbejder EU-landene en særlig inflationsopgørelse — kerneinflationen — hvor de to produktgrupper er udeladt. Som det fremgår af grafen for kerneinflation ovenfor, så er prisudviklingen i EU, og navnlig i Danmark, langt mindre dramatisk, vurderet ud fra kerneinflationen end ud fra den generelle inflation. (Kilden indeholder ikke data om kerneinflation for USA).

    Prisstatistikkerne giver således et vist grundlag for hypotesen om, at den observerede stigning i inflationen har rod i særlige forhold for en begrænset gruppe af produkter, og derfor vil falde tilbage til et lavere niveau igen. Men mange forhold i forbindelse covid-19 krisen kan have påvirket økonomien, så det vil nok ikke være klogt, at drage alt for hurtige konklusioner alene på grundlag af disse simple inflationsopgørelser.

    Referencer:
    The Economist: “The used-car conundrum”, 6/11-2021
    Danmarks Statistik:Største stigning i forbrugerpriserne i over 10 år”, Nyt fra Danmarks Statistik Nr. 398, 10/11-2021 (link)

  • Køn og kønsidentitet i den officielle statistik

    I et tidligere indlæg (5/10-2021) har jeg omtalt de problemer registreringen af køn — og i sammenhæng hermed kønsidentitet —  har skabt i for folketællingerne i UK, dvs England, Skotland, Wales og Nordirland. For langt størstedelen af befolkningen er der overensstemmelse mellem biologisk køn og kønsidentitet, men som eksemplet fra UK viser, så er der i øjeblikket stor opmærksomhed på den befolkningsgruppe, der ikke passer ind i den generelle overensstemmelse, og det er den officielle statistik så småt ved at indrette sig efter.

    Gruppens begrænsede størrelse betyder, at der stilles særlige krav til de metoder, der anvendes ved indsamlingen af data. Folketællinger, som de omtalte i UK, er velegnede, men de er kostbare at gennemføre, og afholdes derfor normalt kun hvert tiende år. Hertil kommer, at flere og flere lande undgår traditionelle folketællinger og erstatter dem helt eller delvist med data fra offentlige registre (i Danmark f.eks. CPR og skatteregistrene). I praksis må informationerne derfor indsamles gennem stikprøveundersøgelser, og her betyder gruppens begrænsede størrelse, at den ofre vil være utilstrækkeligt repræsenteret i en traditionel stikpøve. 

    I tabellen nedenfor er vist en skønnet fordeling af den danske befolkning efter kønsidentitet og seksuel identitet. Skønnene er baseret på resultaterne fra Projekt SEXUS, der er en omfattende undersøgelse af  seksualitet og sundhed gennemført i et samarbejde mellem Statens Serum Institut og Aalborg Universitet. Undersøgelsens grundlag er besvarelser af et web-spørgeskema, udsendt til  ca. 187.000 personer i en tilfældighedsbaseret stikprøve af 15-89 årige. Ca 64.000 personer besvarede spørgeskemaet, svarende til en svarprocent på 35,8. Gennem efterstratifikation har man søgt delvis at kompensere for det betydelige frafald

    Kønsidentitet og seksuel identitet for 15-89-årige i Danmark 2017-2018 (1000 personer)

    Kønsidentitet

    Seksuel identitet
    Hetero-
    seksuel
    Homo-
    sekuel
    Biseksuel Andre1 I alt
    Mænd Cis-person 2.040 33 37 71 2.181
    Transperson 1 0 0 1 2
    Nonbinær 2 1 1 2 6
    Mænd i alt 2.043 34 39 74 2.190
    Kvinder Cis-person 2.001 13 55 141 2.210
    Transperson 1 0 1 1 2
    Nonbinær 6 1 2 4 13
    Kvinder I alt 2.007 14 58 146 2.226
    I alt 4.051 48 97 220 4.415

    Note: 1Omfatter aseksuelle og personer med uafklaret seksuel identitet. Aseksuelle udgør en forsvindende andel (omkring 1/4 procent af befolkningen)
    Kilde: Morten Frisch, Ellen Moseholm, Mikael Andersson, Josefine Bernhard Andresen & Christian Graugaard

    Den officielle befolkningsstatistik er baseret på CPR-registret. Her er udgangspunktet køn tildelt ved fødslen (biologisk køn), men det kan være ændret ved et juridisk kønsskifte. For tabellens Cis-personer og non-binære personer vil der være overensstemmelse mellem kønsidentitet og CPR-køn, men for transpersoner vil der kun være overensstemmelse, hvis der er sket et juridisk kønsskifte. Der findes (endnu?) ikke i den danske officielle statistik rene opgørelser af hverken biologisk køn eller kønsidentitet. 

    Referencer:
    Morten Frisch, Ellen Moseholm, Mikael Andersson, Josefine Bernhard Andresen & Christian Graugaard: “Sex i Danmark — Nøgletal fra Projekt SEXUS 2017-2018”, Statens Serum Institut og Aalborg Universitet, 2019 (Link)
    Matt Jans, Bianca D. M. Wilson, and Jody L. Herman: “Measuring Aspects of Sexuality and Gender: A Sexual Human Rights Challenge for Science and Official Statistics”, CHANCE februar 2018 (Link)

  • Covid-19 rammer verdens lande forskelligt

    I Danmark har vi tilsyneladende fået Covid-19 krisen nogenlunde under kontrol. De fleste restriktioner er afviklet, og livet er på vej tilbage til det normale, selvom tilbageslag stadig ikke kan udelukkes. Prisen i form af økonomiske omkostninger og begrænsninger i dagliglivet har været høj, men på helbredsområdet har det positive resultatet af indsatsen været overbevisende. Der vil sandsynligvis senere vise sig nogle langsigtede helbredsskadelige virkninger af bl.a begrænsningerne i sociale kontakter, men på en så central variabel som den samlede dødelighed, har virkningen været klar — under krisen har dødeligheden ikke været højere end den var før krisen. Det betyder naturligvis ikke, at covid-19 ikke har kostet dødsfald, men at kriseforanstaltningerne har resulteret i et fald i dødelighed i forbindelse med andre sygdomme — f.eks. influenza — der har opvejet covid-19’s virkninger.

    Sådan er situationen i øjeblikket i Danmark og nogle få andre lande. Men pandemien er langtfra slut, og kræver i de fleste lande stadig sin pris i form af overdødelighed. Overdødelighed defineres som forskellen mellem det samlede antal døde i en periode og det antal, man ville forvente under normale forhold. Overdødeligheden under pandemien er ikke et præcist mål for dens effekt — andre faktorer kan spille ind — men det er det eneste, der kan opgøres nogenlunde sammenlignelige tal for. Mere direkte mål for antallet af døde med eller af covid-19 opgøres i mange lande, men metoder og dækningsgrad er så forskellig, at sammenligning ikke er mulig.

    Selvom overdødeligheden i princippet er et anvendeligt mål ved en landesammenligning af pandemiens virkninger, så er det ikke så enkelt at skabe et samlet overblik over situationen i alle verdens lande. I mange lande, og det gælder mange meget befolkningsrige lande som Indien og Kina, råder man ikke over de data, der er nødvendige for beregningen. Tidsskriftet The Economist har søgt at trodse vanskelighederne, og estimeret overdødeligheden i næsten alle verdens lande på grundlag af tilgængelig statistik suppleret med modelberegninger.

    Dette simple mål for overdødelighed har dog begrænset værdi ved landesammenligninger. Det skyldes, at covid-19 er langt mere dødelig for ældre end for yngre. En høj overdødelighed i et land kan således helt eller delvis afspejle en ældre befolkning. The Economist har derfor også beregnet et mål for overdødelighed, der søger at tage højde for disse demografiske forskelle. Der kan dog stadig være andre relevante forskelle mellem landene, som modellen ikke tager højde for.

    The Economist beregner også et mål for usikkerheden på skønnene og lægger ikke skjul på, at der for mange landes vedkommende er tale om en betydelig usikkerhed. På den anden side ligger skønnene for mange lande så langt over de officielle data, at der ikke kan være tvivl om, at det officielle billede undervurderer problemerne. I figuren nedenfor vises overdødeligheden, korrigeret for demografiske forskelle, for regioner. Medianen for hver region er markeret med en rød stjerne og øvre og nedre kvartil er markeret med pile. Ved at fokusere på medianer kan man danne sig et generelt billede af forskellene mellem regionerne, hvor betydningen af usikkerheden i opgørelsen af de enkelte lande er begrænset.

     

    Overdødelighed i regioner

    Kilde: Economist: “The pandemic’s true death toll”

    Det fremgår, at der er betydelige forskelle mellem regionerne. Oceanien, der omfatter Australien, New Zealand og en række små østater, har klaret sig bedst. Værst står det til i Afrika, og Vestlige og Sydlige Asien.

    Referencer
    Economist: “The pandemic’s true death toll”, (link 30/10/2021)
    Economist: “Covid-19-the-economist-global-excess-deaths-model (link 1/10/2021)
    Economist: “How we estimated the true death toll of the pandemic” (link 13/0-2021)

  • Definition af køn i den skotske folketælling

    Opgørelser af befolkningens fordeling på køn og alder er, og har altid været, et vigtigt planlægningsværktøj for staten, bla. i forbindelse med udskrivning af soldater, opkrævning af skatter og tilrettelæggelse af ældreforsorg og skolebyggeri. Det var derfor praktisk, at netop køn og alder kunne betragtes som befolkningsstatistikkens sikre og stabile grundlag. Fødselstidspunkt, der er grundlag for beregning af alder, og køn blev i et velfungerende samfund bestemt ved hver fødsel, og lå derefter fast gennem hele livet. Så sikker har man i Danmark været på stabiliteten af disse to variable, at man ved indførelsen af Det Centrale Personregister (CPR) i 1968 lod alder og køn indgå i personnummeret, selvom det er en datalogisk grundregel, at identifikationsnumre ikke bør indeholde information, der kan ændres.

    Alder har indtil videre fastholdt sin position som en sikker og entydig variabel, men stabiliteten og entydigheden af variablen køn er i de senere år blevet blevet genstand for en voldsom diskussion. Indtil nu har diskussionen kun i begrænset omfang påvirket den officielle statistik, selvom der findes eksempler på tilpasninger af kønsdefinitionen i enkelte specielle officielle statistiske opgørelser, navnlig på sundhedsområdet. Men nu har diskussionen bredt sig til dronningen af al officiel statistik: folketællingen. Et meget markant eksempel er den kommende skotske folketælling for 2022, hvor respondenterne kan angive selvoplevet kønsidentifikation i stedet for biologisk køn.

    Den skotske folketælling var oprindeligt planlagt til afholdelse i 2021 ligesom folketællingerne i  den  øvrige del af UK — England, Wales og Nordirland — men blev udsat på grund af covid19-krisen. I det øvrige UK blev tællingstidspunktet fastholdt. I den oprindelige plan var køn defineret på samme måde som i den kommende skotske tælling, men det blev ændret efter at en domstol havde fastslået, at køn skulle forstås som biologisk køn (køn registreret ved fødslen), medmindre der er sket et juridisk kønsskifte, der kræver en særlig procedure og dokumentation af kønsidentitetsforstyrelse. Sagen var rejst af kvindesagsgruppen Fair Play for Women. Dommen har kun direkte gyldighed for England og Wales, og Skotland har som nævnt fastholdt den oprindelige definition. 

    Der er stadig kun to svarmuligheder på kønsspørgsmålet: mand eller kvinde, men alle fire folketællinger i UK indeholder også et spørgsmål om  kønsidentitet. Her kan angives om kønsidentitet afviger fra biologisk køn, og hvis det er tilfældet, kan kønsidentitet angives. Det er dog frivilligt at besvare kønsidentitetsspørgsmålet, hvorimod besvarelse af kønsspørgsmålet er obligatorisk. 

    Referencer:

    Matt Jans, Bianca D. M. Wilson, and Jody L. Herman: “Measuring Aspects of Sexuality and Gender: A Sexual Human Rights Challenge for Science and Official Statistics”, CHANCE februar 2018 (Link, 22/9-2021)
    Libby Brooks: “People can self-identify as male or female in Scottish census, says guidance”,  The Guardian 31/8-2021 (Link 16/9-2021)
    Alexandra Topping: “Guidance on sex question in census must be changed, high court rules”. The Guardian 9/3-2021 (Link 27/9-2021)

  • Covid-19 krisens udfordringer for den officielle statistik

    Covid-19 krisen har presset den officielle statistik fra to sider. På den ene side har der været krav om hurtig statistik til belysning af af pandemiens udbredelse og effekterne af tiltagene til at bekæmpe den, og på den anden side har krisen vanskeliggjort dataindsamlingen, og derved skabt problemer for kvaliteten af statistikken. Behovet for hurtig statistik har statistikmyndighederne søgt at imødekomme ved at offentliggøre supplementer til den traditionelle statistik, der kan leveres hurtigt, men ikke nødvendigvis opfylder de sædvanlige kvalitetskrav. Danmarks Statistik  præsenterer en række sådanne supplementer på sin hjemmeside under overskriften COVID-19 – hurtige indikatorer. Kvalitetsproblemerne har der derimod ikke på kort sigt været de store muligheder for at imødegå, på anden måde end ved at gøre brugerne opmærksomme på problemet. Verdensbanken og FN’s statistiske afdeling har søgt at danne sig et overblik over omfanget af de nationale statistikmyndigheders problemer gennem en række spørgeskemaundersøgelser. Tidsskriftet The Economist (Economist 2021) har i en artikel leveret en opsummering og vurdering af resultaterne af disse undersøgelser.

    En stor del af de ansatte i alle verdens statistikmyndigheder har under krisen arbejdet hjemmefra og dataindsamling baseret på ansigt til ansigt kontakt med respondenter er stort set ophørt. I et vist omfang har besøgsinterview kunnet erstattes med telefon-, epost- eller internetbaserede interviews, og arbejde hjemmefra har kunnet understøttes af internetbaserede redskaber som videomøder. Men det kræver en veludbygget infrastruktur, som ikke findes alle steder, og navnlig ikke i fattige lande.

    Særligt for folketællingerne er krisen opstået på et uheldigt tidspunkt. De fleste lande afholder folketælling hvert tiende år, og efter anbefaling fra FN har næsten alle lande valgt at afholde folketælling i 2020 eller 2021. Nogle lande har valgt at udskyde deres folketælling, og mangler derfor opdaterede data på centrale områder. Andre lande har gennemført tællingen, men har måtte opgive dele af dataindsamlingen, og står derfor med  tællingsresultater af en kvalitet, der er ringere end den sædvanlige. Folketællingerne danner på forskellig måde grundlag fra andre statistikker, så resultaterne af den forringede kvalitet vil kunne mærkes i statistikproduktionen mange år fremover.

    Centrale konjunkturstatistikker har også været hårdt ramt af krisen. Det gælder f.eks. opgørelsen af inflationen. En væsentlig del af indsamlingen af prisdata er traditionelt varetaget af prisinspektører, der besøger butikker og restauranter mm, og observerer og registrerer priser på udvalgte produkter. Den metode har været vanskelig at gennemføre. En anden vigtig konjunkturstatistik — opgørelsen af arbejdsløsheden — har haft tilsvarende problemer. 

    Danmarks Statistik har på flere måder været i en mere gunstig position end de fleste andre statistikmyndigheder, fordi en stor del af dataindsamlingen sker via offentlige registre, der i stort omfang har fungeret normalt eller næsten normalt under krisen. En vigtig kilde  som momsindberetningerne fra virksomhederne er dog blevet svækket af, at indberetningsfristerne for momsafregning har været udskudt, med heraf følgende problemer for bl.a nationalregnskabet. Men som Economist også påpeger, så er det danske registerbaserede statistiksystem ret unikt. Det har nogle historiske og kulturelle forudsætninger, der gør det vanskeligt for de fleste andre lande at opbygge noget tilsvarende. 

    Referencer:
    Danmarks Statistik: “COVID-19 – hurtige indikatorer”, (link, 18/7/2021)
    Danmarks Statistik: “Nationalregnskabsberegninger set i lyset af COVID19”, 14/52020, (link, 20/7/2021)
    Economist: “Covid-19 has stymied governments’ efforts to collect data”, The Economist 25/02/2021 (link,20/9-2021)
    The World Bank: “Survey of National Statistical Offices (NSOs) during COVID-19”, The World Bank Brief (link)
    The World Bank: “One Year Into the Pandemic : Monitoring the State of Statistical Operations Under COVID-19”, 30/7-2021 (link)
    Craig Hammer m.fl.: “National statistical offices still face disruptions and challenges as they adapt to a “new normal”, The World Bank Blogs, 11/8-2021  (link)

     

  • Første resultater fra USAs folketælling

    De første resultater fra USA’s folketælling for 2020 er kommet. I USA er folketællinger et politisk stridspunkt, fordi resultaterne fra dem danner grundlag for fordeling af både medlemmer af de lovgivende forsamlinger og af forbundets økonomiske ydelser til delstaterne. Ofte inddrages domstolene i striden, og folketællingen for 2020 har ikke været nogen undtagelse i den henseende (se indlæg fra 20/10-2020). Senest er kommet et sagsanlæg fra staten Alabama dels vedrørende en udskydelse af offentliggørelsen forårsaget af Covid19-krisen, og dels vedrørende den metode til beskyttelse af den statistiske fortrolighed, som  Folketællingsbureauet (Census Bureau) har valgt at anvende. Forsinkelsen af offentliggørelsen har betydet, at Alabama ikke har kunnet overholde en tidsfrist vedrørende fastlæggelsen af valgdistrikster fastsat i statens forfatning. Omkring databeskyttelsen er problemet en frygt for at sløringen af resultaterne kan hindre en fair repræsentation af minoriteter og små geografiske områder. Begge påstande blev afvist af federal distriktsdomstol i en kendelse afsagt 30/6 2021.

    Den anvendte databeskyttelsesmetode går under navnet differential privacy og har været beskrevet i to tidligere indlæg i denne blog (23/4-2019 og 14/5-2019). En konsekvens af metoden er, at der indlægges støj i resultaterne, således at de offentliggjorte tal afviger lidt fra de faktisk opgjorte. I de fleste tilfælde er afvigelserne små, navnlig set i forhold til samlede usikkerhed, der altid vil være i en folketællingsstatitsik, men i ekstreme tilfælde kan det for meget små populationer give misvisende og i nogle tilfælde meningsløse resultater.

    I en erklæring til distriktsdomstolen har John M. Abowd, der er vicedirektør (associate director) for forskning og metode i Folketællingsbureauet, givet en grundig redegørelse for bureauets overvejelser omkring beslutningen om at anvende differential privacy. Fundamentalt set er der tale om en afvejning af to hensyn: respondenternes krav om  fortrolighed og databeskyttelse på den ene side og brugernes krav om detaljerede og præcise opgørelser på den anden. Valget af differential privacy er truffet ud fra en økonomisk efficiensbetragtning. Empiriske undersøgelser har vist, at man ved anvendelse af differential privacy opnår den mest efficiente afvejning mellem de to hensyn.

    Hele offentliggørelsesprocessen er på grund af covid-19 krisen forsinket i forhold til de oprindelige planer, men som nævnt er de første resultater nu udkommet. De omfatter en foreløbig opgørelse til brug for fastlæggelsen af valgdistrikter. De endelige og mere detaljerede distriktsdata udkommer den 30. september. Folketællingsbureauet oplyser, at de øvrige opgørelser, herunder detaljeret befolknings- og husholdningsstatistik, følger senere, men har ikke oplyst datoer. Kun opfordret til at holde sig orienteret på deres hjemmeside

    Referencer:
    John M. Abowd: “Declaration of John M. Abowd” (til US District Court for the Middle District of Alabama), 13/4-2021 (link)

  • Alle lyver! — Internettet som sandhedsserum?

    Statistikproducenter og -brugere har altid vidst, at manglende ærlighed hos respondenterne omkring kontroversielle og/eller sensitive emner kan give alvorlige skævheder i den færdige statistik. F.eks. må man regne med, at forbruget af tobak, alkohol og bordelbesøg kan være undervurderet i forbrugsundersøgelser, at tid anvendt på motion og avislæsning kan være overvurderet i tidsanvendelsesstudier og at andelen af negative holdninger til minoriteter kan være undervurderet i holdningsundersøgelser. Brugere af statistikken er naturligvis opmærksomme på disse skævheder, og kan tage dem i betragtning i forbindelse med analyser, men det grundlæggende problem — at skævhederne er der, og at man ikke kender omfanget af dem — har man ingen løsning på. Men det er man måske ved at få. Det er i hvert fald den konklusion Seth Stephens-Davidowitz — forsker i dataanalyse og datajournalist ved New York Times — når frem til i en veloplagt og indholdsmættet bog: Everybody Lies, Big Data, New Data and What the Internet Can Tell Us About Who We Really Are (Stephens-Davidowitz, 2017).

    Årsagen til skævhederne er, at respondenterne i de traditionelle statistiske undersøgelser kan have et ønske om at fremstå positivt med socialt anerkendte vaner og holdninger, også selv om de loves fuld annonymitet. Derimod har de kun et svagt eller intet incitament til at sige sandheden. Ved informationssøgning på internettet er det omvendt. Her kan man kun få den information man søger, ved at være ærlig i sine søgetekster. Søger man f.eks. links til racistiske vittigheder er man nødt til at afsløre det i sine søgetekster. Stephens-Davidowitz’s pointe er, at man ved at analysere søgetekster kan få et mere realistisk indblik i udbredelse af kontroversielle holdninger og adfærd end det er muligt i traditionelle undersøgelser. Internettet kan på den måde fungere som sandhedsserum.

    Rollen som sandhedsserum er en vigtig side af anvendelsen af søgeord som datakilde, men metoden er også anvendelig på områder, hvor respondenterne ikke har incitamenter til at lyve. Anvendelse af metoden kræver naturligvis, at der udvikles egnede analysemetoder, men den udvikling er i fuld gang, og Stephens-Davidowitz er selv en af de store bidragsydere. Han har bl.a. brugt metoden til undersøgelser af racismes indflydelse på Barack Obamas valgresultater , udbredelsen homoseksualitet, forskelle i opdragelsen af piger og drenge og årsager til depression.

    Når vi (og Stephens-Davidowitz) taler om internetsøgning er det oftest Google-søgninger der tænkes på, og det er da også Google-søgninger, der er hovedgrundlaget for Stephens-Davidowitz’s undersøgelser. Og det datagrundlag stiller Google gratis til rådighed for alle i form af Google Trends. Grundlæggende er Google Trends meget simpelt at anvende. Man indtaster et søgeemne eller en søgesætning og får som svar en graf, der viser et indeks for udviklingen i emnets eller sætningens popularitet (andelen af samtlige søgninger) over en periode. Der ligger data tilbage til 2004. Google trends giver ikke baggrundsoplysninger om hvem, der har søgt, bortset fra en geografisk opdeling. En vigtig del af Dawidovitz’s metode består i at sammenholde søgeordsdata fra et geografisk område med data fra andre kilder om samme område.

    Davidowitz finder flere styrker ved internettet, som gør det specielt i forhold til mere traditionelle datakilder, men muligheden for at få pålidelige data på sensible områder er den vigtigste. Og den styrke har intet med omfanget af data at gøre, så i den sammenhæng er betegnelsen big data misvisende. I tidligere indlæg (f.eks 19/5-2020 og 11/9-2020)  har jeg anvendt den mere sigende betegnelse organiske data, som er foreslået af Robert Groves — tidligere direktør for det amerikanske folketællingsbureau.

    Referencer:
    Seth Stephens-Davidowitz: “Everybody Lies — Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are”, Harper Collins Publ, 2017

  • Præsidentvalget i USA — Hvem støttede Trump?

    Ved det amerikanske præsidentvalg i november 2020 og ved indsættelsen af den nye præsident i januar 2021 viste spændingerne og polariseringen i det politiske liv sig tydeligt. Nederlaget for den tidligere præsident, Donald Trump, blev uden for USA nok generelt opfattet som en lettelse, men lettelsen må være blandet med en bekymring over, at Trump stadig havde stor opbakning. Det har naturligt nok givet anledning til overvejelser om, hvem der egentlig var Trumps støtter. Et bud har været vrede og/eller skuffede gamle, hvide mænd. Catalist — et non-profit analyseinstitut med tilknytning til Demokraterne — har leveret et statistisk grundlag for en nærmere belysning af dette spørgsmål. Graden af skuffelse og vrede bliver ikke belyst af Catalist, men med hensyn til race, køn og alder støtter deres data antagelsen om gamle, hvide mænd.

    Tabel 1: Trumps andel af stemmerne (pct.) ved præsidentvalget i 2020, fordelt på køn, race og uddannelse.

    Mænd Kvinder
    Hvide Kort uddannelse 66 58
    Lang eller mellemlang uddannelse 49 41
    Hvide i alt 59 52
    Ikke-hvide Kort uddannelse 30 20
    Lang eller mellemlang uddannelse 31 21
    Ikke-hvide i alt 31 21

    Kilde: Catalist detailed data (link)

    Af tabel 1 fremgår det helt klart, at der blandt hvide mænd var et markant flertal for Trump. Men det fremgår også, at Trump havde flertal blandt hvide kvinder. Til gengæld stod Trump meget svagt blandt ikke-hvide, og navnlig blandt ikke-hvide kvinder. Vurderet ud fra denne tabel, er det de ikke-hvide og kvinderne, der sikrede valgsejren til Trumps modkandidat, Joe Biden.

    En anden interessant observation fra tabel 1 er uddannelsesniveauets betydning for stemmeafgivelsen. Blandt de hvide er tilslutningen til Trump højest blandt de lavest uddannede, mens uddannelsesniveauet ikke gør nogen forskel hos de ikke-hvide.

    I det datamateriale Catalyst har offentliggjort findes ingen opgørelse, der sammenholder alder med race eller køn, men ser man isoleret på alder, er der en klar tendens til at Trumps stemmeandel er stigende med stigende aldersgruppe (tabel 2). Mest markant ses for den del af befolkningen, der bor på landet og i forstæderne. De ses også af tabellen, at Joe Biden først og fremmest fandt sin opbakning i byerne.

    Tabel 2: Trumps andel af stemmerne (pct.) ved præsidentvalget i 2020, fordelt på bymæssighed og alder.

    Alder Bymæssighed
    By Forstad Land i alt
    18-19 22 36 56 37
    30-44 23 40 63 41
    45-64 31 50 70 52
    65+ 31 50 66 52
    I alt 27 46 66 47

    Kilde: Catalist detailed data (link)

    Analysen er baseret på en såkaldt “voter file”, dannet på grundlag af data fra folketælling og valglister, kombineret med forskellige supplerende kilder.  Sammenfletningen af data fra de forskellige kilder er i mange tilfælde baseret på modeller og forudsætninger, der bidrager til usikkerhed omkring resultaterne og tilskynder til forsigtig tolkning. Flere institutioner vedligeholder sådanne voter files, der bl.a. spiller en stor rolle for partiernes planlægning af valgkampe. Catalist, som står bag den her refererede analyse,  er en non-profit organisation, der støtter Demokraterne. 

    Referencer:
    Yair Ghitza og Jonathan Robinson: “What Happened in 2020”, Catalist (link)
    Catalist: Catalists hjemmeside (link)

  • Livskvalitet og indkomst

    Højere indkomst fører til højere livskvalitet, i hvert fald når indkomsten er under et vist niveau. Så langt er der bred enighed blandt forskere af livskvalitet, somme tider også kaldet lykke. Der er også bred enighed om, at den gevinst i livskvalitet (lykke), der følger af en indkomststigning på 1000 kr. er større hvis indkomsten i forvejen er lille, end hvis indkomsten i forvejen er stor. Det er det økonomer kalder faldende grænsenytte. Uenigheden opstår, når talen er om hvor stor indkomsten skal være, før den faldende grænsenytte for alvor sætter ind.

    Den mest almindelige metode til måling af livskvalitet er at stille en række forsøgspersoner et spørgsmål af typen “Alt i alt, hvor tilfreds er du med dit liv“ og derefter analysere svarene. Livskvalitet opgjort på den måde tilstræber at vise svarpersonernes velovervejede opfattelse af deres generelle livssituation og betegnes vurderet livskvalitet. Et andet aspekt af livskvaliteten, den såkaldte oplevede livskvalitet, vedrører den umiddelbare følelse af tilfredshed på et konkret tidspunkt. Det er et mere flygtigt begreb og er vanskeligere at måle bl.a fordi det er vanskeligt at få pålidelige svar, hvis ikke spørgsmålet stilles umiddelbart efter det konkrete tidspunkt.

    Den hidtidige forskning giver god grund til at antage, at der er positiv sammenhæng mellem vurderet livskvalitet og indkomst. Oplevet livskvalitet er langt svagere belyst. En udbredt hypotese har været, at sammenhængen med indkomst er positiv indtil et vist niveau (omkring 75.000 $ i årsindkomst) men at indkomst herudover ikke bidrager til øget oplevet livskvalitet. Den hypotese bliver nu udfordret af Matt Killingsworth, seniorforsker ved University of Pennsylvania, i en nylig udkommet artikel.

    Killingsworth anvender data indsamlet via mobiltelefoner fra ca. 33.000 erhvervsmæssigt beskæftigede personer i alderen 18-65 år og bosiddende i USA. På tilfældige tidspunkter i løbet af arbejdsdagen er de blevet ringet op, og bedt om at beskrive deres oplevede livskvalitet umiddelbart før opkaldet gennem det simple spørgsmål: “hvordan har du det lige nu”. Ved tilmeldingen til undersøgelsen er deltagerne blevet spurgt om deres samlede husstandsindkomst før skat og om deres vurderede livskvalitet. Mere en 1,7 mio svar indgår i hans undersøgelse.

    Hovedresultaterne er vist i figuren nedenfor. Resultaterne viser en klar positiv sammenhæng mellem indkomst og både vurderet og oplevet livskvalitet, men sammenhængen er lidt stærkere for den vurderede livskvalitet. Antagelsen om, at indkomst over et vist niveau ikke øger livskvaliteten bliver således ikke bekræftet, men det er på den anden side også tydeligt, at den forøgelse i livskvalitet, der følger af øget indkomst, er mindre for de højeste indkomster.  

    Figur: Sammenhæng mellem indkomst og livskvalitet i USA

    Kilde: Killingsworth(2021), Grafik: Veusz

    Analysen er baseret på personer, der på eget initiativ har tilsluttet sig projektet, så der er ingen garanti for repræsentativitet. Men Killingsworth mener på grundlag af nærmere granskning af besvarelserne — bl.a er datagrundlaget meget omfattende, og fordelingen på centrale variable afviger det ikke voldsomt fra forholdene i den samlede amerikanske befolkning — at der er grund til at antage, at resultatene lader sig generalisere.

    Referencer:
    Matthew A. Killingsworth: “Experienced well-being rises with income, even above $75,000 per year”, PNAS January 26, 2021 118 (4) e2016976118 (link)

  • Covid19-krisens spor i nationalregnskabet for 2020

    Samfundet har i 2020 været præget af hele eller delvise nedlukninger, med deraf følgende begrænsninger i den økonomiske aktivitet. Det har naturligvis også vist sig i den økonomiske statistiks beskrivelse af udviklingen. I tabel 1 vises udviklingen i husholdningernes og virksomhedernes indkomst og  opsparing i 2020 således som den afspejles i nationalregnskabet. 

    Tabel 1: Husholdningers og virksomheders indkomst og opsparing i 2020

    Mia. kr 2020 Ændring fra 2019
    Hushold-ninger1 Selska-ber  I alt Hushold-ninger1 Selska-ber I alt
    Virksomhedsoverskud 101 330 432 2 -8 -7
    Lønindkomst 1.187 0 1.187 11 0 11
    Formueindkomst(netto) 83 -16 68 -16 16 0
    Sociale ydelser 459 -76 383 24 -4 21
    Div.overførsler 94 51 145 0 -2 -1
    Indtægter i alt 1.924 290 2.214 21 2 23
    Indkomst og formueskatter 644 61 705 10 -10 0
    Socialsikringsbidrag 96 -76 20 4 -4 1
    Diverse overførsler 59 73 132 0 -13 -13
    Udgifter i alt 800 57 857 14 -26 -12
    Disponibel indkomst 1.125 232 1.357 7 28 36
    Forbrug 1.059 0 1.059 -18 0 -18
    Opsparing 66 232 298 25 28 53

    Anm: Nettoopgørelse, dvs afskrivninger er fratrukket.
    Note: 1 Omfatter også non-profit institutioner rettet mod husholdningerne
    Kilde: Danmarks Statistikbank/NAS02 

    Overraskende nok ser en så væsentlig post som den disponible indkomst for husholdninger og virksomheder under et  ikke ud til at være påvirket. Stigningen på 36 mia. kr. — svarende til 2,6 pct — virker ikke påfaldende sammenlignet med tidligere år.  

    Ser man på husholdninger og selskaber hver for sig er udviklingen mere markant. Stigningen er koncentreret på selskaberne, hvorimod husholdningernes disponible indkomst på det nærmeste har været uændret. En væsentlig del af forklaringen er, at selskabernes betaling af udbytter i stort omfang blev suspenderet i 2020. Det afspejler sig i posten formueindkomst, hvor udbytterne er udgift for virksomhederne men indkomst for de husholdninger, der ejer aktier. Den manglende udbyttebetaling vil afspejle sig i en forøgelse af selskabernes formue, og dermed i aktiernes værdi. Hvad husholdningerne således har mistet i udbytteindtægter har de vundet tilbage i værdistigning på aktierne. Det afspejles i nationalregnskabets finansielle konti, som jeg dog ikke vil komme nærmere ind på i dette indlæg.

    I tabel 2 belyses det lidt nærmere, hvordan virksomhedsoverskuddet er sammensat, og her bliver krisens virkninger tydeligere. Her fremgår det klart, at produktionen, målt ved værditilvæksten, er faldet med 33 mia. kr., svarende til 2,6 pct., og når både virksomhedsoverskud og  lønudbetalinger har kunnet opretholdes nogenlunde uændret, så skyldes det en forøgelse af produktionssubsidierne på 29 mia. kr., svarende til mere end end fordobling.

    Tabel 2: Virksomhedsoverskud i 2020

    mia. kr. 2020 Ændring fra 2019
    Hushold-ninger1 Selska-ber I alt Hushold-ninger1 Selska-ber  I alt
    1: Nettoværditilvækst 171 1.100 1.271 -5 -28 -33
    2: Produktionssubsidier 14 40 54 6 23 29
    3: Produktionsskatter 20 31 51 -1 -1 -2
    4. Lønudgifter 64 778 842 1 -2 -1
    Virksomhedsoverskud (1+2-3-4) 101 330 432 2 -8 -7

    Anm: Nettoopgørelse, dvs afskrivninger er fratrukket.
    Note: 1 Omfatter også non-profit institutioner rettet mod husholdningerne
    Kilde: Danmarks Statistikbank/NAS01 

    Det er således kun takket være en forøgelse af det offentliges udgifter til subsidier, at den private sektors virksomhedsoverskud har kunnet opretholdes. For opretholdelsen af den samlede disponible indkomst har yderligere en forøgelse af sociale ydelser fra det offentlige (jf. tabel 1) spillet en vigtig rolle. Dertil kommer, at det offentlige har haft betydelige udgifter i form af kapitaloverførsler (navnlig erstatninger til minkavlere) der ikke fremgår af nationalregnskabets opgørelse af disponibel indkomst og opsparing. Som følge heraf er den samlede offentlige saldo gået fra et overskud på 88 mia.kr. i 2019 til et underskud på 27 mia. i 2020. Det er naturligvis foregået velovervejet og netop med det formål at afbøde krisens virkninger for den private sektor. Heldigvis er de offentlige finanser efter flere år med positiv saldo i så god stand, at der ikke umiddelbart er grund til bekymring.

    De viste tal for nationalregnskabet for 2020 er meget foreløbige, og navnlig i forbindelse med  de mange nye ordninger vedrørende subsidier, sociale overførsler og kapitaloverførsler, der er etableret i forbindelse med covid-19 krisen, er Danmarks Statistik stadig i gang med overvejelser om, hvordan de skal behandles i nationalregnskabet.

    Referencer:
    Danmarks Statistik: “Statistikbanken tabel NAS01 og NAS02” (link)
    Danmarks Statistik: “Klassifikation af corona-hjælpepakker”, 11/2-2021 (link)