Første resultater fra USAs folketælling

31/08/2021          Taleboble Kommentarer

De første resultater fra USA’s folketælling for 2020 er kommet. I USA er folketællinger et politisk stridspunkt, fordi resultaterne fra dem danner grundlag for fordeling af både medlemmer af de lovgivende forsamlinger og af forbundets økonomiske ydelser til delstaterne. Ofte inddrages domstolene i striden, og folketællingen for 2020 har ikke været nogen undtagelse i den henseende (se indlæg fra 20/10-2020). Senest er kommet et sagsanlæg fra staten Alabama dels vedrørende en udskydelse af offentliggørelsen forårsaget af Covid19-krisen, og dels vedrørende den metode til beskyttelse af den statistiske fortrolighed, som  Folketællingsbureauet (Census Bureau) har valgt at anvende. Forsinkelsen af offentliggørelsen har betydet, at Alabama ikke har kunnet overholde en tidsfrist vedrørende fastlæggelsen af valgdistrikster fastsat i statens forfatning. Omkring databeskyttelsen er problemet en frygt for at sløringen af resultaterne kan hindre en fair repræsentation af minoriteter og små geografiske områder. Begge påstande blev afvist af federal distriktsdomstol i en kendelse afsagt 30/6 2021.

Den anvendte databeskyttelsesmetode går under navnet differential privacy og har været beskrevet i to tidligere indlæg i denne blog (23/4-2019 og 14/5-2019). En konsekvens af metoden er, at der indlægges støj i resultaterne, således at de offentliggjorte tal afviger lidt fra de faktisk opgjorte. I de fleste tilfælde er afvigelserne små, navnlig set i forhold til samlede usikkerhed, der altid vil være i en folketællingsstatitsik, men i ekstreme tilfælde kan det for meget små populationer give misvisende og i nogle tilfælde meningsløse resultater.

I en erklæring til distriktsdomstolen har John M. Abowd, der er vicedirektør (associate director) for forskning og metode i Folketællingsbureauet, givet en grundig redegørelse for bureauets overvejelser omkring beslutningen om at anvende differential privacy. Fundamentalt set er der tale om en afvejning af to hensyn: respondenternes krav om  fortrolighed og databeskyttelse på den ene side og brugernes krav om detaljerede og præcise opgørelser på den anden. Valget af differential privacy er truffet ud fra en økonomisk efficiensbetragtning. Empiriske undersøgelser har vist, at man ved anvendelse af differential privacy opnår den mest efficiente afvejning mellem de to hensyn.

Hele offentliggørelsesprocessen er på grund af covid-19 krisen forsinket i forhold til de oprindelige planer, men som nævnt er de første resultater nu udkommet. De omfatter en foreløbig opgørelse til brug for fastlæggelsen af valgdistrikter. De endelige og mere detaljerede distriktsdata udkommer den 30. september. Folketællingsbureauet oplyser, at de øvrige opgørelser, herunder detaljeret befolknings- og husholdningsstatistik, følger senere, men har ikke oplyst datoer. Kun opfordret til at holde sig orienteret på deres hjemmeside

Referencer:
John M. Abowd: “Declaration of John M. Abowd” (til US District Court for the Middle District of Alabama), 13/4-2021 (link)


USA’s højesteret standser dataindsamlingen til folketællingen

20/10/2020          Taleboble Kommentarer

I USA er indsamlingen af data til folketællingen for 2020 nu afsluttet. Præcis hvornår afslutningen skulle ske har været genstand for en politisk og juridisk strid, der nu er blevet afgjort af højesteret. Efter den helt oprindelige plan skulle dataindsamlingen afsluttes med udgangen af juli, men på grund af covid-19 krisen blev indsamlingsperioden først udvidet til udgangen af oktober, og senere igen afkortet til udgangen af september. Da en række eksperter udtrykte bekymring for, at afkortningen af indberetningsperioden kunne få negative følger for folketællingens kvalitet, indbragte en alliance af lokale myndigheder og borgerretsgrupper sagen for retten, med krav om at udgangen af oktober blev fastholdt som afslutningtidspunkt.

Alliancen fik i første omgang medhold ved en distriktsdomstol, og dataindsamlingen blev fortsat ind i oktober, men den den 13. oktober besluttede højesteret, at regeringen har ret til at afslutte dataindsamlingen. I praksis betyder det, at dataindsamlingen blev afsluttet den 15. oktober. Trods nederlaget i Højesteret kan klagerne altså glæde sig over, at de gennem distriktsdomstolens kendelse opnåede 15 dages ekstra indsamlingsperiode.

Når fastlæggelse af afslutningsdatoen for indsamlæingsperioden kunne blive et politisk stridsspørgsmål skyldes det først og fremmest, at folketællingens resultater afgør fordelingen mellem delstaterne af medlemmerne af Repræsentanternes Hus og af det valgmandskollegium, der vælger præsidenten. Der er en forventning om, at der er en overvægt af økonomisk og socialt dårligt stillede husstande blandt de senest indkomne besvarelser, og da sådanne husstande i højere grad antages at støtte Demokraterne, kan en republikansk præsident og regering alene af den grund have en interesse i så kort en indsamlingsperiode som muligt. Dertil kommer, at folketællingen også anvendes som fordelingsgrundlag for ydelser i forbundets sociale støtteprogrammer. Jo færre fattige, der optælles, jo færre midler til de fattigste områder, og tilsvarende flere til de knap så fattige.

Der er intet usædvanligt i, at en amerikansk folketælling er genstand for voldsomme politiske og juridiske slagsmål. Forfatningen fastlægger, at tællingen skal afholdes hvert tiende år, men siger meget lidt om det konkrete indhold. Der er derfor rig anledning til politisk uenighed, og med Højesterets rolle som fortolker af forfatningen kommer kampen til at udspille sig både i Kongressen og i Højesteret. Folketællingen for 2020 er dog nok en af de mest omstridte, navnlig fordi Trump-administrationen fra starten har udvist en meget kritisk holdning til officiel statistik i almindelighed og til Folketællingen i særdeleshed (se tidl indlæg, 19/9-2017 og 7/2-1017)

* Den amerikanske folketælling har tidigere være behandlet i flere indlæg i denne blog (4/2-2020, 14/5-201912/6-201819/9-2017 og 23/5-2017)

Referencer:
Mike Schneider: “Supreme Court halts census in latest twist of 2020 count”, AP News 14/10-2020 (link)


USA’s folketælling 2020

04/02/2020          Taleboble Kommentarer

En af dette års helt store begivenheder i statistikverdenen er folketællingen i USA. Mange andre lande afholder folketælling i 2020 — og EU-landene holder folketællinger i 2021 — men den amerikanske tælling er noget helt særligt i kraft af sit omfang, sin historie, sin rolle i det politiske spil og den tekniske og statistikfaglige indsats, der ligger bag. Forberedelserne til den amerikanske folketælling har tidigere være behandlet i flere indlæg i denne blog (14/5-2019, 12/6-2018, 19/9-2017 og 23/5-2017)

Grundlæggende foregår folketællingen på helt traditionel vis, ved at hvert husstandsoverhoved besvarer et spørgeskema om husstandens beboere. Moderne teknologi anvendes naturligvis, hvor det er muligt, men fundamentet er data indsamlet direkte hos borgerne. Det er en meget kostbar dataindsamlingsmetode, som i andre lande er søgt erstattet eller suppleret med anvendelse af data fra allerede eksisterende registre. Ugemagasinet The Economist påpeger da også, at metoden kan forekomme ret utidsvarende, men problemet er, at USA ikke råder over den administrative infrastuktur i form af omfattende administrative registre, der er forudsætningen for alternative og langt billigere metoder.

Dataindsamlingen er så småt begyndt i afsides liggende områder i Alaska og vil fortsætte sommeren over. Det officielle starttidspunkt var 21. januar. Men den store indsamlingsmåned bliver april. Folketællingsdagen — den 1. april 2020 — vil blive markeret som en mærkedag over hele USA. Det er forholdene på denne dato tællingen tilstræber at beskrive. Alle husholdninger vil på denne dag modtage en opfordring til at deltage. Besvarelsen kan foregå telefonisk, online på internettet eller med gammeldags post. En husholdning forstås i denne sammenhæng som en lille gruppe personer, der deler bolig. Beboere i fælleshusholdninger som fængsler, kollegier og plejehjem kan ikke optælles på denne måde. De vil i stedet blive besøgt af folketællere, der vil indsamle de krævede oplysninger om beboerne. Det samme gælder de almindelige husholdninger, der ikke efterkommer opfordringen til levere data telefonisk, online eller med post. Hjemløse udgør et helt specielt problem, men også de vil blive søgt optalt i dagene omkring 1. april.

De første resultatater fra folketællingen bliver de opgørelser forfatningen kræver til fordeling af pladserne i kongressen og i det valgmandskollegium, der vælger præsidenten. De vil blive leveret i december 2020. Den 31, marts 2021 vil delstaterne modtage data, der skal danne grundlag for afgrænsningen af valgkredsene. Den egentlige offentliggørelse påbegyndes i maj 2021 og forventes afsluttet i april 2023.

Referencer:
Economist: “Out for the Count — Americas census looks out of date in the age of big data”, Economist 20/1-2020 (link)
United States Census Bureau: Hjemmeside (link)


Stigende bekymring omkring 2020-Folketællingen i USA

19/09/2017          Taleboble Kommentarer

Med henblik på fastlæggelsen af fordelingen mellem delstaterne af medlemmerne af Repræsentanternes Hus og af de direkte skatter til forbundet, er det i USA’s forfatning fastlagt, at der hvert tiende år skal afholdes en folketælling. Planlægningen af den næste, der skal finde sted i 2020, er i fuld gang, men en vis bekymring for, at projekteret er ved at komme vanskeligheder, er begyndt at brede sig. I et tidligere indlæg har jeg beskrevet de vigtigste træk ved Folketællingen i forbindelse med en omtale af den hidtidige folketællingschefs beslutning om at forlade posten.

Forfatningens krav, der blot omfatter en simpel optælling af befolkningen i delstaterne, skal nok blive opfyldt, men folketællingerne har hidtil været anvendt til en langt mere omfattende dataindsamling, som har udgjort en hovedhjørnesten i det amerikanske statistiske system. Uheldigvis er traditionelle folketællinger af den amerikanske type kostbare at gennemføre, og omkostningerne har været stigende. Kongressen har for længst besluttet, at omkostningerne ved den kommende tælling ikke må være højere end ved den forrige, og da dette loft er fastlagt i løbende priser, dvs. uden hensyn til inflationen, så skal den kommende tælling i praksis gennemføres med færre ressourcer.

Det har folketællingsbureauet (Census Bureau) fra starten været forberedt på og indrettet sin planlægning efter. Tilpasningen har især bestået i, at nedbringe antallet af ansatte i forbindelse med tællingen og i stedet anvende mere teknologi, f.eks. ved at få respondenterne til at indberette via internettet. Alt det er forberedt i de seks år, der er gået siden forrige tælling, hvor bureauet har fået stillet de forventede ressourcer til rådighed. Men sædvanen er, at bevillingerne forøges betydeligt i de tre sidste år op til tællingen, hvor den konkrete aftestning og iværksættelsen af de praktiske foranstaltninger går i gang. Og her har Kongressen, og efter Trumps’s tiltræden også præsidenten, vist sig uvillige.

Blandt de bekymrede er Government Accountability Office (GAO, kan sammenlignes med Rigsrevisionen), hvis opgave det er at støtte Kongressen (og ikke præsidenten) i at opfylde sine forfatningsmæssige forpligtelser. Hver andet år, ved åbningen af en ny Kongres, offentliggør GAO en liste — The High Risk List — over institutioner og programmer under Kongressens ansvarsområde, hvor risikoen er høj for at de er på vej ind i alvorlige vanskeligheder. I 2017 er Folketællingens problemer blevet optaget på listen, der i alt omfatter 34 punkter.

Problemerne, hvor store de end er, kan således ikke siges at være helt ignorerede. Det er nok baggrunden for, at John H Thompsen, den tidligere chef for folketællingsbureauet, i et interview i Significance i juli, kort efter sin fratræden, udtrykker det synspunkt, at situationen giver grund til bekymring, men ikke til panik.

Referencer:
John H Thompson: Interview i Significance , 19. juli 2017 (link)
Robert Shapiro: The 2020 Census may be wildly inaccurate— and it matters more than you think, Fixgov, Borookings (link)
GAO: The High Risk List, 2017 (link)
GAO: Webside om problemerne omkring Folketællingen i 2020 (link)


Chefen for USA’s folketællingsbureau har overraskende opsagt sin stilling

23/05/2017          Taleboble Kommentarer

John H Thomsen, chef for det amerikanske folketællingsbureau (Census Bureau) har overraskende opsagt sin stilling med virkning fra 1. juli. Det var ellers ventet at han ville forsætte  året ud, hvor hans embedsperiode udløber. Thompson begrunder sin fratræden med, at han ønsker et job i den private sektor, men hans opsigelse vækker en del  opmærksomhed, da den kommer umiddelbart efter, at kongressen har beskåret den af Obama-administrationen foreslåede forhøjelse af bureauets budget.

USA afholder folketællinger hvert tiende år, og den næste skal finde sted i 2020, Forberedelserne er i fuld gang, men der er i kongressen uenighed om finansieringen af disse forberedelser. Kritikere — i kongressen repræsenteret af demokraterne — mener at der er bevilget alt for få midler til den store opgave. Noget af diskussionen vedrører et nyt it-system, der naturligvis har til formål at nedbringe omkostningerne, men har vist sig at blive langt dyrere at udvikle end først antaget.

Den amerikanske forfatning fastslår, at delegerede til Repræsentanternes Hus og direkte skatter skal fordeles på staterne i forhold til deres indbyggertal. Derfor indeholder forfatningen også et krav om folketællinger. Forfatningen forudsætter kun en simpel optælling, men i praksis har man ved folketællingerne altid indsamlet supplerende oplysninger om køn, alder, beskæftigelse og race mm. Oplysningerne anvendes ikke blot til de i forfatningen fastlagte formål, men også til en lang række andre fordelings- og planlægningsformål, f.eks. fordelingen af forbundsregeringens tilskud til sundhed, uddannelse og transport.

En fuldstændig optælling af hele den amerikanske befolkning er umulig. Der vil altid være nogle, der ikke bliver talt. F.eks. udgør hjemløse et problem, selvom der udfoldes store bestræbelser på også at få dem talt. Samlet set vil der altid være en underdækning i folketællingen. Underdækningen er naturligvis ikke ligeligt fordelt, men vil typisk være størst for de svageste samfundsgrupper. En konsekvens af direkte anvendelse af folketællingsresultaterne vil derfor være, at de underdækkede grupper også bliver underrepræsenteret i de valgte forsamlinger, og at deres andel af støtteordninger bliver mindre end deres virkelige antal berettiger. Der findes anerkendte og pålidelige statistiske metoder til opregning, og dem gør folketællingsbureauet også brug af. Men da opregningen som nævnt har vigtige fordelingsmæssige konsekvenser, så er overvejelserne omkring den blevet genstand for både politiske og juridiske slagsmål. Også andre sider af folketællingen, f.eks. hvilke emner, der skal og må belyses, er genstand for konflikt.

I USA er folketællingen således en del af den polititiske dagsorden, og det er baggrunden for, at præsidentens og kongressens udtalelser og beslutninger omkring den kan være kontroversielle og give anledning til mistanker om skjulte dagsordener. I forvejen har præsident Trumps udtalelser om den officielle statistik givet anledning til bekymring blandt statistikere, jf. mine blog-indlæg fra 31/1 og  7/2-2017.

Referencer
Biografi på folketællingsburauets hjemmeside
Officiel meddelelse om fratræden fra Department of Commerce
Artikel fra The Washington Posts netavis


Præsidentvalget i USA — Hvem støttede Trump?

01/06/2021          Taleboble Kommentarer

Ved det amerikanske præsidentvalg i november 2020 og ved indsættelsen af den nye præsident i januar 2021 viste spændingerne og polariseringen i det politiske liv sig tydeligt. Nederlaget for den tidligere præsident, Donald Trump, blev uden for USA nok generelt opfattet som en lettelse, men lettelsen må være blandet med en bekymring over, at Trump stadig havde stor opbakning. Det har naturligt nok givet anledning til overvejelser om, hvem der egentlig var Trumps støtter. Et bud har været vrede og/eller skuffede gamle, hvide mænd. Catalist — et non-profit analyseinstitut med tilknytning til Demokraterne — har leveret et statistisk grundlag for en nærmere belysning af dette spørgsmål. Graden af skuffelse og vrede bliver ikke belyst af Catalist, men med hensyn til race, køn og alder støtter deres data antagelsen om gamle, hvide mænd.

Tabel 1: Trumps andel af stemmerne (pct.) ved præsidentvalget i 2020, fordelt på køn, race og uddannelse.

Mænd Kvinder
Hvide Kort uddannelse 66 58
Lang eller mellemlang uddannelse 49 41
Hvide i alt 59 52
Ikke-hvide Kort uddannelse 30 20
Lang eller mellemlang uddannelse 31 21
Ikke-hvide i alt 31 21

Kilde: Catalist detailed data (link)

Af tabel 1 fremgår det helt klart, at der blandt hvide mænd var et markant flertal for Trump. Men det fremgår også, at Trump havde flertal blandt hvide kvinder. Til gengæld stod Trump meget svagt blandt ikke-hvide, og navnlig blandt ikke-hvide kvinder. Vurderet ud fra denne tabel, er det de ikke-hvide og kvinderne, der sikrede valgsejren til Trumps modkandidat, Joe Biden.

En anden interessant observation fra tabel 1 er uddannelsesniveauets betydning for stemmeafgivelsen. Blandt de hvide er tilslutningen til Trump højest blandt de lavest uddannede, mens uddannelsesniveauet ikke gør nogen forskel hos de ikke-hvide.

I det datamateriale Catalyst har offentliggjort findes ingen opgørelse, der sammenholder alder med race eller køn, men ser man isoleret på alder, er der en klar tendens til at Trumps stemmeandel er stigende med stigende aldersgruppe (tabel 2). Mest markant ses for den del af befolkningen, der bor på landet og i forstæderne. De ses også af tabellen, at Joe Biden først og fremmest fandt sin opbakning i byerne.

Tabel 2: Trumps andel af stemmerne (pct.) ved præsidentvalget i 2020, fordelt på bymæssighed og alder.

Alder Bymæssighed
By Forstad Land i alt
18-19 22 36 56 37
30-44 23 40 63 41
45-64 31 50 70 52
65+ 31 50 66 52
I alt 27 46 66 47

Kilde: Catalist detailed data (link)

Analysen er baseret på en såkaldt “voter file”, dannet på grundlag af data fra folketælling og valglister, kombineret med forskellige supplerende kilder.  Sammenfletningen af data fra de forskellige kilder er i mange tilfælde baseret på modeller og forudsætninger, der bidrager til usikkerhed omkring resultaterne og tilskynder til forsigtig tolkning. Flere institutioner vedligeholder sådanne voter files, der bl.a. spiller en stor rolle for partiernes planlægning af valgkampe. Catalist, som står bag den her refererede analyse,  er en non-profit organisation, der støtter Demokraterne. 

Referencer:
Yair Ghitza og Jonathan Robinson: “What Happened in 2020”, Catalist (link)
Catalist: Catalists hjemmeside (link)


Folketællinger i EU og resten af verden

15/12/2020          Taleboble Kommentarer

Alverden skrives i mandtal i disse år. Det sker ikke på befaling fra Kejser Augustus, men på anbefaling af FN’s Økonomiske og Social Råd (Economic and Social Council of the United Nations, ECOSOC), og selvom en anbefaling fra ECOSOC i det 21. århundrede ikke underbygges af samme magt og autoritet som en befaling fra en romersk kejser omkring år 0, så afholdes der faktisk folketælling i næsten alle verdens lande i disse år.

ECOSOC anbefaler at folketælling så vidt muligt afholdes i 2020 eller 2021. Kina og Indien, der er verdens suverænt folkerigeste lande, og tilsammen rummer mere end en tredjedel af den samlede verdensbefolkning på 7,8 mia., har fastlagt hhv. 2020 og 2021 som folketællingsår. I Kina er folketællingen i fuld gang, men i Indien vil Covid19-situationen sandsynligvis nødvendiggøre en udsættelse. USA’s folketælling blev gennemført i år* og 2021 bliver EU’s folketællingsår. En lille gruppe lande har afholdt deres folketællinger i perioden  2015-2019, og enkelte har planlagt at afholde dem i 2022 eller senere, men langt de fleste følger anbefalingen om 2020 eller 2021. Kun ganske få lande har hverken gennemført eller planlagt en folketælling.

I en traditionel folketælling indsamles data ved, at der rettes henvendelse til hver enkelt husstand — personligt eller gennem postvæsenet. Det er en velprøvet metode, og i mange henseender den mest hensigtsmæssige, fordi den giver statistikproducenten fuld kontrol over hele processen. Men metoden er kostbar. En langt billigere fremgangsmåde er at basere opgørelsen på eksisterende administrative registre, f.eks. skattevæsenets og de sociale myndigheders registre, og/eller egentlige folkeregistre, som det danske CPR. Men i de fleste af verdens lande findes sådanne registre ikke, eller de er for ufuldstændige eller upålidelige til  at kunne anvendes som folketællingsgrundlag. Derfor gennemføres folketællingerne i to tredjedele af verdens lande efter den traditionelle metode (Mrkić, s. 37). I den resterende tredjedel anvendes registre enten alene eller i kombination med supplerende dataindsamling, evt i form af stikprøveundersøgelser**.

Rammerne for EU-landenes folketællinger er fastlagt i en forordning, hvis regler ligger indenfor FN’s retningslinjer. Med hensyn til metoder giver forordningen landene meget vide rammer. Derimod opstilles der ret præcise krav til hvilke data, der skal leveres. Resultaterne fra EU-landenes folketællinger vil blive offentligt tilgængelige gennem EU’s Census Hub (se tidl indlæg), hvor resultaterne fra EU-folketællingen i 2011 allerede findes (link). Landene skal levere data til Census Hub inden 1. april 2024.

I Danmark har der ikke været afholdt folketællinger siden 1981, og der kommer heller ingen folketælling i 2021. Som EU-medlem er Danmark naturligvis forpligtet til at levere en folketællingsopgørelse til EU, men det kan Danmarks Statistik gøre ud fra den eksisterende statistik. Den løbende registerbaserede statistik indeholder alle de data, der normalt indsamles ved en folketælling, herunder de data EU kræver indberettet, så en egentlig folketælling er overflødig.

* Den amerikanske folketælling har tidigere være behandlet i flere indlæg i denne blog (20/10-2020, 4/2-202014/5-201912/6-201819/9-2017 og 23/5-2017)

** Korte beskrivelser af forskellige typer af folketællinger kan findes i et tidligere indlæg (link)

Referencer:
Srdjan Mrkić: The 2020 round of population and housing censuses: An overview, Statistical Journal of the IAOS, vol. 36, no. 1, pp. 35-42, 2020 (link)
UNSD: Webside – World Population and Housing Census Programme(website), (link)
Eurostat: “EU legislation on the 2021 population and housing censuses”, 2019 (link)
EU: “Census Hub”,  (link)


USA’s statistiske system

06/08/2019          Taleboble Kommentarer

USA’s statistiske system er stærkt decentraliseret, med en produktion af officiel statistik, der er fordelt på mere end 100 forskellige enheder. Udviklingen er tydeligvis sket ved knopskydning — når et behov er opstået, har man etableret ny enhed — uden særlig fokus på fordelene ved koordinering. Det har naturligvis skabt problemer, og kongressen har da også gennem lovgivning søgt at skabe lidt mere overblik. Den vigtigste lov omhandlende den federale statistikproduktion blev oprindeligt vedtaget i 1980, men revideret 1995. Lovens officielle navn: “Lov om Begrænsning af Papirarbejde” (Paperwork Reduction Act”) antyder, at irritation over, at skulle indberette samme oplysninger til flere myndigheder har været en drivkraft bag loven. Yderligere rammer for den officielle statistik er fastlagt i andre love som “Lov om Beskyttelse af Fortrolig Information og om Statistisk Effektivitet” (Confidential Information Protection and Statistical Efficiency Act, CIPSEA) fra 2002, og  “Lov om Evidensbaseret Politisk Beslutningstagning” (Evidence-Based Policymaking Act) fra 2018 .

Der er stor variation i størrelse og betydning af de mange officielle statistikprodu­center. En væsentlig del af den officielle statistikproduktion — 43 pct. målt ud fra de størrelsen af den finanslovbevillingen til statistikproduktion i 2016 — varetages af 13 såkaldte statistiske hovedmyndigheder (principal statistical agencies). De statistiske hovedmyndigheder er karakteriseret ved, at deres hovedformål er indsamling, behandling og analyse mm. af statistiske oplysninger. Langt den vigtigste er Folketællingebureaet (Bureau of the Census). Andre vigtige hovedmyndigheder er Det Nationale Center for Uddannelsesstatistik (National Center for Education Statistics), Det Nationale Center for Sundhedsstatistik (National Center for Heath Statistics),  Bureauet for Arbejdsmarkedsstatistik (Bureau of Labor Statistics) og Det Økonomiske Analysebureau (Bureau of Economic Analysis). De resterende 57 pct. af finanslovbevillingerne er fordelt mere end 90 institutioner, der ikke har statistikproduktion som hovedopgave, men som på finansloven modtager en bevilling øremærket til statistik. Hertil kommer produktion officielle statistikker som ikke har deres eget punkt på finansloven og statistikker produceret af enheder uden for den egentlige regering (executive branch), f.eks. Nationalbanken  (Federal Reserve).

Folketællingerne, der som fastlagt i forfatningen afholdes hvert 10 år, spiller en helt grundlæggende rolle i den amerikanske statistik, og har været behandlet i en række tidligere indlæg((14/5-2019, 12/6-2018, 19/9-2917 og 23/5-2017). Næste folketælling afholdes i 2020.

Lovgivningen etablerer tre vigtige værktøjer til koordinering og kvalitetssikring af den officielle statistik: et embede som chefstatistiker, et fællesråd for planlægningen af den officielle statistik (Interagency Council on Statistical Policy, ICSP) og en ramme for beskyttelse af den statistiske fortrolighed. Chefstatistikeren har det overordnede ansvar for og myndigheden til at koordinere og overvåge den officielle statistik. Hun (Nancy Potok) er formand for ICSP, der herudover som medlemmer har cheferne for de tretten statistiske hovedmyndigheder og  en enkelt repræsentant for de øvrige officielle statistikproducenter.

I forbindelse med Donald Trumps tiltræden som USA’s præsident blev der fra nogle statistikere og statistikbrugere udtrykt bekymring for, at den nye administration ville svække kvaliteten af den officielle statistik, og måske ligefrem søge at manipulere den (se tidl. indlæg). Den debat kører stadig. Catherine Rampell, kommentator ved The Washington Post, mener at vigtige statistikproducenter som Bureauet for Arbejdsmarkedsstatistik og Det Økonomiske Analysebureau endnu har deres uafhængighed og troværdighed i behold, men at at andre områder, f.eks. miljøstatistikken og fattigdomsstatistikken, er truet.

Referencer:
Office of Management and Budget: “Statistical Programs of the United States Government, fiscal year 2018”  (link)
National Academies of Sciences, Engineering, and Medicine: Principles and Practices for a Federal Statistical Agency” : Sixth Edition. Washington, DC: The National Academies Press. 2017 (link)
US Government: “Strengthening Federal Statistics”, Kapitel 18 i Analytical Perspectives, Budget of the US Government Fiscal Year 2020, (link)
Catherine Rampell: “The Trump Administration’s War on Statistics isn’t Slowing Down”, The Washington Post 23/5-2019 (link)


Differential privacy i den amerikanske folketælling

14/05/2019          Taleboble Kommentarer

Som omtalt i mit tidligere indlæg om differentiel privacy (link) har man i USA besluttet, at differential privacy (i det følgende kaldet DP) skal være grundlaget for fortrolighedsbeskyttelsen i den amerikanske folketælling for 2020.  Den beslutning har stillet Folketællingsbureauet (Census Bureau) over for en række udfordringer. Bureauets afdelingsdirektør for forskning og metode — John Abowd — har i et foredrag offentliggjort på YouTube leveret nogle overvejelser omkring disse udfordringer. Han har også sammen med  Simson L. Garfinkel og Sarah Powazek lidt dybere redegjort for udfordringerne i artiklen Issues Encountered Deploying Differential Privacy“.

DP er et ret nyt forskningsobjekt — de første artikler om emnet udkom i begyndelsen af dette årtusind —  så en af udfordringerne har været, at finde kvalificeret personale og egnede redskaber bl.a i form af programmel og matematiske metoder. I det omfang programmel og metoder eksisterer, har de vist sig ikke umiddelbart at kunne opfylde bureauets konkrete behov, så udviklingen af nye metoder er også en udfordring. Men den største udfordring er efter Abowds opfattelse at få brugerne til at forstå, at de nye offentliggørelsesprincipper, som bliver følgen af DP, i mange tilfælde kræver, at de de hidtil anvendte modeller, værktøjer og metoder må ændres.

Det er et centralt led i en DP-baseret fortrolighedpolitik, at den samlede information, der kan offentliggøres på grundlag af en given database, i dette tilfælde folketællingsresultaterne, må begrænses. Det kan ske ved lægge loft over omfanget af data , der offentliggøres, eller ved af mindske præcisionen i offentliggørelserne. Præcisionen mindskes ved de tal der offentliggøres afviger lidt fra de faktisk opgjorte tal. Det kaldes at indlægge støj i opgørelserne. I praksis vil en kombination af de to metoder blive anvendt

Hvor megen information, der tillades udtrukket af databasen, skal afgøres på forhånd ud fra en afvejning mellem risikoen for fortrolighedsbrud og ønsket om mest mulig information. Det er en politisk og ikke en teknisk afvejning, så den afgørelse vil blive truffet i en politisk beslutningsproces. Resultatet bliver et informationsbudget, som herefter skal fordeles mellem forskellige anvendelser. Det kan næppe undgå at give konflikter mellem forskellige brugerinteresser. Det vil nok også skabe utilfredshed hos brugerne, at deres hidtidige metoder og programmer skal tilpasses.  F.,eks. vil mikrodatasæt ikke nødvendigvis kunne leveres i den hidtidige form.

Referencer:
Simson L. Garfinkel, John M. Abowd og Sarah Powazek:  “Issues Encountered Deploying Differential Privacy”, arXiv:1809.02201v1 [cs.CR] 6 Sep 2018 (link)
 John M. Abowd: “
Stepping-up: The Census Bureau Sets an Example of How to Be a Good Data Steward in the 21st Century”, YouTube (link) 


USA’s budgetkrise rammer også den officielle statistik

22/01/2019          Taleboble Kommentarer

I lidt over en måned har en stor del af den amerikanske forbundsadministration nu været delvist lammet på grund af budgetstriden mellem præsidenten og kongressen. Det går natuturligvis også ud over den officielle statistik, men i lidt forskellig grad for de forskellige statistikområder. Faktatanken Pew Research Center har offentliggjort en oversigt over situationen og udsigterne for de vigtigste statistikker.

Et af de helt store projekter i den amerikanske statistikverden er folketællingen, der skal afholdes i 2020. Den har i forvejen været udsat for budgetnedskæringer og andre problemer (se tidl. indlæg). I første omgang ser det dog ud til, at Folketællingskontoret (Census Bureau) kan fortsætte planlægningen i omkring halvanden måned på basis af tidligere bevilgede midler. Varer krisen længere kan planlægningen blive ramt. Folketællingekontoret producerer også andre statistikker, f.eks. om boligsalg og udenrigshandel. Disse statistikker er indstillet under budgetkrisen.

Producenten af nationalregnskabet — Bureau of Economic Analysis — er lukket ned, så en planlagt offentliggørelse den 30. januar  af de første skøn for 2018 må nok udskydes. Også en række andre statistikproducenter er lukket i forbindelse med krisen. Det går bl.a. ud over landbrugsstatitsikken og kriminalstatistikken.

Sundhedsstatistik, uddannelsesstatitik og energistatistik kan fortsætte fordi bevillingerne til producenterne var på plads inden budgetkrisens udbrud. Den del af den finansielle statistik, der leveres af Centralbanken (The Federal Reserve) kan også fortsætte, da Centralbanken ikke er afhængig af bevillinger fra kongressen.

Referencer:
Drew Desilver: “The Data Casualities of the Federal Government Shutdown”, Pew Research Center 9/1-2019 (link)


Status for den kommende amerikanske folketælling i 2020

12/06/2018          Taleboble Kommentarer

Der har altid været stor politisk og juridisk bevågenhed omkring den amerikanske folketælling. Det skyldes, at folketællingen spiller en stor rolle i forbindelse med fordelingen af mandater i lovgivende forsamlinger, herunder især kongressen, og i forbindelse med fordelingen af bevillinger fra forbundsregeringen (se indlæg 19/9-2017 og 23/5-2017). I forbindelse med den kommende folketælling i 2020 har der navnlig været fokus på fire punkter (Chang, 2018):

Det centrale spørgsmål er om — eller i hvilket omfang — særlige grupper underrepræsenteres i folketællingen. Eksempler på grupper, der muligvis underrepræsenteres, er ikke-hvide, fattige og hjemløse. Der har været en formodning om, at underrepræsentationen var størst blandt Demokraternes kærnevælgere, hvilket nok er årsagen til, at Republikanerne traditionelt har været de mest kristiske overfor tiltag, der havde til formål at øge repræsentativiteten.

Omkring finansieringen er forholdene lettet lidt, efter at Folketællingen i år har fået en større bevilling end tidligere forventet. Kritikere frygter dog, at den øgede bevilling kun sikrer, at forfatningens grundlæggende krav opfyldes, men ikke er tilstrækkelig til en indsats for at forbedre repræsentativiteten.

Spørgsmålet om statsborgerskab er måske det af punkterne der har skabt mest debat. Det omstridte spørgmål vedrører kun statsborgerskabet og afslører intet om illegal indvandring. Desuden er det ikke tilladt, at anvende folketællingsdata i forbindelse med administrative afgørelser vedrørende enkeltpersoner. Alligevel frygter skeptikerne, at inddragelsen af spørgsmålet i folketællingsskemaet vil gøre det vanskeligere at opnå svar fra mange indvandrere.

Referencer:
Alvin Chang: How Republicans are Undermining the 2020 Census, Explained with a Cartoon,  Vox 8/5-2018 (link)
D’Vera Cohn: What to know about the citizenship question the Census Bureau is planning to ask in 2020, Pew Research Center  30/3-2018 (link)


Geografisk befolkningstyngdepunkt i USA – og i Danmark

25/04/2017          Taleboble Kommentarer

Det amerikanske folketællingsbureau (US Census Bureau) beregner efter hver folketælling et befolkningstyngdepunkt (mean center of population) . Befolkningstyngdepunktet illustrerer, hvordan befolkningen i USA siden 1790 gradvis har bevæget sig længere og længere mod vest, og i de senere år også mod syd. Bag beregningen ligger en model, hvor USA’s overflade ses som en helt plan flade, og hver indbygger har samme vægt. Herudfra kan kan beregne det punkt hvor fordelingen af befolkningen vil få fladen til at balancere. På kortet nedenfor er balancepunkterne for hver af de tiårlige folketællinger siden 1790 plottet ind. Detaljerne i metoden er dokumenteret i Centers of Population Computation for the United States

Befolkningstyngdepunkt i USA

Klik her for kort i fuld størrelse
Kilde: US Census Bureau, Centers of Population

Ideen om et geografisk befolkningstyngdepunkt giver umiddelbart god mening for USA, hvis landområde, når man ser bort fra Alaska mm, udgør en sammenhængende flade, der ovenikøbet med lidt godt vilje kan opfattes som et tilnærmet rektangel. For et mere uformeligt ørige som Danmark, hvor en stor del af territoriet er vand, virker ideen ikke helt så indlysende. Men vælger man et lade det danske område omfatte et rektangel, hvor grænserne bestemmes af de østligste, vestligste, nordligste og sydligste punkter, og blot betragter de omfattede havområder som ubeboede dele af territoriet, kan der også beregnes befolkningstyngdepunkter for Danmark. Efter den betragtning ligger befolkningetyngdepunktet i begyndelsen af 2017 i Samsø Bælt lidt øst for Samsø. Bornholm er holdt uden for beregningerne.

Tyngdepunkter, DanmarkIndeholder data fra Styrelsen for Dataforsyning og Effektivisering, skærmkortet, WMS-tjeneste

Min metode ved beregningen af det danske befolkningstyngdepunkt er i princippet den samme den amerikanske, men detaljeringsgraden i data er væsentlig mindre. Kort sagt har jeg beregnet et vejet gennemsnit af kommunernes koordinater, hvor folketallet er anvendt som vægte. Kommunernes koordinater er deres geografiske midtpunkt, fastlagt på øjemål.

Arealtyngdepunktet — dvs tyngdepunktet målt med kommunernes areal som vægte — ligger lidt nordøst for Horsens. Befolkningstyngdepunktet ligger således noget østligere end arealtyngdepunktet, hvilket afspejler, at befolkningetætheden er større i de østlige end i de vestlige dele af landet.

Det geografiske midtpunkt dvs. punktet midt imellem de østliste, vestligste, nordligste og sydligste punkter befinder sig på Mols lige ud for kysten midt i Begstrup Vig.


Præsident Bidens første beslutninger vedrørende officiel statistik

02/02/2021          Taleboble Kommentarer

Blandt de mange bekendtgørelser (executive orders) som Joe Biden, USA’s nytiltrådte præsident, udstedte i de første timer efter sin edsaflæggelse, var også en vedrørende den folketælling, der blev afholdt i USA i 2020 (link). Bekendtgørelsen omgør to kontroversielle bekendtgørelser udstedt af den netop afgåede præsident, Donald Trump. Donald Trump havde, som beskrevet i flere tidligere indlæg (bl.a. 7/2-2017 og 19/9-2017), et noget anstrengt forhold til folketællingen, og til andre grene af statistikken for den sags skyld. 

Den ene omgjorte bekendtgørelse vedrører den rolle ulovlige immigranter skal spille i forbindelse med fordelingen af pladser i de folkevalgte forsamlinger, herunder forbundsparlamentet (Repræsentanternes Hus) og  delstaternes parlamenter. Trump havde i en bekendtgørelse besluttet, at ulovlige immigranter ikke skulle indgå i disse optællinger. Da den almindelige antagelse er, at antallet af ulovlige immigranter er størst i de områder, hvor demokraterne står stærkest, betød det en styrkelse af republikanernes stilling i fordelingen. Demokraterne så Trumps bekendtgørelse som et brud på en lang tradition for fortolkningen af forfatningens regler om folketællingen, der gik ud på at alle skulle medregnes, uanset lovligheden af opholdsgrundlaget. Med præsident Bidens omgørelse er man vendt tilbage til den traditionelle tolkning.

Den anden af de to omgjorte bekendtgørelser vedrører registrering af statsborgerskab. Trump-administrationen havde oprindeligt besluttet, at der i folketællingsskemaet skulle indgå et spørgsmål om statsborgerskab. Der var blandt myndighederne i flere stater og byer modstand mod at lade et sådant spørgsmål indgå, fordi man forventede, at det det kunne få nogle immigranter til at modsætte sig registrering (selv om deltagelse i folketællingen er lovpligtig), af frygt for, at oplysningerne kunne blive brugt til at så tvivl deres ret til at opholde sig i USA. Det ville betyde en undervurdering af immigrantbefolkningen, og også her var antagelsen, at det ville styrke republikanerne på demokraternes bekostning. Lovligheden af spørgsmålet blev anfægtet, og Højesteret besluttede at blokere for spørgsmålet, fordi den ikke fandt, at der var overbevisende argumenter for spørgsmålets nytte og nødvendighed. Myndighederne havde andre statistiske kilder til belysning af statsborgerskab. Trump reagerede ved at udstede en bekendtgørlse, der pålagde føderale myndigheder at levere data om statsborgerskab til folketællingsbureauet, der så kunne samkøre oplysningerne med de øvrige indsamlede data. Det er denne bekendtgørelse, der nu er omgjort, således at spørgsmålet om statsborgerskab ikke kommer til at indgå i folketællingsopgørelserne.

Referencer:
US Census Bureau: “Census Bureau Update on 2020 Census”, Press Release 21/1 2021 (link)
The White House: Ensuring a Lawful and Accurate Enumeration and Apportionment Pursuant to the
Decennial Census”, Executive Order of the President, 20/1-2021 (link)


Generationsstatistik

29/09/2020          Taleboble Kommentarer

De generationer, der er vokset op med internettet — forstået som personer, der er født i 1981 eller senere — udgør fra 2019 flertallet af USA’s befolkning. Det er udgangspunktet for en analyse af den demografiske udvikling i USA, udført af  William H. Frey — seniorforsker ved Brookings Metropolitan Policy Program. Med udgangspunkt i en afgrænsning af generationer, foreslået af PEW Research Center, og data fra Folketællingsbureauet (Census Bureau), beskriver han udviklingen i befolkningens racemæssige og etniske sammensætning. De mest markante træk er, at andelen af hvide er lavere, jo yngre generationen er. Andre analyser viser, at uddannelsesniveauet er højere i de yngre generationer, og at der er betydelige holdningsforskelle mellem generationerne. Der kan derfor forventes ændringer i det politiske billede i USA, efterhånden som de yngre generationer overtager de centrale poster.

I skemaet nedenfor er PEW’s opdeling i generationer vist. Post-Z generationen ved vi ikke så meget om endnu. Den optræder mest for fuldstændighedens skyld. På et tidspunkt vil den blive afgrænset og muligvis få et andet navn.

PEW’s opdeling i generationer

Generation Fødselsårgange Alder 1. januar 2020
Præ-boomere 1945 og tidligere 74 år og ældre
Baby-boomere 1946-1964 55-73 år
Generation-X 1965-1980 39-54 år
Millennium generation 1981-1996 23-38 år
Generation-Z 1997-2012 7-22 år
Post-Z generation 2013 og senere 6 år og yngre

Kilde: Michael Dimock: “Defining generations: Where Millennials end and Generation Z begins”

Der er ikke tale om  en autoriseret eller officiel kategorisering, og PEW har udviklet den specielt til brug for amerikanske forhold. Ikke desto mindre vil jeg i det følgende anvende den til en belysning af generationerne i Danmark, idet jeg antager, at de ønskelige tilpasninger er så begrænsede, at umiddelbar anvendelse på danske data giver mening.

Millennium-generationen er den første, der er der er opvokset med internettet. Den efterfølges af generation-Z, der ikke blot er vokset op med internettet, men for hvem hele den internetbaserede teknologi er en selvfølge. Fra 2019 udgør millennium-generationen og dens efterfølgere, som tidliger nævnt, flertallet af USA’s befolkning. Det er endnu ikke tilfældet for Danmark — den danske befolkning er ældre end den amerikanske — men det vil ske i løbet af få år (se graf nedenfor)

Andel af befolkningen i Danmark født i 1981 eller senere


Kilde:
Danmarks Statistikbank, www.statistikbanken.dk FOLK2

Forskellene mellem generationernes uddannelsesmæssige status er beskrevet i tabel 1 nedenfor. Som det ses, er tendensen klart at andelen med grundskole som højeste uddannelse er faldende og andelen med lang videregående uddannelse stigende gennem generationerne. Sålænge generationerne ikke er uddøde kan uddannelsesbilledet ændre sig, men for generation-X og tidligere må ændringerne forventes at blive små. En del af millennium-generationen er derimod stadig under uddannelse, så her vil andelen med grundskole falde og andelen med lang videregående uddannelse stige i de kommende år. Det skal også bemærkes, at grundskoleuddannelse i 1972 blev forlænget fra 7 til 9 år. Det betyder, at grundskolen for generation-X og senere repræsenterer en længere uddannelse end for de foregående generationer.

Tabel 1: Højeste fuldførte uddannelse i generationer, Danmark 2019

Andel i pct.
Grundskole Kort og mellemlang uddannelse Lang videregående uddannelse I alt
Præ-boomere 30 64 6 100
Baby-boomere 25 67 8 100
Generation-X 17 68 14 100
Millennium generation 18 67 16 100

Kilde: Danmarks Statistikbank www.statistikbanken.dk/FOLK2 og HFUDD11 samt egne beregninger

Opgørelser af  befolkningen efter etnicitet og race, som de findes i den amerikanske befolkningsstatistik,  findes ikke i den officielle danske statistik. I stedet findes opgørelser efter herkomst, hvor der skelnes mellem personer med dansk oprindelse, indvandrere og efterkommere af indvandrere. Indvandrere og efterkommere er yderligere opdelt på oprindelsesland. I tabel 2 nedenfor er generationernes sammensætning efter oprindelse vist.

Tabel 2. Befolkningen efter oprindelse, 2020 og 2035 (prognose), Danmark

Pct.
Personer med dansk oprindelse
Indvandrere og efterkommere
I alt
Vestlig oprindelse Ikke-vestlig oprindlse
Befolkningsstatistik 2020
Præ-boomere 96 3 2 100
Baby-boomere 92 3 5 100
Generation-X 85 5 10 100
Millennium generation 76 10 14 100
Generation-Z 86 3 10 100
Prognose 2035
Præ-boomere 95 3 2 100
Baby-boomere 92 3 5 100
Generation-X 86 5 9 100
Millennium generation 77 9 14 100
Generation-Z 76 10 14 100

Kilde: Danmarks Statistikbank, www.statistikbanken.dk/FOLK2 og FRDK120

Indvandreres og efterkommeres andel er, som det fremgår, størst i de yngste generationer. Der forventes også i de kommende år en betydelig indvandring, og da hovedparten af indvandrere er unge, undervurderer befolkningsstatistikken de yngste generationers fremtidige andel, Derfor er tabellen suppleret med data fra Danmarks Statistiks befolkningsprognose.

Referencer:
William H. Frey:  “Now more than half of Americans are millennials or younger”,  Brookings Blog Posts 30/7-2020 (link)
Michael Dimock: “Defining generations: Where Millennials end and Generation Z begins”. Pew Research Center Facttank, 17/1-2019 (link)


Differentiel privacy som grundlag for beskyttelse af statistisk fortrolighed

23/04/2019          Taleboble Kommentarer

Det er et centralt krav til den officielle statistik at den skal levere pålidelige og detaljerede data til alle brugere. Det er også et centralt krav, at den skal sikre statistisk fortrolighed, herunder beskyttelse af dataleverandørernes identitet. Kravene fremgår bla. af EU’s Adfærdskodeks for Europæiske Statistikker. De to krav kan stride imod hinanden, så ved offentliggørelse må der foretages en afvejning af de to krav. I praksis har man hidtil løst problemet ved simple metoder, som at undlade offentliggørelse af celler i tabeller, hvis cellen kun omfatter meget få enheder, eller ved at anonymisere mikrodata, før de stilles til rådighed for forskere.

De simple metoder har været anset for tilstrækkelige, fordi det er blevet betragtet som utænkeligt, at nogen ville forsøge at udlede beskyttede data fra statistikkerene ved at kombinere forskellige opgørelser fra den samme kilde. Ikke fordi det i princippet var umuligt, men fordi det ville kræve så omfattende ressourcer, bl.a.  i form af computerkraft, at ingen ville finde det umagen værd.

Det er ikke nødvendigvis tilfældet længere. Computerkraft er blevet billigere og blandt producenter af statistik har den erkendelse bredt sig, at der nu er en seriøs risiko for alvorlige angreb på statistikkernes fortrolighedsbeskyttelse. Det har skærpet bevistheden om afvejningsproblemet, for man har også erkendt, at fuld beskyttelse af fortroligheden kan kun opnås ved helt at undlade offentliggørelse. Derfor er den  eneste praktiske mulighed, at man på forhånd gør sig overvejelser om, hvor stor en risiko for brud på fortroligheden, man vil acceptere, og efterfølgende indretter sin publiceringspolitik på det grundlag.

En metode til at beskyttelse af fortroligheden er at gå på kompromis med præcisionen i opgørelserne. I stedet for at offentliggøre det tal der faktisk fremgår af de statistiske opgørelser, så offentliggøres et lidt afvigende tal. Er det korrekte tal f.eks 1, kan man vælge at offentliggøre 0 eller 2 i stedet. Den tekniske betegnelse for fremgangsmåden er at indlægge støj i resultaterne. Brugeren vil stadig få en brugbar indikation af størrelsesordenen samtidig med, at det bliver vanskeligere at gennemføre et vellykket angreb på fortrolighedsbeskyttelsen.   

Differential privacy er en egenskab ved en matematisk teknik, der gør det muligt, at fastlægge hvor meget støj, der skal implementeres i forbindelse med offentliggørelsen, for at sikre et givet niveau af fortrolighedsbeskyttelse. Før offentliggørelsen påbegyndes fastlægges et såkaldt fortrolighedsbudget, der er et mål for, hvor meget og hvor detaljeret der kan offentliggøres. Differential privacy leverer redskaberne til at opgøre budgettet, når beskyttelsesniveauet er fastlagt. Fastlæggelsen af hvilket beskyttelsesniveau, man vil acceptere,  kan differentiel privacy-metoderne derimod ikke bidrage til. Det er og bliver et  politisk spørgsmål.   

Når fortrolighedsbudgettet er fastlagt, skal det afgøres, hvilke tabeller der skal offentliggøres. Hver tabel, der offentliggøres, trækker på budgettet, så det skal nøje overvejes, hvilke tabeller man vil vælge at offentliggøre. Enhver offentliggørelse belaster budgettet, således at der blive mindre til rådighed for andre offentliggørelser. Og budgettet lægger naturligvis en øvre grænse for, hvor meget der i alt kan offentliggøres.

USA’s folketællingsbureau har besluttet, at differentiel privacy skal være grundlaget for fortrolighedspolitikken i forbindelse med den næste folketælling der finder sted i 2020. Forberedelserne har givet anledning til en række erfaringer og overvejelser om, hvordan anvendelse af differentiel privacy i officiel statistik på en række områder vil ændre den måde hvorpå statistikken opfattes og anvendes. Disse erfaringer og overvejelser vil jeg vende tilbage til i et senere indlæg.

Referencer:
Eurostat:
“Adfærdskodeks for Europæiske Statistikker”, Eurostat 2017 (link)
Hector Page, Charlie Cabot & Kobbi Nissim,: Differential privacy: an introduction for statistical agencies,  Privatar 2018 (link)


Befolkningsstatistik på grundlag af Google Street View

28/03/2017          Taleboble Kommentarer

Med specielle kameraer monteret på biler, rygsække, små vogne (trolleys), snescootere og trehjulede cykler har Google gennemfotograferet store dele af verden. En gruppe amerikanske forskere er nu kommet på den ide, at anvende det omfattende fotomateriale til at estimere socioøkonomiske og demografiske størrelser som alder, køn, race , uddannelse, beskæftigelse (Timnit Gebru, Jonathan Krause, YilunWang, Duyun Chen, Jia Deng, Erez Lieberman Aiden og Li Fei-Fei: Fine-Grained Car Detection for Visual Census Estimation). Også politiske præferencer inddrager de i eksperimentet. Fremgangsmåden har to store fordele. Den er væsentligt billigere end traditionel dataindsamling, og resultaterne kan foreligge langt hurtigere.

Metoden går dog ikke ud på direkte at analysere de personer, der forekommer på billederne. I stedet analyseres de biler, der kan ses på billederne, og udfra mærke og årgang mv.  på de biler, der kan identificeres i et givet geografisk område, drages konklusioner om områdets demografiske og socioøkonomiske kendetegn. Om årsagen til den indirekte fremgangsmåde er hensyn til beskyttelse af privatlivet, eller metodiske overvejelser skal være usagt, men det er oplagt, at de etiske aspekter omkring metoden også kræver opmærksomhed. Dem vil jeg dog ikke komme nærmere ind på i dette indlæg, men fokusere på metoden og dens resultater.

Udgangspunktet for eksperimentet er 50 millioner af Googles gadebilleder fra 200 amerikanske byer. Ved anvendelse af avanceret computerteknologi (deep learning computer vision) blev der på billederne fundet 22 millioner biler, og for hver bil blev mærke, model og årgang (2.657 kategorier) bestemt. Bilobservationerne for 35 af de 200 byer blev sammen med data fra folketællinger og præsidentvalg brugt til at estimere en sammenhæng mellem sammensætningen på de de 2.657 bilkategorier og en række socioøkonomiske og demografiske variable.  F.eks. ser det ud til, at asiater foretrækker asiatiske biler (Honda og Toyota), at sorte foretrækker Chrysler, Buick og Oldsmobile, og at hvide foretrækker VolksWagen og Aston Martin. Der ser også ud til at være en sammenhæng mellem politiske præferencer og valg af bil. Demokrater foretrækker tilsyneladende biler af sedan-typen, hvor republikanere i højere grad vælger pickup trucks.

Estimaterne af sammenhængende fra de 35 byer blev herefter anvendt til i resten af de 200 byer at estimere befolkningens sammensætning på socioøkonomiske og demografiske grupper ud fra bilparkens sammensætning. Disse estimater blev så holdt op imod folketællingens og præsidentvalgets resultater. Overensstemmelsen var overraskende god.

Metoden kan ikke helt erstatte traditionel dataindsamling. Traditionelle statistiske data er bla. nødvendige for at estimere den sammenhæng mellem bilparkens sammensætning og de demografiske og sociale variable, der er metodens fundament. Men hvis pålideligheden af de foreløbige resultater bekræftes, kan metoden bidrage til både hurtigere og billigere statistikker.