Kategori: Produktion og metode
Digitale data som alternativ til spørgeskemaer: Trusted Smart Surveys
21/03/2023
Kommentarer
Spørgeskemaer på papir som grundlag for statistiske undersøgelser er vel ikke helt forsvundet, men det typiske i dag er nok at skemaerne udfyldes på en computer eller mobiltelefon. Herfra er vejen ikke lang til at erstatte nogle af spørgsmålene med automatiske registreringer fra mobiltelefonens indbyggede sensorer, f.eks. tidspunkt, geografisk lokation og temperatur. Undersøgelser, der anvender mobiltelefoner til at kombinere traditionelle spørgsmål med automatiske registreringer har fået betegnelsen smart surveys. De automatisk indsamlede data er eksempler på organiske data (se tidl indlæg). De officielle statistikproducenter har for længst set, at de kan spille en rolle som garanter for at undersøgelser baseret på organiske data opfylder fundamentale krav omkring kvalitet og fortrolighed (se tidl indlæg). Sådanne garanterede undersøgelser betegnes trusted smart statistics. Når disse garantier implementeres på smart surveys får man trusted smart surveys.
Indenfor rammerne af det europæiske statistiksamarbejde har en række landes officielle statistikbureauer — Danmark er ikke iblandt dem — etableret et projekt (ESSnet Smart Surveys Project), med det formål at etablere en fælles europæisk platform for anvendelse af trusted smart surveys. I en artikel i det tyske statistikbureaus tidsskrift — Wista — har Shari Stehrenberg og Johannes Volk givet et overblik over status for dette projekt.
Projektet er opdelt i tre parallelle såkaldte arbejdspakker (work packages):
- Kommunikation og koordinering
- Udvikling og udførelse af pilotprojekter
- Konceptuel ramme for platformen
Fire pilotprojekter med temaerne forbrug, tidsanvendelse, sundhed og levevilkår blev udvalgt. Alle fire projekter knyttede sig til eksisterende europæiske statistikker. Udover arbejdspakkerne blev der under projektets forløb dannet arbejdsgrupper med henblik på at sammenknytte punkterne 2 og 3. Stehrenberg og Volk fokuserer i deres artikel på arbejdsgruppen om retslige og etiske spørgsmål. Denne arbejdsgruppe blev oprettet fordi det viste sig, at de deltagende lande dels fortolkede de gældende europæiske databestyttelsesregler forskelligt og dels havde forskellige nationale regler at forholde sig til. Projektet blev afsluttet med en workshop i maj 2022.
Smart Surveys Projektet var et første skridt på vejen til en fælleseuropæisk platform. Arbejdet fortsættes i et nyt projekt under overskriften Smart Survey Implementation. De første resultater fra dette projekt forventes i sommeren 2024.
Referencer:
Shari Stehrenberg, Johannes Volk: “Trusted Smart Surveys: Fragebogen trift Neue digitale Daten”, Wista 2023 nr 1, Statistisches Bundesamt (link 19/3-2023)
Destatis/Eurostat: “Minutes – Finale Conference Smart Surveys”, Maj 2022 (link 19/3-2023)
Opdatering af statistikkens branchegruppering
07/03/2023
Kommentarer
Produktion af varer og tjenester er en grundlæggende økonomisk aktivitet. I den officielle statistiks optik foregår produktion på et arbejdssted, der f.eks. kan være en bankfilial, et slagteri, en restaurant eller en butik. Arbejdssteder fordeles på brancher efter arten af deres produktion, f.eks landbrug, industri eller handel. Branchefordelingen er central ikke blot i produktionsstatistik, men også i en række andre statistikområder som f.eks beskæftigelsesstatistik, regnskabsstatistik og nationalregnskab.
Naturligvis er de overordnede regler for en så central fordeling fastlagt i internationale retningslinier. På verdensplan har FN fastlagt retningslinier, der går under betegnelsen ISIC (International Standard Industrial Classification). ISIC er en ret summarisk klassifikation, egnet til verdensomspændende internationale sammenligninger, men de enkelte lande har behov for mere detaljerede opdelinger, tilpasset deres særlige forhold. Ved at opbygge de nationale brancheklassifikationer som underopdelinger af ISIC opnår man, at både behovet for internationale sammenligninger og landenes individuelle behov kan opfyldes.
EU har etableret en fælles en underopdeling af ISIC — NACE (Nomenclature générale des Activités économiques dans les Communautés Européennes) — der skal opfylde EU-statistikkens behov. ISIC omfatter ca. 290 brancher, hvor NACE omfatter ca. 480. De enkelte medlemslande kan yderligere underopdele NACE for at opfylde nationale behov. Danmarks Statistiks underopdeling af NACE — DB07 (Dansk Branchekode 2007) — omfatter ca. 740 brancher.
I den dynamiske verden opstår hele tiden ny produkter, og gamle produkter forsvinder eller mister betydning. Derfor må brancheklassifikationer jævnligt revideres. Den aktuelle version af NACE (Revision 2) er fra 2008, men EU har besluttet, at den skal erstattes af en ny opdateret version (Revision 2.1), baseret på en ny (endnu ikke offentliggjort) version af ISIC (Revision 5). Indfasningen af den nye version af NACE i medlemslandenes indberetninger til Eurostat begynder i januar 2026.
Danmarks Statistik er i fuld gang med forberedelserne af revisionen. En opdateret udgave af Dansk Branchekode — DB25 — vi blive sendt i høring i efteråret 2023. DB25 vil træde i kraft i 2025, således at man er klar til at indberette til Eurostat efter de nye regler fra 1. januar 2026.
Referencer:
FN: “International Standard Industrial Classification of All Economic Activities Revision 4”, 2008” (link, 4/3-2023)
EUR-Lex: “Commission Delegated Regulation (EU) 2023/137 of 10 October 2022 amending Regulation (EC) No 1893/2006 of the European Parliament and of the Council establishing the statistical classification of economic activities NACE Revision 2”, 20/1-2023 (link, 5/3-2023)
Eurostat: “NACE-background”, (link, 5/3-2023)
Eurostat: “NACE Rev. 2 – Statistical classification of economic activities”,(link, 5/3-2023
Ilaria Di Matteo & Claude Macchi: “Update of ISIC Revision and NACE revision”, Dias fra ECE Meeting of the Group of Experts on Business Registers 26 – 29 September 2022, (link, 5/3-2023)
Danmarks Statistik: “DB07 – Dansk Branchekode 2007, revideret december 2015”, (link, 5/3-2023)
Indberetningsbyrden ved spørgeskema- og interviewundersøgelser
07/02/2023
Kommentarer
Et af principperne (nr. 9) i Eurostats adfærdskodeks for europæisk officiel statistik er, at byrden for indberettere til statistik skal begrænses mest muligt. Hensigten, der udtrykkes i adfærdskodekset, er at der skal være et rimeligt forhold mellem brugernes behov og indberetternes byrde. Statistikkernes omfang og detaljeringsgrad skal derfor begrænses til det absolut nødvendige. Princippet er nok mest møntet på dataindsamling, hvor deltagelse er tvungen, men der er god grund til også at overveje indberetningsbyrden ved undersøgelser, hvor deltagelse er frivillig. Det skyldes at størrelsen af byrden påvirker indberetternes motivation både til at deltage og til at svare fyldestgørende på de stillede spørgsmål, og dermed kvaliteten af den færdige statistik. Det er så meget desto vigtigere i lyset af tendensen til at villigheden til at deltage i spørgeskema- og interviewundersøgelser er vigende.
Man har da også i de senere år set en stigende interesse for indberetningsbyrdens betydning for statistikkernes kvalitet. Det afspejler sig i bl.a. i et voksende antal tidsskriftartikler om omfang, årsager og måling af indberetningsbyrden og om sammenhængen mellem byrdens størrelse og statistikkens kvalitet. Ting Yan — vicedirektør i forskningsinstitutionen Westat — og Douglas Williams — seniorforsker i US Bureau of Labor Statistics — har i en artikel søgt at danne et overblik over den viden om området, der i øjeblikket er tilgængelig, og samtidig skabe en begrebsmæssig fælles sammenhæng til erstatning af de forskellige definitioner, indfaldsvinkler og begrebsrammer, der har været anvendt i de mange artikler. Det er samtidig forfatternes tanke, at deres resultater skal være en hjælp til planlæggere af spørgeskema- og interviewundersøgelser i deres bestræbelser på at begrænse indberetningsbyrden.
Ved indberetningsbyrde forstår Yan og Williams de negative følelser og det besvær, der opleves af indberetterne. Indberetningsbyrden er således et subjektivt fænomen, hvis størrelse kan måles ved at spørge respondenterne om deres oplevelser. Udover denne subjektive byrde kan man tale om en objektiv byrde, der f.eks kan måles som spørgeskemaets længde, spørgsmålenes kompleksitet og den tid det vil tage at besvare spørgsmålene. I Yan og Williams optik er fokus på den subjektive byrde, men den objektive byrde kan analytisk tjene som forklarende årsag til den subjektive byrde.
Helt grundlæggende ser Yan og Williams indberetningsbyrden som en dynamisk størrelse, der kan måles på forskellige stadier i indberetningsprocessen. Helt konkret specificerer de byrden i tre centrale tidsrum i det samlede forløb:
- Den initiale byrde: Den subjektive opfattelse af byrden ved modtagelse af anmodningen om at deltage i undersøgelsen.
- Den kumulative byrde: Indberetterens oplevede byrde under forløbet af undersøgelsen og besvarelsen af spørgsmålene..
- Den fortsatte byrde: Den oplevede byrde for indberettere, der anmodes om at deltage i senere runder af undersøgelsen (forekommer kun i longitudinelle undersøgelser)
De tre byrder skal forstås dynamisk, dvs. at de kan ændre sig løbende under undersøgelsesforløbet, i takt med at indberetterne får ny information eller nye erfaringer. Det dynamiske perspektiv er vigtigt fordi byrdens placering i tidsforløbet både har betydning for hvilke konsekvenser der rammer kvaliteten, og hvilke forholdsregler, der kan tages for at begrænse byrden. Den initiale byrde kan føre til at respondenten afviser at deltage, og den kan muligvis afhjælpes bedre præsentation af undersøgelsen og en mere indbydende udformning af spørgeskemaet. Den kumulerede byrde kan føre til at interviewet eller besvarelsen afbrydes eller at spørgsmål springes over eller besvares ufuldstændigt. Afhjælpning kan bl.a. ske gennem bedre udformning af spørgsmålene. Den fortsatte byrde kan få respondenten til at afvise at deltage i senere runder af undersøgelsen og afhænger bl.a. af størrelsen af de to foregående byrder.
Referencer:
Eurostat: “Adfærdskodeks for Europæiske Statistikker”, 2018 (link, 9/1-2023)
Ting Yan og Douglas Williams: “Response Burden – Review and Conceptual Framework”, Journal of Official Statistics, Vol. 38, No. 4, 2022, pp. 939–961 (link, 9/1-2023)
Integration af makro- og mikrostatistik om husholdningenes økonomi
07/06/2022
Kommentarer
Husholdningernes indkomst og forbrug er to centrale størrelse,når husholdningernes økonomiske velfærd skal vurderes. Begge størrelser opgøres i nationalregnskabet, der er et af den officielle statistiks flagskibe, når det gælder opgørelser af høj kvalitet, herunder en høj grad af sammenlignelighed både mellem lande og over tid. Til gengæld opgøres kun tal for husholdningerne samlet, og intet om forskelle mellem typer af husholdninger, f,eks fordeling efter husholdningsindkomstens størrelse. Den slags opgørelser findes i andre dele af den officielle statistik, men her er kvaliteten og navnlig den internationale sammenlignelighed ringere. En fælles OECD-Eurostat ekspertgruppe har i en årrække arbejdet med en bedre integration af disse to statistikområder — gerne betegnet makro- og mikrostatistik — og de har nu udsendt en rapport om de foreløbige resultater.
Projektet har fulgt to forskellige spor. I det ene spor udarbejdede en række af de deltagende lande nationalregnskabsbaserede opgørelser med husholdningsfordelinger på grundlag af nationalt tilgængeligt materiale og efter retningslinjer fastlagt af ekspertgruppen. I det andet spor udarbejdede Eurostat tilsvarende opgørelser på grundlag af eksisterende data indberettet af medlemslandene som led i det løbende statistiksamarbejde. Bindingen til eksisterende materiale indsamlet i andre sammenhænge betyder, at Eurostat centraliserede metode har nogle begrænsninger i forhold til de nationale opgørelser, men til gengæld er en større kreds af lande omfattet.
I tabellen nedenfor er vist nogle resultater fra den nationale danske opgørelse. Husholdningerne er i tabellen opdelt på kvintiler af ækvivaleret indkomst. Første kvintil omfatter den femtedel af husholdningerne med de laveste indkomster og femte kvintil den femtedel med de højeste indkomster. At indkomsten er ækvivaleret betyder, at der er korrigeret for forskelle i husstandsstørrelse og -sammensætning.
Tabel: Husholdningernes samlede indkomster fordelt på kvintiler af ækvivaleret disponibel indkomst. 2015
mia. kr
|
Kvintil | |||||
1. | 2. | 3. | 4. | 5. | Total | |
Løn og virksomhedsoverskud | 75 | 90 | 145 | 254 | 464 | 1.028 |
Lejeværdi af ejerbolig | 7 | 9 | 12 | 19 | 28 | 74 |
Formueindkomst(netto) | -10 | -8 | -9 | -11 | 121 | 83 |
Sociale overførsler | 52 | 97 | 95 | 81 | 85 | 410 |
Andre løbende overførsler (indtægt) | 1 | 1 | 2 | 6 | 32 | 42 |
Indkomst i alt | 125 | 189 | 244 | 349 | 730 | 1.636 |
Skatter og socialsikkringsbidrag | 60 | 69 | 95 | 147 | 268 | 639 |
Andre løbende overførsler (udgift) | 38 | 2 | 2 | 2 | 2 | 45 |
Disponoibel indkomst | 27 | 118 | 148 | 200 | 460 | 953 |
Kilde Eurostat Experimental Statistics
Ikke overraskende viser tabellen, at skatter og socialsikringsbidrag er stigende med stigende indkomst. Mere overraskende er det måske, at husholdningerne med de laveste indkomster har de største betalinger af andre løbende overførsler. Posten omfatter bl.a. gaver og lignende mellem husholdninger. En del af forklaringen kan være, at den laveste indkomstgruppe omfatter mange immigranter, der sender penge til familien i hjemlandet, de såkaldte personlige remitter (se tidl indlæg).
På Eurostats hjemmeside under eksperimentel statistik er resultater fra flere lande, både af de nationale og decentraliserede opgørelser, offentliggjort. Her findes også detaljerede beskrivelser af de anvendte begreber og metoder.
Referencer:
Eurostat: “ExperimentalStatistics: Income and Consumption”, (link 24/5-2022)
Alessandra Coli, Radoslav Istatkov, Hakam Jayyousi, Friderike Oehler, Orestis Tsigkas: “Distributional national account estimates for household income and consumption: methodological issues and experimental results, 2022 edition”, European Union / OECD 2022 (link 24/5-2022)
Tre analyser om segregering fra Danmarks Statistik
03/05/2022
Kommentarer
Tendensen til at befolkningsgrupper med fælles karakteristika bor i geografiske områder adskilt fra grupper med andre karakteristika kaldes segregering. Segregering kan f.eks være baseret på indkomst, uddannelse eller etnicitet. Traditionelt har man belyst graden af segregering i et land ved at sammenligne befolkningssammensætningen i forskellige geografiske områder, feks. kommuner, og undersøgt om særlige grupper, f.eks. bistandsmodtagere eller højtuddannede var over- eller underrepræsenteret i visse kommuner.
En mere direkte måde er at tage udgangspunkt i hver enkelt person og beregne et personligt nabolag f.eks. defineret som den cirkel inden for hvilken 250 af personens nærmeste naboer bor. Uheldigvis er denne metode voldsomt beregningskrævende, men ved en tillempet metode, hvor det analyserede land opdeles i små kvadrater på 100 gang 100 meter, og alle personer inden for et kvadrat behandles som en enhed, kan man opnå anvendelige resultater med en overkommelig beregningsindsats. Danmark Statistik har benyttet denne fremgangsmåde i tre analyser til belysning af hhv. udviklingen i multietniske nabolag, segregering på grundlag af uddannelse og indkomst og befolkningssammensætningen i boligområder, der har været på ghettolisterne. Danmarks Statistiks beregninger er baseret på programmet EquiPop, der oprindeligt er udviklet på Uppsala Universitet af kulturgeografen John Östh.
Analysen af multietniske nabolag belyser udviklingen fra 1990 — hvor indvandrere og efterkommere udgjorde 4 pct. af befolkningen — til 2020, hvor andelen var steget til 11 pct. Det fører — ikke så overraskende — til en stigende udbredelse af multietniske nabolag. F.eks. faldt andelen af befolkningen, der bor i i områder, hvor alle de 50 nærmeste naboer er af dansk oprindelsede, fra 34 pct. i 1990 til 10 pct i 2020. Der er dog store regionale forskelle. I Region Hovedstaden var andelen i 2020 tæt på nul. I de øvrige regioner svingede andelen mellem 10 og 16 pct.
Analysen af uddannelse og indkomst vedrører året 2019. Konklusionen er at der er en klar tilbøjelighed til at personer med høj uddannelse og høj indkomst bor i særlige områder i de store byer — København, Århus Odense og Ålborg.
Analysen af ghettoområderne viser en stigning i andelen af indvandrere og efterkommere i områderne fra 19 pct. i 1990 til 62 pct. i 2017, dvs ca. en tredobling, hvilket svarer nogenlunde til udviklingen i Danmark som helhed (fra 4 til 13 pct). Andelen af personer med en videregående uddannelse voksede i ghettoområderme fra 8 pct. til 21 pct og i Danmark som helhed 19 pct. til 38 pct. Her er altså sket en vis indsnævring af forskellene. Mest markant er udviklingen i andelen af personer med lav indkomst. I 1990 var andelen ca 4 pct. både i ghettoområderne og i landet som helhed. I 2017 var andelen steget til 7 pct. i landet som helhed, men til hele 21 pct. i ghettoområderne.
Referencer:
Marcin Jan Stonawski, Henning Christiansen og Sose Hakhverdyanrcin: “Udviklingen i multinationale nabolag fra 1990 til 2020”, DSTAnalyse 22/3-2022 (link 29/4-2022)
Henning Christiansen, Michael Berg Rasmussen, Emil Habes og Anne Kaag Andersen: “Samler de højtlønnede og højtuddannede sig få steder i byerne?”, DstAnalyse 23/1-2020 (link 29/4-2022)
Marcin Jan Stonawski, Henning Christiansen, Sose Hakhverdyan og Anne Kaag Andersen: “Hvem bor i og omkring 53 boligområder, der har været på ghettolisterne?”, DSTAnalyse 21/6-2021 (link 29/4-2022)
John Östh: “Introducing the EquiPop software an application for the calculation of k-nearest neighbour contexts/neighbourhoods”, (link 29/4-2022)
Web scraping som datakilde for officiel statistik
29/03/2022
Kommentarer
Web scraping er en metode til indsamling af data, hvor programmer udviklet til formålet automatisk opsøger hjemmesider og uddrager information fra dem. Programmerne skal være i stand til at finde den ønskede information i den kode, der frembringer hjemmesiden (HTML-kode) og omforme den, således at den bliver brugbar for videre analyse. For officielle statistikproducenter kan der være mange fordele forbundet med at basere statistik på internettets tilgængelige data. F.eks. kan respondentbyrden begrænses eller helt undgås og dækningen af målpopulationen forbedres, navnlig for internetbaserede aktiviteter som internethandel. Som ved andre anvendelser af organiske data (Big Data) kan dataindsamling ske med høj frekvens, f.eks. dagligt, og hvis produktionsprocessen er automatiseret kan offentliggørelsen af resultaterne ske hurtigt efter analyseperiodens afslutning. Til gengæld kræves investering i etablering af nye produktionssystemer
Det bedst kendte eksempel på anvendelse af webscraping til statistikproduktion er The Billion Prices Project (se tidl. indlæg), der ganske vist ikke er officiel statistik, men som af mange centralbanker anvendes som supplement til — og i nogle tilfælde erstatning for — den officielle statistik. The Billion Prices Project leverer inflationsopgørelser for en række lande langt hurtigere og med langt højere frekvens end den officielle statistik.
Anvendelse af webscaping i den officielle statistik er endnu i en pionerfase. Der er ikke mange konkrete projekter, men der er eksperimenter, overvejelser og forberedelser i gang, både omkring metoder, etik og jura. Et af de institutter, der er langt i forberedelserne er UK’s Office of National Statistics (ONS). ONS har udgivet et notat om retningslinier for anvendelse af web-scraping, hvori det præciseres hvilke juridiske regler der gælder på området, og hvilke etiske principper, der skal gælde for anvendelsen i UK’s officielle statistik. I notatet fremhæves tre grundæggende principper:
- Minimere byrden for ejerne af websiderne
- Respektere ejeres ønsker om begrænsninger i scraping af deres webside (Robots Exclusion Protocol)
- Overholde den på området gældende lovgivning
Minimering af byrden for websideejerne skal bl.a ske ved at begrænse antallet af søgninger på side, undgå søgninger på de tidspunkter, hvor siden er mest anvendt og kun søge på de dele af siden, der er relevante for det konkrete formål.
Referencer:
ONS: “Web Scraping Policy”, ONS 2020 (link)
Olav ten Bosch: “Uses of web scraping for official statistics”, 2016 (link)
Første resultater fra USAs folketælling
31/08/2021
Kommentarer
De første resultater fra USA’s folketælling for 2020 er kommet. I USA er folketællinger et politisk stridspunkt, fordi resultaterne fra dem danner grundlag for fordeling af både medlemmer af de lovgivende forsamlinger og af forbundets økonomiske ydelser til delstaterne. Ofte inddrages domstolene i striden, og folketællingen for 2020 har ikke været nogen undtagelse i den henseende (se indlæg fra 20/10-2020). Senest er kommet et sagsanlæg fra staten Alabama dels vedrørende en udskydelse af offentliggørelsen forårsaget af Covid19-krisen, og dels vedrørende den metode til beskyttelse af den statistiske fortrolighed, som Folketællingsbureauet (Census Bureau) har valgt at anvende. Forsinkelsen af offentliggørelsen har betydet, at Alabama ikke har kunnet overholde en tidsfrist vedrørende fastlæggelsen af valgdistrikster fastsat i statens forfatning. Omkring databeskyttelsen er problemet en frygt for at sløringen af resultaterne kan hindre en fair repræsentation af minoriteter og små geografiske områder. Begge påstande blev afvist af federal distriktsdomstol i en kendelse afsagt 30/6 2021.
Den anvendte databeskyttelsesmetode går under navnet differential privacy og har været beskrevet i to tidligere indlæg i denne blog (23/4-2019 og 14/5-2019). En konsekvens af metoden er, at der indlægges støj i resultaterne, således at de offentliggjorte tal afviger lidt fra de faktisk opgjorte. I de fleste tilfælde er afvigelserne små, navnlig set i forhold til samlede usikkerhed, der altid vil være i en folketællingsstatitsik, men i ekstreme tilfælde kan det for meget små populationer give misvisende og i nogle tilfælde meningsløse resultater.
I en erklæring til distriktsdomstolen har John M. Abowd, der er vicedirektør (associate director) for forskning og metode i Folketællingsbureauet, givet en grundig redegørelse for bureauets overvejelser omkring beslutningen om at anvende differential privacy. Fundamentalt set er der tale om en afvejning af to hensyn: respondenternes krav om fortrolighed og databeskyttelse på den ene side og brugernes krav om detaljerede og præcise opgørelser på den anden. Valget af differential privacy er truffet ud fra en økonomisk efficiensbetragtning. Empiriske undersøgelser har vist, at man ved anvendelse af differential privacy opnår den mest efficiente afvejning mellem de to hensyn.
Hele offentliggørelsesprocessen er på grund af covid-19 krisen forsinket i forhold til de oprindelige planer, men som nævnt er de første resultater nu udkommet. De omfatter en foreløbig opgørelse til brug for fastlæggelsen af valgdistrikter. De endelige og mere detaljerede distriktsdata udkommer den 30. september. Folketællingsbureauet oplyser, at de øvrige opgørelser, herunder detaljeret befolknings- og husholdningsstatistik, følger senere, men har ikke oplyst datoer. Kun opfordret til at holde sig orienteret på deres hjemmeside.
Referencer:
John M. Abowd: “Declaration of John M. Abowd” (til US District Court for the Middle District of Alabama), 13/4-2021 (link)
Alle lyver! — Internettet som sandhedsserum?
17/08/2021
Kommentarer
Statistikproducenter og -brugere har altid vidst, at manglende ærlighed hos respondenterne omkring kontroversielle og/eller sensitive emner kan give alvorlige skævheder i den færdige statistik. F.eks. må man regne med, at forbruget af tobak, alkohol og bordelbesøg kan være undervurderet i forbrugsundersøgelser, at tid anvendt på motion og avislæsning kan være overvurderet i tidsanvendelsesstudier og at andelen af negative holdninger til minoriteter kan være undervurderet i holdningsundersøgelser. Brugere af statistikken er naturligvis opmærksomme på disse skævheder, og kan tage dem i betragtning i forbindelse med analyser, men det grundlæggende problem — at skævhederne er der, og at man ikke kender omfanget af dem — har man ingen løsning på. Men det er man måske ved at få. Det er i hvert fald den konklusion Seth Stephens-Davidowitz — forsker i dataanalyse og datajournalist ved New York Times — når frem til i en veloplagt og indholdsmættet bog: Everybody Lies, Big Data, New Data and What the Internet Can Tell Us About Who We Really Are (Stephens-Davidowitz, 2017).
Årsagen til skævhederne er, at respondenterne i de traditionelle statistiske undersøgelser kan have et ønske om at fremstå positivt med socialt anerkendte vaner og holdninger, også selv om de loves fuld annonymitet. Derimod har de kun et svagt eller intet incitament til at sige sandheden. Ved informationssøgning på internettet er det omvendt. Her kan man kun få den information man søger, ved at være ærlig i sine søgetekster. Søger man f.eks. links til racistiske vittigheder er man nødt til at afsløre det i sine søgetekster. Stephens-Davidowitz’s pointe er, at man ved at analysere søgetekster kan få et mere realistisk indblik i udbredelse af kontroversielle holdninger og adfærd end det er muligt i traditionelle undersøgelser. Internettet kan på den måde fungere som sandhedsserum.
Rollen som sandhedsserum er en vigtig side af anvendelsen af søgeord som datakilde, men metoden er også anvendelig på områder, hvor respondenterne ikke har incitamenter til at lyve. Anvendelse af metoden kræver naturligvis, at der udvikles egnede analysemetoder, men den udvikling er i fuld gang, og Stephens-Davidowitz er selv en af de store bidragsydere. Han har bl.a. brugt metoden til undersøgelser af racismes indflydelse på Barack Obamas valgresultater , udbredelsen homoseksualitet, forskelle i opdragelsen af piger og drenge og årsager til depression.
Når vi (og Stephens-Davidowitz) taler om internetsøgning er det oftest Google-søgninger der tænkes på, og det er da også Google-søgninger, der er hovedgrundlaget for Stephens-Davidowitz’s undersøgelser. Og det datagrundlag stiller Google gratis til rådighed for alle i form af Google Trends. Grundlæggende er Google Trends meget simpelt at anvende. Man indtaster et søgeemne eller en søgesætning og får som svar en graf, der viser et indeks for udviklingen i emnets eller sætningens popularitet (andelen af samtlige søgninger) over en periode. Der ligger data tilbage til 2004. Google trends giver ikke baggrundsoplysninger om hvem, der har søgt, bortset fra en geografisk opdeling. En vigtig del af Dawidovitz’s metode består i at sammenholde søgeordsdata fra et geografisk område med data fra andre kilder om samme område.
Davidowitz finder flere styrker ved internettet, som gør det specielt i forhold til mere traditionelle datakilder, men muligheden for at få pålidelige data på sensible områder er den vigtigste. Og den styrke har intet med omfanget af data at gøre, så i den sammenhæng er betegnelsen big data misvisende. I tidligere indlæg (f.eks 19/5-2020 og 11/9-2020) har jeg anvendt den mere sigende betegnelse organiske data, som er foreslået af Robert Groves — tidligere direktør for det amerikanske folketællingsbureau.
Referencer:
Seth Stephens-Davidowitz: “Everybody Lies — Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are”, Harper Collins Publ, 2017
Trafikkameraer som grundlag for statistik
01/12/2020
Kommentarer
Covid19-krisen har rejst en efterspørgsel efter nye typer af statistik, der kan belyse krisens udvikling og effekten af de politiske tiltag, der sættes i værk for at holde den under kontrol. De nationale statistikmyndigheder — herunder Danmarks Statistik (se tidl. indlæg) — har været hurtige til at søge at imødekomme de nye behov ved at udvikle og offentliggøre nye statistikker, ofte af eksperimentel karakter. Det er navnlig statistik om udviklingen i økonomiske forhold — både nationalt og privat — og i befolkningens sundhed og adfærd, der efterspørges.
Et af eksperimenterne går ud på, at anvende trafikovervågningskameraer som grundlag for statistik over den trafikale aktivitet fordelt på fodgængere og forskellige køretøjstyper. Eksperimentet er iværksat af Office for National Statistics (ONS) — UK’s officielle statistikmyndighed — og udviklingsarbejdet er udført på Data Science Campus — en forsknings- og uddannelsesenhed under ONS (se tidl. indlæg). Projektet er næmere beskrevet i et dokumentationsnotat fra Data Science Campus
Udgangspunktet for eksperimentet er, at der i UK findes et meget stort antal trafikovervågningskameraer i drift, som umiddelbart og uden større omkostninger, kan levere et omfattende grundmateriale i form af billeder. Grundlæggende for projektet er anvendelse af programmel, der automatisk kan identificere objekter som biler, busser, cyklister og fodgængere på de mange billeder. En væsentlig del af projektet har derfor været, at sammenligne forskellige systemer til objektidentifikation i bllleder. Valget er faldet på en arkitektur, der går under navnet Faster-RCNN.
Der er stor forskel på antallet af kameraer i forskellige geografiske regioner. Derfor er etablering af et system til aggregering af de regionale data til et samlet skøn for UK i første omgang ikke forsøgt, men det nævnes som et muligt fremtidigt projekt. I stedet præsenteres resultaterne for tre regioner — London, Manchester og Nordirland — hver for sig. For hver region vises dagligt antallet af biler, antallet af busser og det samlede antal af fodgængere og cyklister. Antallet af personer i biler og busser kan ikke opgøres med denne metode. Opgørelserne er tænkt som indikatorer for ændringer i aktiviteten over tid, men er ikke egnede til vurdering af det samlede trafikomfang
Sammenlignet med andre mulige metoder til registrering af trafikstrømme, f,eks.manuel optælling af passerede køretøjer og fodgængere, har kameradata en række fordele. Først og fremmest kan de opgøres med høj frekvens, f.eks. dagligt, og de kan offentliggøres meget hurtigt efter optællingsperiodens afslutning. Dertil kommer, at metoden er billig, bl.a. fordi der er tale om genanvendelse af data indsamlet til andet formål, og at man undgår fortrolighedsproblemer, da kun objekternes type, og ikke deres identitet, registreres.
Naturligvis er der også en række svagheder ved metoden. Bl.a. er valget af opstillingssteder for kameraerne styret af forskellige myndigheders specifikke behov for trafikdata, så de indsamlede data er ikke repræsentative for den samlede trafik. En anden svaghed er, at variationer i vejr og belysning kan påvirke billedets kvalitet, så præcisionen af optællingen kan variere under dataindsamlingen.
Generelt er optælling af fodgængere en af de større udfordringer ved denne type opgørelser. I den forbindelse har covid19-restriktionernes afstandskrav været en hjælp, fordi den større afstand har gjort det nemmere at identificere de enkelte fodgængere. Det er derfor ikke sikkert, at metoden uden videre kan anvendes, når engang restriktionerne lettes.
Dokumentationsnotatet har en række forslag til fremtidige forbedringer af metoden. Ønsket om en aggregeret opgørelse for hel UK er allerede nævnt. Mere generelt ønskes forbedringer af metoden, der kan gøre data mere repræsentative for den samlede trafik.
Referencer:
Alistair Edwardes: “Estimating vehicle and pedestrian activity from town and city traffic cameras”, Data Science Campus (web), September 3, 2020 (link)
Office for National Statistics: “Coronavirus and the latest indicators for the UK economy and society: 12 November”, (link)
Syntetiske data
17/11/2020
Kommentarer
Originale og fabrikerede datasæt
Når der i forbindelse med officiel statistik tales om grunddata, tænkes der normalt på målte og registrerede værdier af en eller flere egenskaber ved et tællingsobjekt. Tællingsobjektet kan f.eks. være en person, og egenskaberne kan være køn og alder. Det er sådanne originale data, der er grundlaget for enhver pålidelig statistik. Den diamentrale modsætning til originale data er fabrikerede data, hvor man — eventuelt ved anvendelse af en tilfældighedsgenerator — danner datasæt, hvor objekterne er fiktive og de værdier der er knyttet til egenskaberne er tilfældige og på ingen måde afspejler virkeligheden. Fabrikerede data kan være nyttige under planlægningen af en statistik. De kan f.eks. gøre det muligt, i et vist omfang at teste programkoder tidligt i udviklingsprocessen, inden dataindsamlingen er sat i værk eller afsluttet.
Syntetiske datasæt
Et sted imellem originale og fabrikerede data finder man de syntetiske data. Her er de værdier der tillægges objekterne nok fabrikeret, men det er tilstræbt, at de fabrikerede værdier i en eller anden forstand afspejler virkeligheden. Objekterne i syntetiske data kan selv være syntetiske, men der kan også være tale om originale objekter, der blot tillægges syntetiske værdier for en eller flere egenskaber. Syntetiske data kan ligesom helt fabrikerede data være nyttige i forbindelse med aftestning af programkoder, men kan i nogle tilfælde også anvendes i forbindelse med aftestning af analyse- og målingsmetoder. Den ultimative anvendelse af syntetiske data er til forbedring (berigelse) af et originalt datasæt.
ONS — UK’s nationale statistikmyndighed — har i et arbejdspapir foreslået en klassifikation af syntetiske datasæt ( se oversigten nedenfor), der rangordner dem efter analytisk værdi og risiko for fortrolighedsbrud.. De to rangordninger er identiske — jo større analytisk værdi, jo større risiko for fortrolighedsbrud.
ONS’s rangordning af syntetiske datasæt
Type | Analytisk værdi | Risiko for fortrolighedsbrud | Typisk anvendelse | |
Ordinære syntetiske datasæt | Strukturel | Ingen | Ingen | Grundlæggende testning af programkode |
Validt | Ingen | Minimal | Avanceret testning af programkode | |
Udvidede syntetiske datasæt | Univariabelt Plausibelt | Minimal | Betydelig | Udvidet testning af programkode |
Multivariabelt plausibelt | Nogen | Høj | Uddannelse og eksperimentel testning af metoder | |
Mutivariabelt detaljeret | Nogen | Meget høj | ||
Replikeret (beriget) | Høj | Ekstrem | Erstatter originalt datasæt |
Kilde: Office for National Statistics: “Synthetic data pilot”
Ordinære syntetiske datasæt
I ordinære syntetiske datasæt er variabelnavne og variabelformater (f.eks. tekst eller heltal) identiske med det originale datasæt. I strukturelle datasæt forekommer forekommer kun værdier af variablene, der også forekommer i det originale datasæt, men uden hensyn til at kombinationen af værdier for den enkelte datapost kan være umulig eller usandsynlig — f.eks gravide mænd eller gifte personer under to år. I valide datasæt er det derimod tilstræbt, at både værdierne og kombinationerne af værdier ar plausible. Endvidere tilstræbes det i valide datasæt at inddrage manglende værdier og fejl, hvis de forekommer i det originale datasæt.Der gøres derimod intet forsøg på at få fordelingerne af de indgående variable til at ligne det originale datasæt.
Udvidede syntetiske datasæt
I udvidede syntetiske datasæt går man skridtet videre, således at datasættet ikke blot i formel struktur ligner det originale datasæt, men også afspejler dele af indholdet. I univariabelt plausible datasæt tilstræber man, at de marginale fordelinger af variablene er som i de originale data. I multivariabelt plausible datasæt tilstræber man yderligere, at også multivariable fordelinger i et vist omfang afspejler det originale datasæt.
I et replikeret (beriget) datasæt er al information i det originale datasæt bevaret, men yderligere information i form af imputerede data kan være tilføjet. Mangler f.eks. oplysning om en enkelt egenskab for et objekt i det originale datasæt, f.eks. størrelsen af indkomsten for en enkelt husholdning, kan man vælge at erstatte den manglende værdi med værdien fra en anden husholdning, der på de egenskaber, der findes oplysning om — f.eks erhverv, adresse, antal børn og alder på husholdningens medlemmer — ligner den ufuldstændige husholdning. Ved denne fremgangsmåde, kan syntetiske data øge værdien af det originale datasæt.
Referencer:
Office for National Statistics: “Synthetic data pilot”, ONS methodology working paper series number 16, januar 2019 (link)
Nowcasting
03/11/2020
Kommentarer
Aktualitet og pålidelighed er to af hovedkravene til den officielle statistik. Uheldigvis er de to krav konkurrerende. Pålidelig statistik tager tid at producere, så brugere af hurtig statistik må acceptere, at aktualiteten kommer på bekostning af pålideligheden. Traditionelt har statistikproducenter søgt at tilgodese begge behov ved at producere to typer statistik: en konjunkturstatistik, der lægger hovedvægten på aktualitet, og en strukturstatistik, hvor pålidelighed vægtes højt. De to kategorier er dog normalt tæt forbundet, forstået på den måde, at en solid strukturstatistik er det vigtigste grundlag for en anvendelig konjunkturstatistik.
Men specielt blandt beslutningstagerne i den økonomiske politik er der et stort ønske om hurtigere data end konjunkturstatistikken kan levere. Det har ført til bestræbelser på at kombinere konjunkturstatistikkens traditionelle metoder med redskaber, der ellers betragtes som for usikre til at kunne indgå i en statistisk opgørelse. Ofte er der tale om redskaber, der er udviklet til udarbejdelse af prognoser (forecasting). Derfor kaldes metoden for nowcasting.
I den økonomiske statistik er bruttonationalproduktet (BNP) den mest efterspurgte opgørelse, og det er derfor hurtige opgørelser af denne størrelse, der navnlig har være i fokus. BNP er en del af nationalregnskabet og Danmarks Statistik leverer sin første version af det kvartalsvise nationalregnskabet 60 dage efter kvartalets udløb, men allerede efter 45 dage offentliggøres den såkaldte BNP-indikator. BNP-indikatoren er et skøn udelukkende for udviklingen i samlet BNP (og beskæftigelse), uden nationalregnskabets detaljerede opgørelser. Indikatoreren er delvis baseret på now-casting metoder.
Covid-19 krisen har øget interessen for hurtige skøn over den økonomiske udvikling, og Nationalbanken har i den forbindelse påbegyndt offentliggørelse af løbende (ugentlige) skøn over væksten i det løbende kvartal. Uge for uge i det løbende kvartal — og i de første uger efter kvartalets udløb — offentliggøres et opdateret skøn for BNP-væksten. Eller rettere to skøn, for banken arbejder med to forskellige modeller. Den ene model — realtidsmodellen — der er baseret på en model fra New York Federal Reserve, benytter et omfattende datasæt til beregning af skønnet. En vigtig egenskab ved denne model er, at den leverer information om, hvor meget de enkelte kilder, f.eks. importstatistikken og ledighedsstatistiken, har bidraget til resultaterne Den anden model — vendepunktsmodellen — er baseret på et samarbejde med Den Europæiske Centralbank, og benytter et mindre datasæt. En vigtig egenskab ved den model er, at den leverer en sandsynlighedsfordeling for de mulige vækstrater.
Nationalbanken lægger vægt på, at modellerne er en metode til at illustrere den information om udviklingen, der kan ligge i de valgte nøgletal, men er ikke et udtryk for bankens forventninger til udviklingen. I bankens samlede skøn og vurderinger om den økonomiske udvikling indgår modellerne kun som del af et større informationsgrundlag.
Referencer:
Danmarks Nationalbank: “Nye værktøjer til vurdering af økonomien”, Nyt – Danmarks Nationalbank 1/6 2020, nr.6 (link)
Danmarks Nationalbank: “Nowcastmodeller”, web-side (link)
Danmarks Statistik: “BNP-indikator 2.kvt 2020″,Nyt fra Danmarks Statistik”, 14. august 2020 – Nr. 307 (link)
Danmarks Statistik: “Dokumentation af BNP-indikator”, November 2016, (link)
Designede contra organiske data
19/05/2020
Kommentarer
Det er oplagt, at en producent af officiel statistik foretrækker at have fuld kontrol over planlægningen, etableringen og gennemførelsen af en statistik. Hvis producenten kan fastlægge definitionen af begreberne, definere populationen, beslutte udvælgelses- og dataindsamlingsmetode, og vælge metoder og procedurer for efterbehandlingen af de indsamlede data, har man alle forudsætninger for at opbygge en statistik af høj kvalitet. Data indsamlet og bearbejdet under dataindsamlerens fulde kontrol kaldes designede data.
De officielle statistikproducenters muligheder for basere en statistik på egne designede data begrænses dels af de ressourcer, der er til rådighed, og dels af respondenternes villighed til at medvirke. På begge områder er den officielle statistikproduktion undet pres. Anvendelse af administrative data som grundlag for statistik er en vej ud af disse begrænsninger. Administrative data er indsamlet af en offentlige myndighed, f.eks. skattevæsenet, til brug for egne ikke-statistiske formål, men de kan ofte bearbejdes til statistisk brug. Udgifterne til dataindsamlingen er allerede afholdt, og problemerne med respondenterne eventuelle modvilje er allerede håndteret, så statistikmyndigheden kan koncentrere sig om efterbehandlingen. Bearbejningen af administrative data til statistiske formål er ikke en triviel opgave, men dog væsentlig mindre ressourcekrævende end etableringen af en egentlig statistisk dataindsamling. Der er stadig tale om designede data, men de er designet til et andet formål end statistik, og statistikmyndigheden har ikke kontrol over defintioner og populationsafgrænsning. I praksis har det dog vist sig at fordelene ved administrative data ofte opvejer ulemperne og at det er muligt at anvende dem som grundlag for fremstilling af statistik af høj kvalitet.
Designede data udgør den absolut dominerende del af den officielle statistiks grundlag, og vil forstsat gøre det, i hvert fald indenfor en overskuelig fremtid. Men en anden type data — organiske data — der ikke er dannet som led i en planlagt og systematisk dataindsamling, er begyndt at dukke op som supplerende kilde. Det vil typisk være data, der opstår i forbindelse med anvendelse af informationsteknologi, f.eks ved transaktioner, der involverer stregkoder eller ved anvendelse af mobiltelefoner. Disse data er tæt knyttet til de aktiviteter, der frembringer dem, og populationsafgrænsningen er sjældent i overesstemmelse med statistikkens krav. Til gengæld kan de være fuldstændigt dækkende og meget pålidelige for det (begrænsende) område de omfatter, de kan være meget omfattende og de er af natur i digital form og således umiddelbart tilgængelige for automatisk behandling.
Betegnelserne designede data og organiske data er foreslået af Robert Groves — en tidligere direktør for det amerikanske folketællingsbureau — i et blog-indlæg i 2011. Hans udgangspunkt var, at organiske data udgør en stor og hastigt voksende del af verdens samlede datamængde, og at de er forholdsvis let tilgængelige. Det gør det oplagt for folketællingsbureaet og andre officielle statistikproducenter at inddrage dem som kilder. Groves forestillede sig ikke, at organiske data ville fortrænge deignede data som kilde, men han så en kombination af designede og organiske data som fremtidens kilde for officiel statistik. Og foreløbigt tyder meget på, at det er den vej, det går. De officielle statistikproducenter er meget opmærksomme på mulighederne for at anvende organiske data i statistikproduktionen, ofte under overskriften Big Data. Danmarks statistik anvender f.eks. stregkodedata fra detailhandelen som en supplerende kilde ved opgørelsen af forbrugerprisindekset, og har iværksat et eksperiment, hvor positionsdata for skibe anvendes som grundlag for en statistik om aktivitet i havnene. Mulighederne er store, men der er også behov for at indvinde mere viden og erfaring, før organiske data for alvor kan komme til deres ret som en betydningsfuld del af grundlaget for officiel statistik.
Referencer:
Robert Groves: “Designed Data and Organic Data”, United States Census Bureu 31/5-2011 (link)
Ronberto Ribigon: “Big Data and Measurement: From Inflation to Discrimination”, RBI Bulletin, Reserve Bank of India, 11. sept. 2018 (link)
Alternativ inflationsmåling – Web scraping og The Billion Prices Project
19/11/2019
Kommentarer
Det traditionelle datagrundlag for måling af inflation er indsamlede prisoplysninger for et udvalg af produkter i udvalgte butikker. En kort beskrivelse af metoden findes i et tidligere indlæg. En alternativ metode, hvor priserne indsamles fra forhandlernes hjemmesider er under udvikling. Projektet er døbt The Billion Prices Project (BPP), og er bl.a. beskrevet i en artikel af de to forskere, der tår bag projektet, Alberto Cavallo and Roberto Rigobon. Starten på projektet var et forsøg på at skabe et alternativt inflationsmål for Argentina, hvor regeringen i perioden 2007-2016 manipulerede inflationsopgørelsen med henblik på et skjule inflationens sande størrelse. Senere blev forsøget udvidet til at omfatte flere lande, bl.a. Australien, Brasilien, Canada, Japan, Kina, Tyskland, Sydafrika, UK og USA.
Adgang til data skal købes. Et kommercielt foretagende — PriceStats — står for beregningerne, og data sælges gennem et finansielt rådgivningsfirma — State Street. PriceStat producerer daglige inflationstal for mere end tyve lande. BPP opfylder ikke kriterierne for officiel statistik, men de metoder, der anvendes i projektet, er interessante, og kan naturligvis også være en inspirationskilde for den officielle statistik.
Det tilstræbes i BPP, at de indsamlede priser er repræsentative for hele detailhandelen, og derfor udvælges kun forhandlere, der både er aktive på nettet og i fysiske butikker. Et fortagende som Amazon, der ikke har fysiske butikker, indgår derfor ikke. Indsamlingen sker ved anvendelse af såkaldte scraping værktøjer, der automatisk opsøger hjemmesiderne for de valgte leverandører og finder de ønskede prisoplysninger (web-scraping).
BPP-metoden har en række fordele, som gør den interessant også for officielle statistikinstitutter og deres brugere. Først og fremmest er metoden billig, fordi den ikke kræver manuel dataindsamling. Desuden kan den uden større ekstraomkostninger levere data med høj frekvens, f.eks dagligt, hvor traditionelle prisdata normalt offentliggøres månedligt. Endelig kan resultaterne leveres med meget kort forsinkelse i forhold til traditionelle prisstatistikker. Bedre muligheder for kvalitetskorrektion og for internationale sammenligninger indgår også blandt fordelene.
Men naturligvis har metoden også ulemper. En af dem er, at ikke alle produkter sælges i net-butikker, hvilket kan give problemer med repræsentativiteten. Specielt tjenesteydelser vil være stærkt underrepræsenterede ved BPP-metoden.
Albert Cavello har for en række lande sammenlignet inflationsopgørelser baseret på BPP-metoden med traditionelle inflationsopgørelser (link). Han konkluderer, at der er god overensstemmelse, navnlig for de økonomisk mest udviklede lande. Der kan derfor være gevinster at hente for de officielle statistikinstitutioner, både på omkostninger og kvalitet, ved anvendelse af BBP-metoden, i hvert fald som supplement til de traditionelle metoder.
Referencer:
Alberto Cavallo and Roberto Rigobon: “The Billion Prices Project: Using Online Prices for Measurement and Research”, Journal of Economic Perspective 2016 vol 30 no 2 (link)
Alberto Cavallo: “Are Online and Offline Prices Similar? Evidence from Large Multi-Channel Retailers”, American Economic Review 2017, 107(1): 283–303 (link)
The Billion Proces Project: Hjemmeside, (link)
PriceStats: Hjemmeside (link)
Trusted Smart Statistics
17/09/2019
Kommentarer
Et nationalt statistikinstitut, som f.eks. Danmarks Statistik, indsamler og bearbejder data, og offentliggør de bearbejdede data i form af statistik. Kontrollen med både indsamlingen og bearbejdningen er en hjørnesten i institutternes bestræbelser på at opbygge tillid hos brugerne. Garantien for anvendelse af anerkendte metoder og for åbenhed om både metoder og prioritering bygger bl.a. på, at institutterne har fuld kontrol over hele processen. Denne kontrol over data kan fungere så længe indsamling af data er kostbar og ofte afhængig af lovhjemmel, f.eks. i form af krav om at virksomheder skal besvare statistikinstituttes spørgeskemaer. Men den teknologiske udvikling har medført, at de traditionelt indsamlede datas rolle er blevet mindre. Til gengæld er de data, der mere eller mindre automatisk opstår i forbindelse med f.eks. nethandel, aktivitet på sociale medier og overvågning af trafiksikkerhed — de såkaldte organiske data — blevet meget omfangsrige.
I modsætning til de indsamlede data, der ofte ejes og kontrolleres af officielle statistikinstitutter, så er de organiske data ofte ejet og kontrolleret af private virksomheder som Google, Nets og teleselskaberne. De private ejere er meget bevidste om værdien af deres organiske data og udnytter dem i høj grad forretningsmæssigt. Men de organiske data rummer også megen information, der kan være af samme almene interesse som den traditionelle officielle statistik, og de giver i mange tilfælde muligheder for billigere og/eller bedre statistik, end de traditionelle metoder. Der kan også ligge store muligheder i kombination af et organisk datasæt med traditionelle datasæt eller med andre organiske datasæt. De private ejere vil sjældent have økonomisk interesse i udnyttelse af disse muligheder, og hvis de har, så vil databeskyttelseslovgivningen oftest forhindre det.
Men der er intet i vejen for, at de nationale statistikinstitutter kan udnytte disse muligheder, selv om der naturligvis er en række etiske spørgsmål om omfang af og grænser for anvendelsen, som skal være afklaret. Faktisk har institutterne taget hul på sådanne anvendelser. For Danmarks Statistiks vedkommende kan nævnes anvendelse af stregkodedata i forbrugerprisindekset.
I Eurostat, EU’s officielle statitstikinstitut, er man meget opmærksom på de nye muligheder og på den rolle statistikinstitutterne kan komme til at spille. Som samlet betegnelse for disse processer og deres resultater har Eurostat introduceret begrebet Trusted Smart Statistics(TSS).
Et centralt træk i TSS er at ejerskabet til data ikke længere ligger hos statistikinstituttet, men instituttet kan gennem kontrol med og ejerskab af de redskaber i form af programmel, der anvendes ved bearbejdningen, sikre kvalitet og åbenhed. Da de organiske data kan have en langt større detaljeringsgrad end traditionelt indsamlede data, kan det være en del af datasikkerheden, at ejerskab og kontrol er fordelt på mange aktører. Det bliver så de officielle statistikintitutters opgave gennem TSS at opbygge systemer og redskaber, der gør forsvarlig og pålidelig anvendelse mulig.
Referencer:
CROS: “Trusted Smart Statistics in a nutshell”, (link)
Fabio Ricciato & Albrecht Wirthmann: “Trusted Smart Statistics: how new data will change official statistics”, 20/5-2019 DOI:10.5281/zenodo.3066061 (link)
Eurostats koncernregister
20/08/2019
Kommentarer
Erhvervsregistre spiller en central rolle for den økonomiske statistik i alle EU-landene. Et lands erhvervsregister indeholder en række centrale oplyser som adresse, branche antal ansatte og virksomhedsform for alle virksomheder, der er registreret i landet. For statistikmyndighederne tjener erhvervsregistrene først og fremmest som lister over de virksomheder, der skal indberette til statistikkerne, enten ved totaltællinger, hvor alle virksomher skal indberette, eller ved stikprøveundersøgelser, hvor registet tjener som den ramme, hvorfra stikprøven trækkes. Det danske erhvervsregister kaldes det Centrale Virksomhedsregister (CVR) og føres af Erhvervsstyrelsen. Det anvendes af mange offentlige myndigheder, ikke mindst Danmarks Statistik, men alle har gratis adgang til registrets data.
For multinationale koncerner, vil det nationale erhvervsregister normalt kun indeholde oplysninger om kocernens aktivitet i indenlandske enheder, men ikke i filialer, datterselskaber og eventuelt hovedselskab i udlandet. Det betyder, at ingen nationale myndigheder har fuldt overblik over en multinational koncerns aktiviteter, og der er ingen garanti for konsistens i koncernens indberetninger til forskellige landes myndigheder. Det vanskeliggør opbygning af statistikker, der afspejler globaliseringen. Som svar på den udfordring har Eurostat opbygget et fælleseuropæisk koncernregister: EuroGroups Register eller ERG.
ERG omfatter multinationale koncerner, der har aktivitet i mindst et af EU’s eller EFTA’s medlemslande. Registret kan benyttes af landenes statistikmyndigheder og centralbanker, men der er ikke offentlig adgang til registret.
Hovedkilden til ERG er erhvervsregistrene i de deltagende lande, suppleret med data fra en kommerciel dataudbyder. Eurostat vurderer og konsoliderer kildedata, således at resultatet bliver et konsistent register, der giver et samlet overblik over hver multinational koncerns aktivitet.
Registret er under opbygning, og kvaliteten er endnu ikke er helt tilfredsstillende. Eurostat har dog fundet det forsvarligt, at udarbejde en eksperimentel rapport om multinationale koncerner i EU. Rapporten beskriver bl.a koncernernes antal, beskæftigelse, kompleksitet (aktivitet i flere brancher) og geografiske udbredelse.
Referencer:
Erhvervsstyrelsen: “Om CVR – det Centrale Virksomhedsregister” (link)
August Götzfried, Zsolt Völfinger & Agne Bikauskaite: “The EuroGroups Register”, Paper prepared for the 16th Conference of IAOS, 2018 (link)
Eurostat: “Structure of multinational enterprise groups in the EU” (link)
Økonomisk vækst målt gennem lysdata fra satellitbilleder
28/05/2019
Kommentarer
Bruttonationalproduktet (BNP) pr capita er — trods problemer med opgørelse og tolkning — standardmålet ved sammenligning af nationers velstand og økonomiske udvikling. Men opgørelsen kræver et omfattende og pålideligt statistisk system og er ofte behæftet med betydelig usikkerhed, navnlig for mellem- og lavindkomstlande, med svagt udbyggede statistiksystemer. I et arbejdspapir fra IMF har to forskere — Yingyao Hu og Jiaxiong Yao — forsøgt at belyse usikkerheden ved at sammenligne de officielle opgørelser af BNP med den natlige oplysning, de kan måles fra satellitter. Antagelsen er at graden den natlige oplysning afspejler økonomisk aktivitet og formåen, og derfor vil variere i nogenlunde samme takt som BNP.
Hu og Yao ser ikke en opgørelse baseret på satellitdata som et alternativ til den traditionelle BNP-opgørelse. Deres ide er at skaffe viden om den generelle sammenhæng mellem BNP og lysmængde, og bruge denne viden til at konstruere et alternativt, mere præcist, BNP-mål ved at kombinere observationer af lysdata med den officielle BNP-opgørelse.
Metoden virker bedst for lav- og mellemindkomstlande. For højindkomstlande kan lysdata kun bidrage beskedent til en forbedret opgørelse, bl.a. fordi de officielle opgørelse i forvejen er af god kvalitet. Hertil kommer, at sammenhængen mellem lysemission og økonomisk aktivitet er mindre udpræget i højindkomstlande, hvor økonomisk vækst ofte har forbindelse med teknologisk innovation, der ikke genererer så meget lysemission som f.eks. opbygning af fysisk infrastuktur i form af bygninger og veje.
I forbindelse med konflikter og politisk ustabilitet kommer et lands statistiske kapacitet er under pres, fordi dataindsamlingen vanskeliggøres. En statistikproducent, der har vanskeligt ved at indsamle nye data, vil være nødt til at tage udgangspunkt i eksisterende data og søge at fremskrive dem. En sådan fremskrivning vil ofte være konservativ, og tendere mod at undervurdere et fald i BNP. Pålideligheden af satellitdata påvirkes derimod ikke af begivenheder på jorden, så det alternative mål kan i et sådanne tilfælde bidrage til et bedre billede af udviklingen.
Referencer:
Yingyao Hu og Jiaxiong Yao: “Illuminating Economic Growth”, IMF Working Paper WP/19/77, 9. april 2019 (link)
Udfordringer til producenterne af den officielle statistik
30/10/2018
Kommentarer
Vilkårene for indsamling, opgørelse og præsentation af officiel statistik er, som alt andet, i hastig forandring. Udviklingen har i de senere år krævet betydelige tilpasninger af de statistiske myndighededers arbejde, og flere ændringer er i vente. Peter van der Ven — OECD’s nationalregnskabschef — søger i en artikel i Journal of Official Statistiks at skabe et overblik over den hidtidige udvikling og forventningerne til den nærmeste fremtid.
Omkring indsamlingen af data ser van de Ven stigende krav om nedsat respondentbyrde som en af de største udfordringer. Et oplagt svar på den udfordring er anvendelse af administrative registre fra f.eks. skattevæsen og kommuner som grundlag for statistikken. Det har også den fordel, at data fra administrative registre ofte er mere pålidelige end data indsamlet gennem spørgeskemaer. Van de Ven har ikke meget tillid til, at respondenter bruger særlig mange ressourcer på besvarelse af spørgeskemaer fra statistiske myndigheder og frygter at misforståelser og manglende omhu er årsag til ringe kvalitet. Ulempen ved administrative data er, at de sjældent præcist opfylder statistikkens krav med hensyn til begrebsdefinitioner og populationsafgrænsning, og derfor kræver en omfattende efterbehandling. Heldigvis har både omfanget af administrative data og de tekniske muligheder for at udnytte dem været voksende, og den udvikling ser ud til at fortsætte.
Også Big Data tilbyder muligheder for dataindsamling uden respondentbyrde. Der sker allerede nu en vis anvendelse af Big Data i den officielle statistik, men der er er stadig en række problemer, der skal løses, før en mere omfattende og systematisk anvendelse kan komme på tale.
Som allerede nævnt er de tekniske muligheder for databearbejdning øget enormt i de seneste årtier, og den udvikling kan forventes at fortsætte. Det har givet de officielle statistikproducenter bedre muligheder, men det giver også en udfordring. Private virksomheder og andre institutioner nyder nemlig også godt af denne udvikling og er i stigende omfang i stand til selv at producere statistik. Det kan betyde, at de officielle statistikproducenter, der har været vant til monopol, skal forberede sig på konkurrence.
Brugernes forventninger til den statistik, der produceres og offentliggøres er også i udvikling. Bl.a. går kravene i retning af mere detaljeret statistik, bedre sammenlignelighed imellem forskellige statistikker og hurtigere publicering. Nye krav er opstået omkring nye statstikområder som globalisering og bæredygtighed og der er kommet fornyet fokus på mere traditionelle områder som levevilkår og indkomst- og formuefordeling.
Van de Ven afslutter sin artikel med at skitsere nogle tiltag, som han mener vil være nyttige eller nødvendige for at den officielle statistik skal kunne håndtere de mange udfordringer. Hans vigtigste punkt er et forslag om genovervejelse af definitionerne af de grundenheder — f.eks. firmaer, virksomheder og arbejdssteder — der anvendes i statistikken. Specielt opfordrer han til at det overvejes, om det er nødvendigt at forskellige statistikområder afgrænser enhederne forskelligt, eller om det er muligt at nå frem til fælles afgrænsninger.
Referencer:
Peter van de Ven: Economic Statistics: How to Become Lean and Mean, Journal of Official Statistics, Vol. 34, No. 2, 2018, pp. 309–321 (link)
Klassifikation af husstande på grundlag af målinger af el-forbruget
01/05/2018
Kommentarer
Brugere af officiel statistik vil gerne have mere statistik, bedre statistik, hurtigere statistik og billigere statistik. Producenterne vil på deres side gerne imødekomme kravene og arbejder derfor på at udvikle nye metoder og nye kilder, der kan forbedre, fremskynde og effektivisere produktionen. I den forbindelse stilles der store forventninger til statistik baseret på big data (se tidl. indlæg). Endnu anvendes big data kun i beskedent omfang i den officielle statistik, men der er flere eksperimenter i gang. Et af eksperimenterne er et irsk forsøg (Paula Carroll m.fl., 2018) på at anvende data om el-forbrug til klassifikation af husstande f. eks. efter antallet af børn og voksne. De første resultater er ikke særligt lovende, men derfor kan eksperimentet jo godt resultere i nyttig viden, der kan anvendes i den videre udvikling.
I Irland er statistik om sammensætningen af husholdningerne en del af folketællingen. Folketællingerne afholdes kun hvert femte år, er kostbare at gennemføre og har en lang produktionstid. Der er derfor en stor gevinst at hente, hvis husstandssammensætningen kan estimeres ud fra husholdningerns el-forbug. Den fremgangsmåde kan blive mulig, fordi man i Irland planlægger at udstyre husholdningerne med avancerede elmålere, der leverer forbrugsdata til en database. De nye målere indgår i et system, der også omfatter prisoplysninger, og formålet med systemet er dels at effektivisere el-forbrug og el-produktion med henblik på nedbringe udledningen af drivhusgasser og dels at sikre billigst mulig el til forbrugerene. Som en del af forberedelsen af dette projekt har den irske energireguleringskommission (Commision for Energy Regulation) gennemført en stikprøveundersøgelse til belysning af forbrugernes reaktion på de planlagte målere. Det er data fra denne undersøgelse, der er grundlag for husholdningsforsøget. Man forventer naturligvis, at større forbrug indikerer større antal medlemmer af husstanden, men fordelingen af forbruget over døgnet kan måske indikere noget om antallet af f.eks. børn, lønmodtagere og pensionister.
Over 5000 husstande blev udtaget til at deltaget i forsøget. De udtagne husstande fik installeret en af de avancerede el-målere (smart meter) og besvarede nogle spørgsmål før og efter målingerne blev foretaget. Ud over den lavere el-regning, som de nye målere gerne skulle medføre, så fik husholdningerne en kontant præmie på EUR 25 for at deltage. Data om el-forbruget blev indsamlet hver halve time i forsøgsperioden. Det giver en meget stor datamængde pr husholdning. Da tanken på længere sigt er, at data skal indhentes fra alle Irlands over 1,6 mio. husholdninger, bliver der virkelig tale om big data. I husholdningsforsøget indgår stikprøvens data fra perioden juli-december 2009.
Fra husholdningernes besvarelser ligger mange oplysninger om boligforhold og besiddelsen af elektriske apparater, men da disse oplysninger ikke vil vil være til rådighed hvis/når systemet implementeres i hele Irland, så er disse oplysninger ignoreret i forsøget. Kun oplysningerne om husstandenes størrelse og sammensætning er anvendt. Desværre er der kun fuldstænge oplysninger om alderen på husstandsoverhovedet. For øvrige medlemmer af husholdningerne er kun skelnet mellem under 15 år og 15 år og ældre.
Et første resultat af forsøget er — som allerede nævnt — at estimation af fordelingen af husstande på sammensætning alene på grundlag af data om el-forbrug ikke er mulig. Men man håber, at der med tiden kan inddrages flere oplysninger, f.eks. om boligen, og at det kan føre til en mere anvendelig metode.
Referencer:
Paula Carroll, Tadhg Murphy, Michael Hanley, Daniel Dempsey, and John Dunne: Household Classification Using Smart Meter Data, Journal of Official Statistics, Vol. 34, No. 1, 2018, pp. 1–25 (link)
Statistik om deleøkonomi
06/02/2018
Kommentarer
Deleøkonomi, forstået som privatpersoners bytte, køb og salg af varer og tjenester direkte til hinanden, har altid eksisteret. Det har producenterne af den officielle statistik naturligvis også vidst, og har enten søgt at inddrage sådanne aktiviteter i statistikkerne, eller bevidst ignoreret dem, hvis deres omfang lå under bagatelgrænsen. Det nye er, at internettet har åbnet nye muligheder for at organisere deleøkonomien gennem såkaldte platforme, hvor private udbydere og efterspørgere kan komme i forbindelse med hinanden. Den Blå Avis, Uber og AirBnB er kendte eksempler på sådanne platforme.
På den baggrund har både internationale institutioner som EU og OECD og nationale statistikinstitutter, herunder Danmarks Statistik, iværksat undersøgelser af behovet og mulighederne for tilpasninger af statistikken. Danmarks Statistik har samlet sine foreløbige overvejelser i en rapport, der udkom 26 januar. Der eksisterer ikke en generelt accepteret definition på deleøkonomi, så en vigtig del af rapporten består i at belyse de forskellige aspekter af begrebet for at nå frem til en statistisk afgrænsning. Der er endnu et stykke vej til en afklaring, der kan danne grundlag for mere systematiske overvejelser om deløkonomiens plads i den officielle statistik, men som et første skridt opstiller rapporten en foreløbig afgrænsning. Denne foreløbige afgrænsning danner så udgangspunkt for en belysning af deleøkonomiens betydning for de eksisterende statistikker, og en vurdering af mulighederne for bedre belysning i fremtiden.
Kontakten mellem de privatpersoner, der indgår i bytteøkonomiske transaktioner, kan ske gennem mange kanaler, men i den foreløbige definition vælger rapporten kun at inddrage transaktioner, der sker gennem platforme, hvis formål er bytteøkonomisk formidling, og som er drevet af virksomheder. Det kræves også, at virksomhederne modtager en betaling fra de privatpersoner, der bruger tjenesten. Sådanne platforme kan muligvis også anvendes af virksomheder, men det er kun når både modtager og leverandør er privatpersoner, at det betragtes som deleøkonomi. Endelig afgrænser den foreløbige definition området til overnatning, transport og tjenester.
Bortset fra turismestatistikken, hvor manglende dækning af deløkonomien fører til en undervurdering af antallet af overnatninger, så konkluderer rapporten, at deleøkonomien endnu kun har begrænset betydning for de eksisterende statistikker. Men da området er i udvikling, og kan blive af væsentlig betydning i fremtiden, opregner rapporten også en række muligheder, for udvikling af eksisterende statistik og etablering af ny, bl.a. gennem anvendelse af big data (se tidligere indlæg), udnyttelse af administrative data, f.eks. fra skattevæsenet, og etablering af helt nye stikprøveundersøgelser.
Referenser:
Danmarks Statistik: Deleøkonomien -hvordan kan den defineres og måles?, 2018 (link)
Brug af mobiltelefondata i folketællinger
12/12/2017
Kommentarer
Folketællinger er kostbare at gennemføre, især hvis der er tale om den traditionelle type, hvor hver enkelt husholdning opsøges og interviewes (blogindlæg fra 3/2-2016). I UK har man siden 1801 hvert tiende år, med undtagelse af 1941, afholdt en traditionel folketælling, senest i 2011. Den næste folketælling er planlagt til 2021, men den vil næppe blive af den traditionelle type. Office for National Statistics (blogindlæg fra 21/11-2017) har på foranledning af regeringen, der er bekymret over omkostningerne, iværksat en undersøgelse af mulighederne for at anvende andre og billigere fremgangsmåder.
Et af de områder, som folketællingen skal dække, er pendlingen mellem hjem og arbejde. Office for National Statistics her i en rapport undersøgt, om data fra mobiltelefoner kan anvendes som kilde til belysning af dette område. Grundideen er, at hvis man kan man registrere, hvor en mobiltelefon befinder sig om natten og hvor den befinder sig indenfor normal arbejdstid, kan man under visse forudsætninger danne skøn over pendlingstrømme. Registrering af telefonens position under rejsen fra hjem til arbejde kan sige noget om anvendt transportform (vej eller jernbane).
Som et forsøg har man indhentet mobiltelefondata fra tre bydele (boroughs) i London, og søgt at beskrive pendlingmønstre ud fra disse data. En sammenligning af forsøgsresultaterne med pendlingopgørelserne fra den seneste folketælling i 2011 giver grund til en vis optimisme — især for langdistancependling — men viser også, at metoden ikke er uden problemer.
Det er ikke telefonens position, der er registreret i de anvendte data, men hvilken telemast, den er koblet til. Da hver mast dækker et areal af en vis udstrækning, er der grænser for præcisionen af positionsoplysningerne.
En vigtig forudsætning bag metoden er, at den registrerede bruger af telefonen også er den faktiske. I det omfang børn er brugere af telefoner registreret i forældrenes navn, kan børnenes bevægelse mellem hjem til skole fejlagtigt blive tolket som pendling. Sandsynligves bliver voksne studerende også i mange tilfælde fejlagtigt registreret som pendlere.
Fejlregisteringen af skoleelever og studerende er sandsynligvis en vigtig årsag til, at kortdistancependlingen i forsøget ser til ud til at blive overvurderet sammenlignet med resultaterne fra folketællingen i 2011. Til gengæld tyder resultaterne på en undervurdering af langdistancependlingen. En mulig årsag er hertil er, at metoden forudsætter et typisk pendlingmønster. Atypiske mønstre, f.eks. pendling om natten i forbindelse med skifteholdsarbejde registreres ikke.
Skal mobiltetefondata anvendes i forbindelse med folketællingen i 2021 kræves en yderligere udvikling af de metoder, der er anvendt i forsøget. Office for National Statistics ser navnlig to muligheder for forbedring af metoden. Den ene er en bedre indragelse af pendlere med atypiske mønstre, f.eks nattependlere. Den anden er at udvikle algoritmer, der gør det muligt at skelne mellem telefoner anvendt af beskæftigede på arbejdsmarkedet, og telefoner anvendt af andre, f.eks. skoleelever og studerende.
Referencer:
Office for National Statistics: Research Outputs: Using mobile phone data to estimate commuting flow (link)
Måling af ulighed i indkomst
28/11/2017
Kommentarer
Belysning af ulighed i indkomstfordlingen har altid spillet en central rolle i den officielle statistik, og Danmarks Statistik har da også i mange år offentliggjort mål for indkomstuligheden. Den seneste opgørelse vedrører 2016, og blev offentliggjort i statistikbanken/IFOR41 den 13. november. Danmarks Statistik offentliggør fire forskellige mål for uligheden — Gini-koefficient, Maksimal udjævningsprocent, S80/20-målet og P90/10-målet — men der findes mange andre mål, der kunne være anvendt. På tabel IFOR41′ s informationsside i Statistikbanken (statistikbanken/ifor41->information->begreber) findes en kort beskrivelse af de fire mål.
Gini-koefficienten er langt det mest udbredte ulighedsmål, Den antager en værdi mellem 0 og 1 (eller 100, hvis man måler i procent), hvor 0 angiver total lighed, dvs. alle har samme indkomst, og 1 angiver maksimal ulighed, dvs. al indkomst tilfalder én person. Der argumenteres sjældent for, at netop dette mål anvendes, så måske er årsagen til udbredelsen mere tradition end konkrete overvejelser.
I konkrete overvejelser over hvilket ulighedsmål, der bør foretrækkes, indgår typisk følgende fire kriterier:
- Overførsel af indkomst fra en person med højere indkomst til en person med lavere indkomst skal føre til mindre ulighed, med mindre overførslen er så stor, at de to bytter placering i den samlede fordeling.
- Hvis alle indkomster stiger eller falder med samme andel, f.eks. 10 pct. skal den målte ulighed være uændret
- Uligheden må kun afhænge af fordelingen af indkomsten og ikke være påvirket af populationenes størrelse
- Ulighedmålet skal kunne dekomponeres på grupper, feks. aldersgrupper, således at det kan beskrives hvor stor en del af uligheden, der kan tilskrives ulighed indenfor hver af grupperne og hvor stor stor en del, der skyldes forskel mellem grupperne.
Ingen af de mål, Danmarks Statistiks offentliggør, opfylder alle kriterierne. Faktisk opfyldes alle kriterierne kun af en ganske bestemt matematisk afgrænset gruppe af mål (Cowell 2009). Blandt de mål, der opfylder kriterierne er Atkinsons indeks et af de mest populære.
Atkinsons indeks (AI) knytter sig tæt til den økonomiske velfærdsteori, hvilket nok er en væsentlig årsag til målets popularitet. Brugeren af AI tager eksplicit stilling til, hvor stor vægt der skal lægges på afvigelser fra ligheden i bunden af indkomstfordelingen i forhold til afvigelser i toppen, når uligheden måles. Større vægt på afvigelse i den lave ende ses kom et udtryk for aversion mod ulighed. I praksis sker valget af graden af ulighedsaversion ved fastlæggelsen af en aversionsparameter. Jo højere værdi af parameteren, jo mere afspejler indekset aversion mod ulighed
I tabellen nedenfor er vist uligheden i Danmark i 1987 og i 2016 som opgjort af Danmarks Statistik suppleret med egne opgørelser af Atkinsons indeks med fire forskellige værdier af aversionsparameteren. For alle målene gælder, at større værdi indikerer større ulighed. Ved beregningerne er anvendt et regneark (Inequality_Calculator.xls) som F. A. Cowel, der er en central figur indenfor måling og analyse af ulighed, har stillet til rådighed på internettet.
Indkomstulighed1 i Danmark 1987 og 2016.
1987 | 2016 |
Ændring
|
|
Gini-koefficient | 0,22 | 0,29 | 31% |
Maksimal udjævningsprocent | 15,00 | 19,88 | 33% |
S80/20(Baseret på gennemsnit i deciler) | 3,24 | 4,48 | 38% |
P90/10 (Baseret på decilgrænser) | 2,50 | 3,26 | 30% |
Atkinson, parameter = 0,5 | 0,06 | 0,09 | 56% |
Atkinson, parameter = 1,0 | 0,11 | 0,17 | 44% |
Atkinson, parameter = 1,5 | 0,22 | 0,28 | 29% |
Atkinson, parameter = 2,0 | 0,57 | 0,63 | 12% |
Anm.: Atkinson-indeksene er beregnet på grundlag af statistikbankens opgørelser på deciler. Ved beregningen er anvendt et regneark udarbejdet af F. A.Cowell
Noter: 1Ved indkomst forstås ækvivaleret disponibel indkomst
Kilder: Danmarks Statistikbank, IFOR32, IFOR41 og IFOR22
Som det fremgår af tabellen, så er uligheden større i 2016 end den var i 1987, uanset hvilket af målene der anvendes, men af AI-opgørelserne fremgår det også, at ændringen falder med stigende værdi af aversionsparameteren. Det afspejler, at den stigende ulighed især er fremkommet ved at de allerrigeste har øget deres andel af de samlede indkomster, samtidig med, at fordelingen blandt den øvrige del af befolkningen har været mere stabil.
Referencer:
Frank A. Cowell: Mesuring Inequality, 2009 (link)
Danmarks Statistik: Statistikbanken IFOR41 (link)
Skotske statistikere hædret med pris for fremragende officiel statistik
08/08/2017
Kommentarer
Hvert år uddeler det britiske Royal Statistical Society i partnerskab med UK Statistics Authority en pris for en særlig fremragende indsats i officiel statistik (Excellence in Official Statistics Awards). Formålet er at vise anerkendelse af fremragende innovation eller udvikling, som forbedrer servicen over for brugerne. Prisen for 2017 er gået til tre statistikere fra den skotske regering — Alastair McAlpine, Maike Waldmann og Paul Tyrer — for deres indsats i forbindelse med det Skotske Indeks for Multiple Afsavn (Scottish Index of Multiple Deprivation, SIMD).
SIMD er udviklet af de skotske myndigheder med henblik på at kunne identificere de områder i Skotland, der er særligt hårdt ramt af fattigdom og ulighed. Grundlaget for indeksene er 38 indikatorer for forskellige aspekter af fattigdom og ulighed, f.eks. elevpræstationer, afstand til praktiserende læge, kriminalitet, arbejdsløshed og indkomst. De 38 indikatorer er grupperet i syv domæner — indkomst, beskæftigelse, uddannelse, sundhed, adgang til tjenester, kriminalitet og boligforhold.
For hver af ca. 7000 geografiske områder — de såkaldte datazoner — beregnes indeks for hver af de syv domæner og et samlet indeks. Datazonerne er afgrænset således, at befolkningsstørrelsen i hver zone er nogenlunde den samme. Da Skotlands samlede befolkning udgør 5,3 mio., kommer hver datazone til at omfatte ca. 760 personer. Der er således tale om en ganske detaljeret statistik.
Et vigtigt led i præsentationen af SIMD er et interaktivt kort over skotland, hvor man ved at pege på en datazone får vist i hvilket decil zonen befinder sig, samlet og for hvert af de syv domæner. Man kan også vælge at få de 5, 10 eller 20 pct. med den laveste værdi af indekset markeret på kortet. Endelig er det muligt at downloade de detaljerede data, der ligger bag kortet, så man selv kan analysere videre på dem.
Referencer:
Royal Statistical Society: Hjemmside (link)
Royal Statistical Society: Statistical excellence in official statistics (link)
Royal Statistical Society: Statistical excellence in official statistics: winner announced (link)
Skotlands regering: The Scottish Index of Multiple Deprivation (link)
Skotlands regering: SIMD, Interaktivt kort (link)
Verdensarven — popularitetsstatistik på grundlag af Wikipidia
18/07/2017
Kommentarer
Både betingelserne og mulighederne for dataindsamling i forbindelse med produktion af officiel statistik er under stadig udvikling. Såkaldte big data (se indlæg 26/4-16) er et af de nye områder, som statistikproducenterne må inddrage i deres overvejelser omkring tilpasning ændrede vilkår. Da tilpasningen sker under stor usikkerhed, må en del af den bestå i eksperimenter. Der eksperimenteres bla. med anvendelse af de data, der genereres gennem anvendelse af de mange internettjenester. Et af eksperimenterne, som Eurostat står for, handler om anvendelse af optælling af besøg på Wikipedia til at måle populariteten af de steder, der er optaget på UNESCOs Verdensarvliste.
Grundlaget for eksperimentet er detaljerede data om antallet af besøg på Wikipidia-artikler om stederne på verdensarvlisten. Der indgår artikler på 31 sprog, heriblandt de 24 officielle EU-sprog. Materialet er meget omfattende, og en vigtig del af eksperimentet består i at udforske og udvikle metoder og teknikker til anvendelse af denne type data (big data). Eksperimentet sker inden for rammerne af et internationalt samarbejdsprojekt, der går under navnet Big Data Sandbox. Deltagerne er en række institutioner indenfor officiel statistik, bl.a Eurostat, OECD og en række nationale statistikbureauer.
Eurostat har offenliggjort nogle hovedresultater i publikationen Culture Statistics – 2016 edition. De fem verdensarvsteder, der ligger i toppen af listen er:
Sted | Sidebesøg (mio) |
Seinens bredder, Paris | 6,8 |
Roms historiske centrum | 5,8 |
Historiske områder i Istanbul | 4,8 |
Auschwitz, Birkenau | 4,6 |
Frihedsgudinden, New York | 4,1 |
Kilde: Regneark fra Eurostat
Listen er stadig en del af et eksperiment, og det vigtigste på nuværende tidspunkt er ikke resultaterne, men den viden og erfaring, der skabes. En endelig konklusion om hvorvidt og hvordan big data af denne type kan anvendes i fremtiden er det for tidligt at drage.
Referencer:
Eurostats hjemmeside: Eurostat experimental statistics, (link)
Eurostat: Uddrag af Culture Statistics – 2016 edition (link)
Fremtiden for ADAM — Finansministeriet vil udvikle en ny økonomisk model
13/06/2017
Kommentarer
Økonomiske modeller, baseret på data fra den økonomiske statistik, er en forudsætning for tilrettelæggelsen af den økonomiske politik. En af de vigtigste danske modeller er ADAM (Annual Danish Aggregate Model), der udvikles og vedligeholdes af Modelgruppen i Danmarks Statistik. ADAM’s vigtigste brugere — Finansministeriet og Økonomi- og indenrigsministeriet — har i februar nedsat en modelgruppe, der skal udvikle en ny model, med udgangspunkt i den eksisterende. Arbejdet med udviklingen forventes at at tage flere år, så den nuværende ADAM-model står ikke overfor en umiddelbar skrotning.
Den typiske anvendelse af ADAM er som grundlag for beregning af konsekvenserne af et politisk tiltag, f.eks. en skatteændring. Finansministeriet lægger dog vægt på, at ADAM anvendes som et redskab og ikke som en facitliste. Resultaterne fra kørslerne af modellen står ikke alene, når konsekvenserne af et politisk tiltag beregnes.
ADAM består af et antal ligninger, der beskriver vigtige økonomiske sammenhænge. F.eks en ligning, der beregner det private forbrug ud fra husholdningernes disponible indkomst og deres formue. Hvordan man mere præcist kommer fra indkomst og formue til forbrug afgøres af modellens parametre, der fastlægges ved økonometriske metoder på grundlag af en omfattende database. Databasen er en vigtig del af ADAM-systemet. Dens grundlag er data fra Danmarks Statistiks officielle system, men omfatter tidsserier, der er længere og mere konsistente end de serier, man finder i den officielle statistik.
En økonomiske model som ADAM er fuldstændigt baseret på en række forudsætninger om de centrale træk i økonomien, og modellens funktion er forholdvis præcist at vise, hvilke konsekvenserne af et økonomisk-politisk indgreb — f.eks. en skatteændring — under de givne forudsætninger. Uden en model vil det være vanskeligt eller umuligt, at overskue konsekvenserne af et sådant indgreb. Men resultatet af en modelkørsel er altid en afspejling af modellens forudsætninger.
Den vigtigste forudsætning bag ADAM er, at når efterspørgslen i økonomien — dvs. forbruget, investeringerne eller eksporten — ændrer sig, så påvirker det produktion og beskæftigelse. Øges f.eks. det offentlige forbrug, så vil det føre til en øget beskæftigelse, dvs. mindsket arbejdsløshed. Men kun på kort sigt. På længere sigt vil den øgede beskæftigelse give sig udslag i lønstigninger, der vil svække konkurrenceevnen overfor udlandet, og derfor føre til mindre eksport. Efter en årrække vil produktion og arbejdsløshed være tilbage i udgangssituationen.
Det er helt i overensstemmelse med de centrale ADAM-brugeres opfattelse af økonomiens virkemåde, at arbejdsløsheden på langt sigt ikke lader sig påvirke af mindre økonomisk-politiske tiltag som justering af satser for skatter og offentlige ydelser eller niveauet for det offentliges forbrug og investeringer. Men sammenlignet med andre økonomiske modeller, så er den periode der går, fra at et politisk tiltag implementeres, og til man er tilbage i udgangssituationen, ret lang. En mulig afkortning af denne tilpasningsperiode bliver nok et af temaerne i forbindelse med udviklingen af den nye model.
Det er dog ikke sådan, at ADAM-brugerne helt udelukker, at centrale økonomiske størrelser, som f.eks. den samlede beskæftigelse, kan påvirkes på langt sigt. Det kræver dog en type indgreb, der ændrer den grundlæggende langsigtede adfærd hos økonomiens deltagere, dvs. virksomheder og husholdninger. F.eks. har man søgt at få folk til at blive længere på arbejdsmarkedet, ved at gøre det mindre attraktivt at trække sig tilbage. Sådanne såkaldte strukturelle ændringer, der påvirker den grundlæggende adfærd, er ADAM ikke egnet til at håndtere. Så her er et andet udviklingspunkt for en ny model.
Et tredie punkt, hvor navnlig Finansministeriet har interesser, vedrører balancen på de offentlige finanser, dvs. forskellen mellem det offentliges indtægter og udgifter. For en kortere periode kan det være yderst fornuftigt at det offentlige som led i konjunkturpolitikken kører med underskud, men på langt sigt skal der være en form for balance. Heller ikke dette balanceproblem er ADAM velegnet til at belyse, så her ligger en tredie forbedringsmulighed for en ny model.
Referencer
ADAM’s hjemmeside
Adams ligningsbrowser
Adam — en model af dansk økonomi, Danmarks Statistik, TemaPubl 2012:1
Finansministeriets hjemmeside
Finansministeriet: Opdrag for makroøkonomisk modelgruppe
Lars Hagen Pedersen og Mads Kieler: Kronik -Finansministeriet vil styrke makroøkonomisk model (Finansministeriets hjemmeside)
Geografisk befolkningstyngdepunkt i USA – og i Danmark
25/04/2017
Kommentarer
Det amerikanske folketællingsbureau (US Census Bureau) beregner efter hver folketælling et befolkningstyngdepunkt (mean center of population) . Befolkningstyngdepunktet illustrerer, hvordan befolkningen i USA siden 1790 gradvis har bevæget sig længere og længere mod vest, og i de senere år også mod syd. Bag beregningen ligger en model, hvor USA’s overflade ses som en helt plan flade, og hver indbygger har samme vægt. Herudfra kan kan beregne det punkt hvor fordelingen af befolkningen vil få fladen til at balancere. På kortet nedenfor er balancepunkterne for hver af de tiårlige folketællinger siden 1790 plottet ind. Detaljerne i metoden er dokumenteret i Centers of Population Computation for the United States
Klik her for kort i fuld størrelse
Kilde: US Census Bureau, Centers of Population
Ideen om et geografisk befolkningstyngdepunkt giver umiddelbart god mening for USA, hvis landområde, når man ser bort fra Alaska mm, udgør en sammenhængende flade, der ovenikøbet med lidt godt vilje kan opfattes som et tilnærmet rektangel. For et mere uformeligt ørige som Danmark, hvor en stor del af territoriet er vand, virker ideen ikke helt så indlysende. Men vælger man et lade det danske område omfatte et rektangel, hvor grænserne bestemmes af de østligste, vestligste, nordligste og sydligste punkter, og blot betragter de omfattede havområder som ubeboede dele af territoriet, kan der også beregnes befolkningstyngdepunkter for Danmark. Efter den betragtning ligger befolkningetyngdepunktet i begyndelsen af 2017 i Samsø Bælt lidt øst for Samsø. Bornholm er holdt uden for beregningerne.
Indeholder data fra Styrelsen for Dataforsyning og Effektivisering, skærmkortet, WMS-tjeneste
Min metode ved beregningen af det danske befolkningstyngdepunkt er i princippet den samme den amerikanske, men detaljeringsgraden i data er væsentlig mindre. Kort sagt har jeg beregnet et vejet gennemsnit af kommunernes koordinater, hvor folketallet er anvendt som vægte. Kommunernes koordinater er deres geografiske midtpunkt, fastlagt på øjemål.
Arealtyngdepunktet — dvs tyngdepunktet målt med kommunernes areal som vægte — ligger lidt nordøst for Horsens. Befolkningstyngdepunktet ligger således noget østligere end arealtyngdepunktet, hvilket afspejler, at befolkningetætheden er større i de østlige end i de vestlige dele af landet.
Det geografiske midtpunkt dvs. punktet midt imellem de østliste, vestligste, nordligste og sydligste punkter befinder sig på Mols lige ud for kysten midt i Begstrup Vig.
Befolkningsstatistik på grundlag af Google Street View
28/03/2017
Kommentarer
Med specielle kameraer monteret på biler, rygsække, små vogne (trolleys), snescootere og trehjulede cykler har Google gennemfotograferet store dele af verden. En gruppe amerikanske forskere er nu kommet på den ide, at anvende det omfattende fotomateriale til at estimere socioøkonomiske og demografiske størrelser som alder, køn, race , uddannelse, beskæftigelse (Timnit Gebru, Jonathan Krause, YilunWang, Duyun Chen, Jia Deng, Erez Lieberman Aiden og Li Fei-Fei: Fine-Grained Car Detection for Visual Census Estimation). Også politiske præferencer inddrager de i eksperimentet. Fremgangsmåden har to store fordele. Den er væsentligt billigere end traditionel dataindsamling, og resultaterne kan foreligge langt hurtigere.
Metoden går dog ikke ud på direkte at analysere de personer, der forekommer på billederne. I stedet analyseres de biler, der kan ses på billederne, og udfra mærke og årgang mv. på de biler, der kan identificeres i et givet geografisk område, drages konklusioner om områdets demografiske og socioøkonomiske kendetegn. Om årsagen til den indirekte fremgangsmåde er hensyn til beskyttelse af privatlivet, eller metodiske overvejelser skal være usagt, men det er oplagt, at de etiske aspekter omkring metoden også kræver opmærksomhed. Dem vil jeg dog ikke komme nærmere ind på i dette indlæg, men fokusere på metoden og dens resultater.
Udgangspunktet for eksperimentet er 50 millioner af Googles gadebilleder fra 200 amerikanske byer. Ved anvendelse af avanceret computerteknologi (deep learning computer vision) blev der på billederne fundet 22 millioner biler, og for hver bil blev mærke, model og årgang (2.657 kategorier) bestemt. Bilobservationerne for 35 af de 200 byer blev sammen med data fra folketællinger og præsidentvalg brugt til at estimere en sammenhæng mellem sammensætningen på de de 2.657 bilkategorier og en række socioøkonomiske og demografiske variable. F.eks. ser det ud til, at asiater foretrækker asiatiske biler (Honda og Toyota), at sorte foretrækker Chrysler, Buick og Oldsmobile, og at hvide foretrækker VolksWagen og Aston Martin. Der ser også ud til at være en sammenhæng mellem politiske præferencer og valg af bil. Demokrater foretrækker tilsyneladende biler af sedan-typen, hvor republikanere i højere grad vælger pickup trucks.
Estimaterne af sammenhængende fra de 35 byer blev herefter anvendt til i resten af de 200 byer at estimere befolkningens sammensætning på socioøkonomiske og demografiske grupper ud fra bilparkens sammensætning. Disse estimater blev så holdt op imod folketællingens og præsidentvalgets resultater. Overensstemmelsen var overraskende god.
Metoden kan ikke helt erstatte traditionel dataindsamling. Traditionelle statistiske data er bla. nødvendige for at estimere den sammenhæng mellem bilparkens sammensætning og de demografiske og sociale variable, der er metodens fundament. Men hvis pålideligheden af de foreløbige resultater bekræftes, kan metoden bidrage til både hurtigere og billigere statistikker.
Forudsigelse af middellevetid
07/03/2017
Kommentarer
I to tidligere indlæg (Middellevetid i kommunerne og Sunde leveår og samlet forventet levetid) har jeg behandlet den officielle statistiks opgørelser af middellevetid. Disse opgørelser er en raffineret måde, at samle statistiske data om dødelighed i forskellige aldersgrupper i ét tal. Dette tal, middellevetiden for en nyfødt, siger noget om forholdene på, opgørelsestidspunktet, men er ikke en forudsigelse. Ud fra de nugældende erfaringer kan det forventes, at den faktiske levetid for en nyfødt bliver længere end middellevetiden, fordi medicinske og sundhedsmæssige fremskridt vil mindske den fremtidige dødelighed.
Egentlige forudsigelser er ikke den officielle statistiks opgave, men data fra den officielle statistik vil ofte være grundlag for forsøg på forudsigelser. I en artikel i lægetidsskriftet The Lancet har seks forskere — Vasilis Kontis, James E Bennett, Colin D Mathers, Guangquan Li, Kyle Foreman og Majid Ezzati — anvendt officiel statistik fra 35 industrialiserede lande til at beregne en forudsigelse af af middellevetiden i 2030 for de 35 lande.
Til forudsigelserne er knyttet sandsynligheder. F.eks. finder de, at i alle 35 lande er sandsynlighen 65 pct. for at middellevetiden for mænd vil stige og 85 pct. for at middellevetiden for kvinder vil stige. I dag er kvinders middellevetid i alle landene længere end mænds. Det vil den efter forudsigelsen stadig være i 2030, men forskellen vil være mindsket i næsten alle landene.
Skattestruktur (trekantgtraf)
14/02/2017
Kommentarer
De europæiske staters vigtigste indtægtskilder er skatter og socialsikringsbidrag. Socialsikringsbidrag er betalinger for deltagelse i sociale sikringsordninger. Deltagelsen — og dermed betalingen — kan være tvungen eller frivillig. Kontingent til arbejdsløshedkasse er et dansk eksempel på et frivilligt bidrag, og bidrag til Lønmodtagernes Garantifond er et eksempel på et tvungent bidrag. Skatter er tvungne betalinger til det offentlige, hvor der i modsætning til socialsikringsbidragene, ikke er knyttet til en direkte modydelse fra det offentlige. Det betyder naturligvis ikke, at skatteyderne ikke får noget for deres betalte skatter. Der kan blot ikke knyttes en direkte forbindelse mellem de betalte skatter og de modtagne ydelser.
Der er betydelige forskelle staterne imellem på hvilken vægt der lægges på de forskellige indtægtskilder, som det fremgår af tabellen nedenfor.
Skattestruktur i udvalgte europæiske lande
Bul-garien | Schweiz | Tysk-land | Danmark | Kroatien | Serbien | Sverige | Slovakiet | |
1 Socialsikringsbidrag | 27,1 | 24,5 | 41,3 | 2,1 | 31,7 | 33,3 | 8,4 | 43,3 |
2 Produktions- og importskatter | 53,5 | 21,7 | 27,5 | 34,6 | 52,4 | 52,0 | 50,0 | 33,8 |
3 Indkomst- og formueskatter | 18,5 | 53,9 | 30,7 | 63,9 | 15,9 | 14,7 | 41,6 | 22,9 |
4 Kapitalskatter | 0,9 | 0,6 | 0,5 | 0,5 | 0,0 | 0,1 | 0,0 | 0,0 |
5 Ubetalte skatter mm | 0,0 | 0,6 | 0,0 | 1,1 | 0,0 | 0,0 | 0,0 | 0,0 |
Skatter i alt (1+2+3+4–5) | 100,0 | 100,0 | 100,0 | 100,0 | 100,0 | 100,0 | 100,0 | 100,0 |
Kilde: Eurostats databank gov_10a_taxag
Det relative høje niveau for ubetalte skatter i Danmark repræsenterer den danske stats forventede tab i forbindelse med svindel omkring refunderet udbytteskat til udlændinge (notat fra Danmarks Statistik: Konteringen af uretmæssigt refunderet udbytteskat til udlændinge på betalingsbalancen og i nationalregnskabet)
Trekantgrafen
Trekantgrafen anvendes så ikke så ofte af formidlere af statistik, antagelig fordi det kræver lidt tilvænning at forstå den. Men den er nyttig til visualisering af opgørelser, hvor en række variable — i dette tilfælde den procentvise andel af hver indtægtstype — summer op til 100. Trekantdiagrammet kan dog kun vise tre variable, så i det følgende er de to ret ubetydelige kategorier, kapitalskatter og ubetalte skatter mm, slået sammen i med indkomst- og formueskatter.
I figuren til højre er aflæsningen af trekantgrafen illustreret, med Sverige som eksempel. Hver side i trekanten udgør aksen for en af variablene. Trekantens hjørner repræsenterer minimumværdien (0 pct.) for én variabel og maksimumværdien (100 pct.) for en anden. For Sverige udgør socialsikringsbidrag 8,4 pct. (den røde line), produktions- og importskatter 50 pct. (den grønne linie) og indkomst- og formueskatter mm 41,6 pct. (den blå linie).
I figuren nedenfor er værdierne for en række europæiske lande plottet ind i en trekantgraf. Som det fremgår, er der betydelig forskel på, hvordan de europæiske lande vægter de tre indtægtsstyper. De fleste lande ligger i en gruppe tæt på trekantens midte. Det afspejler alle tre indtægttyper indgår med en vis vægt i skattestrukturen.
En placering tæt på en af trekantens sider afspejler, at landet helt eller delvist har fravalgt en af kilderne. Det mest markante eksempel Danmark (DK), hvor socialsikringsbidragene udgør en meget lille andel, men hvor indkomst- og formueskatterne til gengæld spiller en stor rolle. Også i Island (IS) og Sverige (SE) udgør socialsikringsbidragene en forholdsvis beskeden andel. Schweiz ligner den store gruppe i at at alle tre indkomstkilder indgår med en vis vægt, men adskiller sig dog ved at indkomskatternes vægt er relativ høj.
Skattestrukturen i europæiske lande, 2015
Kilde: Eurostats databank gov_10a_taxag Grafik: Veusz
Sunde leveår og samlet forventet livetid
17/01/2017
Kommentarer
Som supplement til den velkendte statistik om forventet levetid offentliggør Eurostat (EU’s statistikkontor) en statistik om, hvor stor en del levetiden helbredet kan forventes at være godt. Statistikken opgøres ved at kombinere den traditionelle statistik om dødsfald i forskelle aldersgrupper med data om den gennemsnitlige helbredsituation. Helbredsoplysningerne stammer fra EU-SILK (Eurostats stikprøveundersøgelse om indkomst og levevilkår), hvor et af spørgsmålene lyder:
Har du de seneste 6 måneder på grund af helbredsproblemer eller sygdom været hæmmet i udførelsen af aktiviteter, som folk sædvanligvis udfører?
Andelen, der svarer Alvorligt hæmmet, fordelt på køn og alder, kombineres med oplysningerne fra den traditionelle statistik om dødelighed, og på grundlag heraf beregnes et skøn for det forventede antal sunde leveår. I figuren nedenfor er resultaterne for 2014 vist.
Forventet levetid og antal sunde leveår i europæiske lande, 2014Kilde: Eurostats Database (hlth_hlye), Grafik:Veusz
Af figuren fremgår det, at variationen mellem landene er langt større for antallet af sunde leveår, end for den samlede levetid. Det er tydeligst for kvindernes vedkommende, hvor der for samlet levetid kun er en forskel på 8,2 år mellem top og bund (86,2 år for Spanien og 78 år for Bulgarien) hvorimod forskellen i antal sunde leveår er 19,7 år. Især Malta og Sverige skiller sig ud med høje værdier for antallet af sunde leveår, uden at ligge helt i toppen for samlet levetid. Bulgarien ligger ret højt i antal sunde leveår, men i bunden for samlet levetid.
For mændens vedkommende kan man finde tilsvarende mønstre, men variationen mellem landene er større både for antal sunde leveår og for samlet levetid.
Statistikkens kvalitet
Opgørelsen af den samlede levetid er af høj kvalitet, men der kan være problemer i opgørelsen af antal sunde leveår. Det skyldes især, at der kan være forskelle i formuleringen af det centrale helbredsspørsmål i de forskellige lande. Det kan heller ikke udelukkes, at bevarelsen af helbredsspørgsmålet kan være påvirket af kulturelle forskelle mellem landene.
Inden der drages for håndfaste konklusioner af observationerne skal eventuelle kvalitetsproblemer derfor overvejes. På Eurostats hjemmeside findes redskaber, der kan understøtte en sådan granskning, bla. metadata for variablen sunde leveår og nationale kvalitetsrapporter for EU-SILC.
Det lidt overraskende resultat for Bulgarien er en af de observationer, der nok kunne fortjene en nøjere granskning. Et oplagt sted at begynde granskningen er de nationale kvalitetsrapporter, men desværre foreligger der ingen rapport om Bulgarien.
Boligpriser i officiel og privat statistik
02/12/2016
Kommentarer
Den officielle statistik om boligpriser udarbejdes og offentliggøres af Danmarks Statistik. Men den officielle statistik står ikke alene. I det mindste tre private statistikker supplerer den officielle. De tre private statistikker er:
Boligmarkeds-statistikken | Produceres af Realkreditforeningen, Realkredit-rådet, Dansk Ejendomsmæglerforening og Finansrådet |
Boligindekset | Produceres af Boligøkonomisk Videnscenter |
Markedsindekset | Produceres af Boligsiden |
Danmarks Statistik har i en analysepublikation sammenlignet de fire statistikker. Der udarbejdes både månedlige, kvartalsvise og årlige boligprisstatistikker, men analysen fokuserer på de kvartalsvise opgørelser.
Alle fire statistikker viser nogenlunde samme billede, når man ser på den kvartalsvise udvikling i priserne. Men selvom sæsonmønstret for de fire statistikker er nogenlunde ens, så viser de fire indeks systematiske forskelle, når man ser dem over en længere periode. I tabellen nedenfor vises den gennemsnitlige forskel mellem prisstigningen opgjort i de tre private statistikker og prisstigningen ifølge den officielle statistik. Der opgøres ikke et samlet indeks for ejerboliger, så indeks for enfamiliehuse og ejerboliger er vist hver for sig.
Gennemsnitlig kvartalsvis forskel i prisstigning i forhold til officiel statistik (2010-2015)
Officiel statistik | Boligmarkeds statistikken |
Boligindeks | Markedsindeks | |
Enfamilehuse | 0,0 | -0,3 | -0,2 | -0,2 |
Ejerlejligheder | 0,0 | -0,4 | -0,3 | -0,7 |
Kilde: DST Analyse 2016:19, Sammenligning af boligprisstatistikker i Danmark
Årsagen til forskellene er, at de fire statistikker anvender forskellige kilder og forskellige metoder. Mest markant er forskellene i metoden til den kvalitetskorrektion, der er et nødvendigt led i næsten alle prisstatistikker.
Kvalitetskorrektion
Alle statistikkerne tager udgangspunkt i salgspriserne ved ejendomshandler i de kvartaler, der belyses. Men man kan naturligvis ikke uden videre sammenligne den gennemsnitlige salgspris for solgte ejendomme i to kvartaler, uden at tage hensyn til at de handlerne i de to kvartaler kan vedrøre ejendomme af meget forskellig størrelse, alder og beliggenhed mm. Skal sammenligningen være meningsfuld, må priserne kvalitetskorrigeres.
En oplagt måde at korrigere for forskelle i størrelse er at opgøre priserne pr kvadratmeter ejendomsareal. Nu er der forskel på værdien af forskellige typer af areal, så i praksis anvendes et vægtet antal kvadratmeter, når kvadratmeterprisen beregnes. F.eks indgår boligareal med fuld vægt, mens arealet af udestue kun indgår med vægten 0,15. Boligmarkedsstatistikken og markedsstatistikken anvender denne fremgangsmåde.
Kvadratmetermetoden korrigerer kun for en begrænset del af kvalitetsaspekterne. I den officielle statistik søger man at inddrage alle kvalitetsaspekter ved at tage udgangspunkt i de officielle ejendomsvurderinger. Ideen er, at vurderingsværdierne antages at tage hensyn til alle kvalitetsaspekter. Det betyder, at salgsummernes afvigelse fra de handlede ejendommes vurderingsværdi kan tages som et udtryk for den kvalitetskorrigerede prisudvikling siden vurderingstidspunktet.
I boligindekset anvendes en helt anden metode, der går under navnet gentagne salgs metode (repeated sales-method). Her søger man at korrigere for kvalitetsforskelle ved kun at inddrage ejendomme, der har været handlet mindst to gange (købt og solgt) i den periode, der belyses. Prisindeksene estimeres i en regressionsanalyse, hvor prisændringen ved et salg forklares af en række dummy-variable — en for hvert kvartal i hele den periode, der beregnes indeks for. Dummyen sættes til 1 i salgskvartalet og -1 i købskvartalet. De estimerede koefficienter til dummyerne kan herefter fortolkes som skøn for prisindeksene for kvartalerne. Beskrivelsen er lidt forenklet, men en mere fyldestgørende og ret let forståelig beskrivelse af metoden kan findes hos Silverstein 2014, specielt appendix (s. 11-14)
Hver gang et nyt kvartal tilføjes serien, bliver der i beregningen inddraget salg, hvor købet er sket i en tidligere periode. Det betyder i princippet, at alle indeks fra periodens første kvartal frem til det næstsidste opgjorte kvartal kan ændres, hver gang et nyt kvartal tilføjes.
Hurtig BNP-indikator
18/11/2016
Kommentarer
I tirsdags, den 15. november 2016, præsenterede Danmarks Statistik et skøn over væksten i BNP (sæsonkorrigeret og i faste priser) for 3. kvartal 2016, kun 45 dage efter kvartalets udløb. Hidtil har Danmarks Statistik leveret det første skøn efter 60 dage. Udarbejdelsen og offentliggørelsen af skønnet efter 45 dage er i første omgang et forsøg. På grundlag af erfaringerne omkring udviklingen af indikatoren vil Danmarks Statistik vurdere, om der senere kan offentliggøres BNP-skøn allerede efter 30 dage.
Opgørelsen af skønnet sket med udgangspunkt i produktionssiden, dvs. BNP opgjort som:
Produktionsværdi – forbrug i produktionen + produktskatter – produktsubsidier
Beregningerne af produktionsværdi og forbrug i produktionen sker fordelt på 15 brancher. Produktskatter og -subsidier beregnes for hele økonomien samlet.
Opgørelsen af produktionsværdien for de 15 brancher tager udgangspunkt i en beregning, hvor der anvendes samme kilder som ved den hidtidige opgørelse efter 60 dage. Kildedata fremføres så vidt det er muligt med de data, der er tilgængelige efter ca. 35 dage. Hvor det ikke er muligt at fremføre en kilde, anvendes forskellige former for skøn.
Forbrug i produktionen antages for de fleste (men ikke alle) brancher at udgøre samme andel af produktionsværdien som i tilsvarende kvartal året før. Forskellen mellem produktionsværdi og forbrug i produktionen, dvs. værditilvæksten, kan herefter beregnes for de 15 brancher og adderes til en værditilvækst for hele økonomien. Ved at antage, at produktskatter og -subsidier udvikler sig i takt med værditilvæksten kan væksten i værditilvækst anvendes som skøn for BNP-væksten. En nøjere beskrivelse af metoden kan findes i Danmarks Statistiks dokumentationsnotat om BNP-indikatoren.
Der er tale om stærkt simplificeret metode i forhold til den, der anvendes ved opgørelsen efter 60 dage, samtidig med at kildedata er mere begrænsede. Der må derfor forventes en større usikkerhed på 45-dages skønnet end på 60-dages skønnet. Men hvor meget større kan ikke vurderes, før lidt mere erfaring med indikatoren er opnået.
Strukturel saldo for offentlig forvaltning og service
14/11/2016
Kommentarer
Den officielle statistik om de årlige offentlige finanser har tidligere været beskrevet i denne blog. Statistikken omfatter dels en regnskabsstatistik, der har de offentlige regnskabssystemer som hovedkilde, og dels en budgetstatistik, der har de offentlige budgetsystemer som hovedkilde. Disse statistikker er udgangspunktet for belysningen af de offentlige finanser, herunder udvikling og holdbarhed.
Den officielle statistik er også grundlaget for EU’s kontrol af overholdelsen af Stabilitets- og Vækstpagten. Ifølge Stabilitets- og Vækstpagten må saldoen for det offentliges regnskab under normale forhold højest vise et underskud på tre procent af bruttonationalproduktet (BNP).
Nu er normale forhold et lidt upræcist begreb, navnlig set på baggrund af, at saldoen påvirkes kraftigt af de økonomiske konjunkturer. Er man midt i et opsving, med høje indkomster og lav arbejdsløshed vil det offentliges skatteindtægter typisk være høje, og udgifterne til sociale ydelser lave. Det påvirker saldoen i positiv retning. Omvendt vil saldoen i krisetider med høj arbejdsløshed være påvirket i negativ retning. Også andre særlige forhold kan have stor betydning for saldoen i et enkelt år. Derfor er tre procents-reglen gennem en yderligere aftale (Finanspagten) blevet suppleret med en regel, der lægger begrænsninger på den strukturelle saldo, dvs. den faktiske saldo korrigeret for afvigelser fra normale forhold. I Danmark er Finanspagtens regler udmøntet i Budgetloven, der fastlægger en grænse på 1/2 procent af BNP for underskuddet på den strukturelle saldo.
Beregningen af strukturel saldo
Den strukturelle saldo opgøres af Finansministeriet. Metoden er beskrevet i to notater — Finansministeriets metode til beregning af strukturel saldo (2012, rev 2014) og Opdatering af metoden til beregning af strukturel saldo (2015) — og de løbende beregninger offentliggøres i Økonomisk redegørelse. Tabellen nedenfor viser opgørelsen i forbindelse med finanslovsforslaget for 2107.
Overgang fra faktisk til strukturel saldo, 2017
pct. af BNP | |||
Faktisk saldo | -1,9 | ||
Konjunkturgab | Produktionsgab | -0,4 | -0,5 |
Beskæftigelsesgab | -0,9 | ||
Samlet konjunkturgab | -0,5 | ||
Særlige poster | Selskabsskat | 0,1 | -0,8 |
Registreringsafgift | 0,1 | ||
Pensionsafkastskat | -0,6 | ||
Nordsøolieindtægter | -0,4 | ||
Renter og udbytter, netto | 0,1 | ||
Specielle budgetposter | -0,1 | ||
Særlige forhold i alt | -0,8 | ||
Øvrige forhold | PSO-ordning | … | -0,1 |
Udviklingsbistand | … | ||
Aktieindkomstskat | … | ||
Omregning til strukturelt BNP | … | ||
Øvrige forhold i alt | -0,1 | ||
Strukturel saldo (pct. af strukturelt BNP) | -0,4 |
Kilde: Økonomisk Redegørelse, Finansmininisteriet, august 2016
Tabellen belyser, hvordan den strukturelle saldo fremkommer som resultatet af en række korrektioner til den aktuelle saldo. Finansministeriet skelner mellem tre typer af korrektioner:
- Konjunkturgabet, der skal afspejle den aktuelle konjunktursituations afvigelse fra normalsituationen, dvs. et niveau for produktion og beskæftigelse, der er foreneligt med en stabil udvikling i priser og lønninger. Der beregnes skøn for produktionsgab og beskæftigelsesgab hver for sig. Disse to størrelser sammenvejes til et samlet konjunkturgab, der derefter indgår i korrektionen med en andel, der afspejler de offentlige finansers konjunkturfølsomhed (budgetelasticiteten).
- Særlige poster, der omfatter seks særligt volatile størrelser, for hvilke der specifikt beregnes og offentliggøres korrektioner.
- Øvrige forhold, for hvilke der korrigeres, men kun præsenteres en samlet korrektion. Omfatter bl.a. forhold af midlertidig karakter. Desuden indgår en korrektion, således at den strukturelle saldo opgøres i procent af strukturelt BNP og ikke af faktisk BNP.
Det Økonomiske Råds rolle
Det er finansministeriet, der har ansvaret for opgørelsen af den strukturelle saldo, men det er i Lov om Det Økonomiske Råd og Det Miljøøkonomiske Råd fastlagt, at det Økonomiske Råd årligt skal vurdere holdbarheden i de offentlige finanser. Ved fremsættelsen af finansloven for 2017 er det rådets vurdering (Vismandsrapporten s. 122), at budgetlovens krav til den strukturelle saldo er opfyldt, men at man er så tæt på grænsen, at små afvigelser fra det skønnede udgangspunkt, kan tippe balancen.
Færdselsuheld og mørketal
20/09/2016
Kommentarer
Danmarks Statistiks opgørelse af færdselsuheld belyser dels uheldene med oplysninger om bl. a. tidspunkt, hastighed og om spiritus var involveret, og dels de ved uheldene dræbte og tilskadekomne personer med oplysninger om bl.a. køn, alder og alvorsgrad (dræbt, lettere eller alvorligt tilskadekommet). Statistikkens grundlag er Vejdirektoratets informationssystem, der igen er baseret på politiets registrering af ulykkerne. Danmarks Statistiks opgørelse omfatter kun trafikuheld med personskade, men Vejdirektoratet offentliggør selv opgørelser, der også omfatter uheld med udelukkende materiel skade.
Kun uheld med personskader, der kræver lægebehandling eller medfører hospitalsindlæggelse indgår i opgørelsen. Desuden kræves det, at mindst en af de involverede i uheldet er kørende. Eneuheld for fodgængere indgår ikke.
Som et supplement til den detaljerede statistik opgør Danmarks Statistik antallet af dræbte og tilskadekomne, der ikke indgår i politiets materiale, men som er indberettet fra skadestuer og hospitaler. Hospitalernes og skadestuernes indberetninger er langt mindre detaljerede end politiets, og kan derfor ikke indgå i den egentlige opgørelse. Som det fremgår af tabellen nedenfor, så udgør de manglende dræbte og tilskadekomne i politiets indberetninger — også kaldet mørketallet — omkring 90 pct. af de samlede indberetninger. Det virkelige mørkeltal er højere, da ikke alle personskader kommer til skadestuers og hospitalers kendskab, f.eks. fordi de udelukkende behandles af en praktiserende læge.
Registrerede færdselsuheld med personskade i Danmark 2001-2015
1000 uheld/personer | Indberetter | 2001 | 2005 | 2011 | 2015 |
Dræbte og tilskadekomne | Politiet | 8,9 | 6,8 | 4,2 | 3,3 |
Skadestuer og hospitaler | 39,2 | 38,8 | 37,1 | 31,7 | |
Indberettet i alt | 48,1 | 45,7 | 41,3 | 35,0 | |
Uheld med personskade | Politiet | 6,9 | 5,4 | 3,5 | 2,9 |
Kilde: Statistikbanken: UHELD3, UHELD8 og MOERKE
Den andel af de dræbte og tilskadekomne, der indberettes af politiet faldet fra 19 pct. i 2001 til 9 pct. i 2015. Det betyder, at grundlaget for den detaljerede statistik, og dermed for beslutninger omkring forbedring af trafiksikkerheden, er blevet stærkt forringet. På den baggrund har en række trafikforskere på Aalborg Universitet iværksat et projekt til belysning af mørketallet.
Købekraftpariteter
15/08/2016
Kommentarer
Internationale sammenligninger af vigtige økonomiske størrelser som nationalprodukt, indkomst og forbrug vanskeliggøres dels af, at de forskellige lande anvender forskellige valutaer, og dels af at prisniveauet er forskelligt i forskellige lande. Er fokus udelukkende på valuta, kan sammenlignelighed tilvejebringes ved at omregne til samme valuta ved hjælp af valutakurser. I tabellen nedenfor er vist en sammenligning af faktisk individuelt forbrug (dvs. individuelt forbrug, uanset om udgiften afholdes af husholdningerne eller det offentlige) i en række EU-lande. Anden søjle er opgjort i de nationale valutater (kr. i Danmark, zloty i Polen, euro i Tyskland osv.) og tredie søjle er omregnet til euro ved anvendelse af sædvanlige valutakurser.
Faktisk individuelt forbrug pr. indbygger 2014
National-valuta | Euro | Købekraft-paritet (Euro) | |
—— 1000 enheder —— | |||
Europæiske Union i alt | .. | 19,2 | 19,2 |
Danmark | 228,5 | 30,7 | 22,7 |
Tyskland | 24,2 | 24.2 | 23,2 |
Frankrig | 22,9 | 22,9 | 20,8 |
Italien | 19,3 | 19,3 | 19,2 |
Nederlandene | 24,4 | 24,4 | 22,3 |
Polen | 31,2 | 7,5 | 13,0 |
Sverige | 263,3 | 28,9 | 22,0 |
Storbritannien | 21,8 | 27,1 | 23,2 |
Kilde: Eurostats statitistikbank: name _10_pc
For de lande, der anvender euro som national valuta er tallene i de to søjler naturligvis identiske. En ti-euro seddel kan veksles til ti en-euro mønter, uanset hvilket land man befinder sig i. Drejer det sig om alt andet end andre euromønter eller -sedler kan der derimod være stor forskel på, hvor meget man kan få for ti euro i forkellige lande. Købekraften kan være forskellig. Det afspejler sig i tabellens fjerde søjle, hvor opgørelsen er sket ved anvendelse af såkaldte købekraftpariteter. Mest markant ses det for Polens vedkommende, hvor polakkernes gennemsnitlige forbrug er langt større målt ved købekraftpariteter end ved almindelige valutakurser. Når det drejer sig om sammenligning af forbrug og mange andre økonomiske størrelser giver det mest mening at anvende opgørelser baseret på købekraftparitet.
En købekraftparitet afspejler valutas købekraft i et bestemt geografisk område. I 2015 var købekraftpariteten mellem en dansk krone og en Euro 9,84 når men ser på hele EU’s område (28 lande). Det skal forstås på den måde, at det i gennemsnit i EU koster 9,84 danske kroner at købe den samme mængde varer og tjenester som kan købes for en euro. Valutakursen, dvs. den pris man i danske kr. måtte betale en valutahandler for en euro var 7,46. Man kunne med andre ord for 7,46 kr. købe en euro, der herefter gav mulighed for at købe for 9,84 kr. hvis man altså spredte sine køb jævnt udover Europa. Det afspejler, at det generelle prisniveau i Danmark er højere end i det samlede EU.
Købekraftpriteter kan også danne grundlag for belysning af prisiniveauet for forskellige produktgrupper. I tabellen nedenunder er købekraftpariteter anvendt som grundlag for en til en landesammenligning af prisniveauer for komponenter af det individuelle forbrug. Både for totalen og for hver af komponenterne er indekset for hele EU lig med 100. Forskelle i prisniveauer mellem lande kan have mange årsager, og til en fuldstændig analyse hører en overvejelse af særlige forhold i de sammenlignede lande.
Indeks for prisniveau 2014
Dan-mark | Tysk-land | Fran-krig | Ita-lien | Neder-lan-dene | Polen | Sveri-ge | Stor-brita-nien | |
Føde- og drikkekvarer (ikke-alkoholiske) | 145 | 104 | 110 | 110 | 99 | 64 | 125 | 104 |
Alkoholiske drikkevarer | 124 | 93 | 106 | 95 | 108 | 71 | 130 | 166 |
Beklædning og fodtøj | 123 | 102 | 102 | 105 | 104 | 82 | 123 | 102 |
Bolig, vand, el mm | 150 | 98 | 115 | 99 | 119 | 38 | 118 | 153 |
Bolig- og husholdningsudstyr | 122 | 101 | 105 | 105 | 110 | 62 | 122 | 110 |
Medicin, lægeudgifter mm | 136 | 104 | 105 | 115 | 127 | 45 | 175 | 118 |
Transport | 133 | 103 | 102 | 99 | 111 | 71 | 116 | 110 |
Kommunikation | 86 | 103 | 97 | 118 | 114 | 52 | 90 | 125 |
Rekreation og kultur | 139 | 105 | 107 | 101 | 102 | 53 | 130 | 107 |
Uddannelse | 153 | 110 | 109 | 94 | 122 | 39 | 195 | 147 |
Restauranter og hoteller | 150 | 98 | 109 | 109 | 111 | 75 | 143 | 114 |
Andre varer og tjenester | 141 | 97 | 106 | 98 | 115 | 55 | 144 | 113 |
Faktisk individuelt forbrug i alt | 140 | 101 | 107 | 103 | 113 | 53 | 136 | 122 |
Kilde Eurostats statistikbank prc_ppp_ind
Opgørelsen af købekraftpariteter har en del lighedspunkter med opgørelsen af inflation. Ved opgørelsen af inflationen i et enkelt land tager man udgangspunkt i en nærmere bestemt kurv af varer og tjeneser, og ser på hvor meget dyrere det bliver at købe den samme kurv fra periode til periode. På tilsvarende måde tilstræber man ved købekraftpariter at opgøre, hvad det i forskellige geografiske områder koster at købe sammenlignelige mængder af produkter. Man anvender dog ikke den samme produktkurv, således som man gør ved inflationsberegninger. I stedet opgør man som udgangspunkt indeks for alle landepar, f.eks. Danmark i forhold til Tyskland, Danmark i forhold til Sverige, Sverige i forhold til Tyskland, Tyskland i forhold til Polen osv. I hvert af de parvise indeks bliver produktkurven fastlagt under hensyntagen til, hvilke produkter, der er almindelige i begge de to sammenlignede lande. Til sidst bliver de mange parvise indeks anvendt som grundlag for beregningen af et enkelt indeks for hver kombination af land og produktgruppe. Denne metode kaldes EKS-metoden efter Elteto, Koves og Szulc, som har udviklet den.
Big data i officiel statistik
26/04/2016
Kommentarer
Big data skabes bl.a. når en kundes køb registreres ved et kasseapparat, når et dankort anvendes til en netbetaling, når en sensor automatisk registrerer passage af et køretøj på et bestemt vejstykke og når en internetbruger er aktiv på et socialt medie. De nationale statistikinstitutioner er naturligvis helt opmærksomme på de muligheder, som anvendelse af den slags data giver i produktionen af officiel statistik. F.eks. har Danmarks Statistik, sammen med Københavns Universitet og Dansk Industri, i september 2015 afholdt en konference om perspektiverne i big data.
Tre kendetegn afgrænser big data fra traditionelle data:
- Omfang, der er tale om store mængder af data,
- Variation, big data er mindre velstrukturerede end traditionelle data
- Foranderlighed, big data dannes og ændres ofte.
De engelske betegnelser for de tre kendetegn er volume, variety og velocity, og derfor tales ofte om de tre V’er. Der er ikke tale om en præcis definition, men snarere om en liste over specielle udfordringer ved en datakilde, der kræver anvendelse af nogle af de særlige metoder og værktøjer, der i de senere år er udviklet til håndtering af big data.
Anvendelsen af big data i officiel statistik er i fuld gang. Danmarks Statistik har siden januar 2016 anvendt stregkodedata i beregningen af forbrugerprisindekset, og der arbejdes på anvendelse af positioneringsdata fra skibe til transport- og havnestatistik og på anvendelse data fra netportaler som kilde til statistik om ledige stillinger i den offentlige sektor (Danmarks Statistiks Arbejdsplan s. 15). Det nederlandske statistikbureau er meget aktivt i udforskningen af mulighederne (Dass m.fl.), og har bl.a. anvendt automatisk dannede trafikdata til statistik om trafikmønstre. Men der kan opregnes mange flere muligheder (Reimsbach-Kounatze) , f.eks. finansstatistik baseret på aktivitet på nettet og demografisk statistik på grundlag af brugernes egne oplysninger om køn, alder og beskæftigelse mm på sociale medier som linkedin og facebook.
Der må naturligvis stilles samme høje kvalitetskrav til statistik baseret på big data som til al anden officiel statistik, og her er stadig en del der skal undersøges og afklares (Dass m.fl.). Det gælder også spørgsmål omkring jura, fortrolighed og folkelig accept. Kan problemerne løses er mulighederne til gengæld store, både for besparelser og forbedringer i den eksisterende statistik, og for udvikling af helt nye statistikområder.
Rigsstatistikeren (og andre) mener, at anvendelse af big data kan skabe et løft i statistikproduktionen et løft, der kan sammenlignes med det løft anvendelsen af administrative registre skabte (Østergaard Sørensen m.fl.). Og netop kombinationen af de eksisterende registre, big data og en befolkning, der i stort omfang anvender internet og sociale medier, giver unikke muligheder for den danske statistikproduktion.
Skattetrykket
06/04/2016
Kommentarer
Skattetrykket er højt i Danmark, 50,8 pct. i 2014, hvis man måler efter EU’s foretrukne metode, dvs. som skatternes andel af bruttonationalproduktet (BNP). Det er næsten dobbelt så højt som i Rumænien, hvor det er 27,7 pct. I figuren nedenfor er er skattetrykket i alle 28 EU-lande sammenlignet.
Kilde: Eurostats Statistikbank gov_10a_taxag, Grafik: Veusz
Meningen med opgørelsen af skattetrykket er at belyse skatternes rolle i den samlede økonomi. Det giver bedst mening, ved sammenligning mellem lande eller sammenligning over tid, for begrebet i sig selv er vanskeligt at give en økonomisk tolkning. BNP er et mål for den samlede økonomiske værdiskabelse i et land, så i tabellen ses skatterne i forhold til værdiskabelsen.
Men der kan anlægges andre betragtninger på opgørelsen af skattetrykket. Danmarks Statistik præsenter tre alternativer (statistikbanken, SKAT) til den her viste opgørelse med betegnelserne korrigeret skattetryk, modificeret skattetryk og faktorskattetryk (forklaret i begrebsdatabasen). Skatteministeriet går endnu videre og præsenterer på deres hjemmeside tretten forskellige opgørelser af skattetrykket, der alle har deres berettigelse. På ministeriets hjemmeside finder man også en grundig redegørelse for ideerne bag og problemerne ved opgørelse af skattetryk.
Stregkodedata i forbrugerprisindekset
12/02/2016
Kommnentarer (2)
I forbrugerprisindekset for januar 2016, der udkom den 11. februar 2016, har Danmarks Statistik for første gang gjort brug af stregkodedata for priser på føde- og drikkevarer fra supermarkedskæder, som erstatning for data indsamlet af prisindsamlere. Det grundlæggende i beregningerne er ikke ændret. Prisoplysninger fra stregkodedata er blot anvendt i stedet for traditionelt indsamlede prisdata, der hvor det har været muligt. For butikker, hvorfra der ikke leveres stregkodedata — f.eks. mindre butikker — anvendes samme metode som hidtil. Stregkodedata dækker ca. 60 pct. af det samlede salg af føde- og drikkevarer.
Danmarks Statistik har indsamlet stregkodedata siden januar 2011. De indsamlede data har bl.a. været anvendt til at sammenligne de hidtidige prisindeks med indeks opgjort efter den nye metode, hvor stregkoder er anvendt. For det samlede forbrugerprisindeks har den nye metode kun ringe betydning. For delindeksene for fødevarer og ikke-alkoholiske drikkevarer og for alkoholiske drikkevarer og tobak er forskellene heller ikke store, men dog synlige. Ser man på de mere detaljerede delindeks bliver afvigelserne mere tydelige for en del af indeksenes vedkommende, mest markant for indekset for kartofler.
Folketællinger (EU’s Census Hub)
03/02/2016
Kommentarer
Folketællinger udgør et centralt punkt i de fleste landes officielle statistik, og naturligvis har EU fælles regler for opgørelsen af en så central statistik. Det betyder, at der for EU’s medlemslande er sammenlignelige folketællingsdata til rådighed, senest for året 2011. EU har ovenikøbet etableret et internetbaseret værktøj — Census Hub — der gør det nemt at få adgang til alle disse data.
FN’s økonomiske kommision for Europa og Eurostat (EU’s statistiske kontor) er i fællesskab kommet frem til følgende definition (Kilde s 6) på en folketælling:
En operation, der med faste mellemrum tilvejebringer en officiel optælling af befolkningen på en lands territorium og i de mindste geografiske underområder, sammen med information om et udvalg af demografiske og sociale kendetegn om hele befolkningen.
For mange lande er folketællingen den vigtigste kilde til analyse af befolkningens sammensætning i små geografiske områder. Folketællingerne har også andre vigtige funktioner, f.eks. som grundlag for udtagelser af stikprøver til brug for anden statistik og som juridisk grundlag for geografisk fordeling af pladserne i et lands parlament.
Hverken definitionen eller EU’s regler stiller detaljerede krav til, hvordan en folketælling i praksis gennemføres. I EU-forordningens artikel 4 står direkte, at medlemsstaterne kan basere deres folketællinger på forskellige datakilder og opregner en række eksempler. Paolo Valente og Bernard Baffour m.fl. har i artikler om moderne folketællinger opregnet fire, typer af metoder, der har været anvendt i forbindelse med EU’landenes folketællinger.
Traditionel folketælling: Ansatte tællere opsøger hver enkelt husholdning og registrerer for hver person i husholdningen de ønskede oplysninger, f.eks. køn, alder og erhverv. UK. Irland, Portugal, balkanlandene og nogle østeuropæiske lande anvender denne fremgangsmåde.
Rullende folketælling: Befolkningen opdeles i sektioner, f.eks. baseret på kommuner. Hver år gennemføres en fuldstændig optælling i en sektion, men organiseret således at alle sektioner i løbet af en fuld folketællingsperiode (typisk 10 år) er fuldt optalt mindst en gang. Metoden anvendes i Frankrig.
Registerbaseret folketælling: Der afholdes ikke en egentlig folketælling, men de ønskede informationer indhentes gennem anvendelse, herunder samkøring, af eksisterende administrative registre. Det er den metode Danmark og de øvrige nordiske lande anvender.
Virtuel folketælling: Data fra administrative registre kombineres med data fra stikprøvetællinger evt. ved anvendelse af særlige statistiske metoder. Metoden anvendes i en række syd- og centraleuropæiske lande.
Gennem EU’s Census Hub er der adgang til data fra folketællingerne for 2011 for alle EU-landende i et fælles integreret format. Det er ikke EU, men de enkelte medlemslandes statistikinstitutioner, der leverer tabellerne. Cencus Hub er blot en bekvem fælles brugergrænseflade. Data fra tidligere folketællinger i 1990/91 og 2001 kan findes i EU’statistikbank (cens)
Man finder også folketællingsoplysninger om Danmark i Census Hub, selv om Danmarks Statistik ikke i forbindelse med sin statistikbank eller øvrige publicering taler om folketællinger. Det skyldes, at alle de oplysningerne, der indgår i EU-tællingen, er en del af den løbende danske statistik. Der er derfor ingen grund til, at præsentere tallene for 2011 anderledes end tallene for øvrige år.