Bog af Tim Harford om at skabe mening i statistik
09/08/2022 Kommentarer
Alle læsere af denne blog må formodes at være enige i, at statistik er nyttig og nødvendig. De fleste vil nok også være enige i, at det kan kræve en indsats, at få styr på, hvad indholdet af en statistik egentlig er. En erfaren statistikbruger — økonomen Tim Harford — har gjort den proces lidt nemmere ved at skrive en bog med vejledning i, hvordan man skaber mening i en statistisk opgørelse. Bogens titel er The Data Detective og udkom i februar 2021.
Bogens indhold er sammenfattet i følgende 10 råd:
- Vær bevidst om dine følelser
- Overvej din personlige oplevelse
- Undgå for tidlig opregning
- Træd tilbage og nyd udsigten.
- Tjek baggrundshistorien
- Spørg hvem der mangler
- Kræv gennemsigtighed, når computeren siger nej.
- Tag ikke det statistiske fundament for givet
- Husk, at misinformation også kan være smuk
- Fasthold et åbent sind
I listen har jeg ved farvemarkering opdelt rådene i tre grupper. Råd der vedrører hvordan man mentalt forholder sig, når en statistik vurderes og analyseres, er markeret med rødt, konkrete råd vedrørende vurdering af statistikkens kvalitet er markeret med blåt, og to råd — det syvende og det ottende — der mere principielt vedrører datagrundlaget og dets tilvejebringelse er markeret med grønt. Jeg vil i det følgende give en kort uddybning af de to sidstnævnte råd. En kort sammenfatning af alle ti råd kan findes hos Jessica Stillman, og i Harford’s bog har hvert af rådene sit eget kapitel, hvor det uddybes grundigt.
Det ottende råd er en opfordring til at værdsætte de muligheder, den officielle statistik tilbyder. Hvis de officielle statistikproducenter overholder de internationale retningslinjer — og det gør producenterne i næsten alle udviklede lande — får man her en statistik, der er udarbejdet efter professionelle og vederhæftige principper, og som ledsages af en dokumentation, der gør det muligt for brugeren selv at vurdere statistikkens kvalitet (råd nr. 3-6) i forhold til hans konkrete behov. Statistikkvalitet er nemlig ikke et absolut begreb. Kvaliteten af en statistik kan være tilstrækkelig til et formål, men ikke til et andet. Det er brugerens opgave at vurdere, om kvaliteten er tilstrækkelig, men det er producentens opgave at levere den dokumntation, der gør vurderingen mulig.
En helt central forudsætning for pålidelig officiel statistik af høj kvalitet er, at de institutioner, der producerer den officielle statistik, er professionelle og uafhængige. Som nævnt er det hovedreglen i udviklede lande, men det må ikke ses en som en selvfølge, og Harford opfordrer kraftigt til at støtte de personer — som han betegner som nørder — der i det daglige står for produktionen af den officielle statistik, især ved at beskytte dem mod pression. Han giver adskillige eksempler på at pression er forekommet. Et af de værste eksempler er den græske regerings behandling af chefstatistikeren Andreas Georgiou (beskrevet i denne blog i indlæg fra 18/2-2020, 16/10-2018 og 15/08-2017)
Det syvende råd handler navnlig om statistik baseret på anvendelse af organiske data (big data, 11/8-2020 og 19/5-2020). De meget store datamængder, der ofte ligger til grund for sådanne statistikker, kan forlede brugeren til at tro, at resultaterne har en høj grad af sikkerhed. I virkeligheden er de anvendte data ofte så usikre, at de er problematiske at anvende. Hertil kommer, at konklusionerne, som ofte er frembragt af algoritmer, der kun søger mønstre i datamaterialet, men ikke inddrager overvejelser om mulige årsager og virkninger, og slet ikke overvejer i hvilket omfang resultaterne kan generaliseres. Resultatet er, at de sammenhænge algoritmerne finder, kan vise sig ikke at holde, når de forsøges anvendt i praksis. Det hele forværres af, at både data og algoritmer ofte ejes af private virksomheder, der ser deres viden kom vigtige forretningshemmeligheder, og derfor kun i begrænset omfang offentliggør detaljer om data og metoder. Harford mener bestemt ikke, at man skal afstå fra at anvende organiske data, men han opfordrer til, at man kræver indsigt i kilder og metoder, på samme måde som det sker i den officielle statistik.
Harfords bog er på mange måder et modstykke til en af mest udbredte introduktioner til statistik: Hvordan man lyver med statistik af Dariel Huff. Som det fremgår af titlen, så tager Huff udgangspunkt i en anvendelse af statistikken, der kun kan betegnes som misbrug. Og naturligvis bliver statistiske metoder misbrugt til udbredelse af falsk information, men det er dog lidt skævt og negativt, at bygge en vejledning i anvendelse af et redskab på, hvordan redskabet kan misbruges. Tim Harford er bestemt ikke blind for, at misbrug af statistik forekommer. Misbruget kan være led i en bevidst vildledning, men ofte er der nok tale om misforståelser, og rigtigt anvendt og forstået er statistik et nyttigt og helt uundværligt værktøj.
Referencer:
Tim Harford: “The Data Detective – Ten Easy Rules to Make Sense of Statistics”, Riverhead 2021
Jessica Stillman: “10 Rules to Be Smarter About Statistics”, Inc. (link 1/8-2022)