Alle lyver! — Internettet som sandhedsserum?
17/08/2021 Kommentarer
Statistikproducenter og -brugere har altid vidst, at manglende ærlighed hos respondenterne omkring kontroversielle og/eller sensitive emner kan give alvorlige skævheder i den færdige statistik. F.eks. må man regne med, at forbruget af tobak, alkohol og bordelbesøg kan være undervurderet i forbrugsundersøgelser, at tid anvendt på motion og avislæsning kan være overvurderet i tidsanvendelsesstudier og at andelen af negative holdninger til minoriteter kan være undervurderet i holdningsundersøgelser. Brugere af statistikken er naturligvis opmærksomme på disse skævheder, og kan tage dem i betragtning i forbindelse med analyser, men det grundlæggende problem — at skævhederne er der, og at man ikke kender omfanget af dem — har man ingen løsning på. Men det er man måske ved at få. Det er i hvert fald den konklusion Seth Stephens-Davidowitz — forsker i dataanalyse og datajournalist ved New York Times — når frem til i en veloplagt og indholdsmættet bog: Everybody Lies, Big Data, New Data and What the Internet Can Tell Us About Who We Really Are (Stephens-Davidowitz, 2017).
Årsagen til skævhederne er, at respondenterne i de traditionelle statistiske undersøgelser kan have et ønske om at fremstå positivt med socialt anerkendte vaner og holdninger, også selv om de loves fuld annonymitet. Derimod har de kun et svagt eller intet incitament til at sige sandheden. Ved informationssøgning på internettet er det omvendt. Her kan man kun få den information man søger, ved at være ærlig i sine søgetekster. Søger man f.eks. links til racistiske vittigheder er man nødt til at afsløre det i sine søgetekster. Stephens-Davidowitz’s pointe er, at man ved at analysere søgetekster kan få et mere realistisk indblik i udbredelse af kontroversielle holdninger og adfærd end det er muligt i traditionelle undersøgelser. Internettet kan på den måde fungere som sandhedsserum.
Rollen som sandhedsserum er en vigtig side af anvendelsen af søgeord som datakilde, men metoden er også anvendelig på områder, hvor respondenterne ikke har incitamenter til at lyve. Anvendelse af metoden kræver naturligvis, at der udvikles egnede analysemetoder, men den udvikling er i fuld gang, og Stephens-Davidowitz er selv en af de store bidragsydere. Han har bl.a. brugt metoden til undersøgelser af racismes indflydelse på Barack Obamas valgresultater , udbredelsen homoseksualitet, forskelle i opdragelsen af piger og drenge og årsager til depression.
Når vi (og Stephens-Davidowitz) taler om internetsøgning er det oftest Google-søgninger der tænkes på, og det er da også Google-søgninger, der er hovedgrundlaget for Stephens-Davidowitz’s undersøgelser. Og det datagrundlag stiller Google gratis til rådighed for alle i form af Google Trends. Grundlæggende er Google Trends meget simpelt at anvende. Man indtaster et søgeemne eller en søgesætning og får som svar en graf, der viser et indeks for udviklingen i emnets eller sætningens popularitet (andelen af samtlige søgninger) over en periode. Der ligger data tilbage til 2004. Google trends giver ikke baggrundsoplysninger om hvem, der har søgt, bortset fra en geografisk opdeling. En vigtig del af Dawidovitz’s metode består i at sammenholde søgeordsdata fra et geografisk område med data fra andre kilder om samme område.
Davidowitz finder flere styrker ved internettet, som gør det specielt i forhold til mere traditionelle datakilder, men muligheden for at få pålidelige data på sensible områder er den vigtigste. Og den styrke har intet med omfanget af data at gøre, så i den sammenhæng er betegnelsen big data misvisende. I tidligere indlæg (f.eks 19/5-2020 og 11/9-2020) har jeg anvendt den mere sigende betegnelse organiske data, som er foreslået af Robert Groves — tidligere direktør for det amerikanske folketællingsbureau.
Referencer:
Seth Stephens-Davidowitz: “Everybody Lies — Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are”, Harper Collins Publ, 2017