Befolkningsstatistik på grundlag af Google Street View
28/03/2017
Kommentarer
Med specielle kameraer monteret på biler, rygsække, små vogne (trolleys), snescootere og trehjulede cykler har Google gennemfotograferet store dele af verden. En gruppe amerikanske forskere er nu kommet på den ide, at anvende det omfattende fotomateriale til at estimere socioøkonomiske og demografiske størrelser som alder, køn, race , uddannelse, beskæftigelse (Timnit Gebru, Jonathan Krause, YilunWang, Duyun Chen, Jia Deng, Erez Lieberman Aiden og Li Fei-Fei: Fine-Grained Car Detection for Visual Census Estimation). Også politiske præferencer inddrager de i eksperimentet. Fremgangsmåden har to store fordele. Den er væsentligt billigere end traditionel dataindsamling, og resultaterne kan foreligge langt hurtigere.
Metoden går dog ikke ud på direkte at analysere de personer, der forekommer på billederne. I stedet analyseres de biler, der kan ses på billederne, og udfra mærke og årgang mv. på de biler, der kan identificeres i et givet geografisk område, drages konklusioner om områdets demografiske og socioøkonomiske kendetegn. Om årsagen til den indirekte fremgangsmåde er hensyn til beskyttelse af privatlivet, eller metodiske overvejelser skal være usagt, men det er oplagt, at de etiske aspekter omkring metoden også kræver opmærksomhed. Dem vil jeg dog ikke komme nærmere ind på i dette indlæg, men fokusere på metoden og dens resultater.
Udgangspunktet for eksperimentet er 50 millioner af Googles gadebilleder fra 200 amerikanske byer. Ved anvendelse af avanceret computerteknologi (deep learning computer vision) blev der på billederne fundet 22 millioner biler, og for hver bil blev mærke, model og årgang (2.657 kategorier) bestemt. Bilobservationerne for 35 af de 200 byer blev sammen med data fra folketællinger og præsidentvalg brugt til at estimere en sammenhæng mellem sammensætningen på de de 2.657 bilkategorier og en række socioøkonomiske og demografiske variable. F.eks. ser det ud til, at asiater foretrækker asiatiske biler (Honda og Toyota), at sorte foretrækker Chrysler, Buick og Oldsmobile, og at hvide foretrækker VolksWagen og Aston Martin. Der ser også ud til at være en sammenhæng mellem politiske præferencer og valg af bil. Demokrater foretrækker tilsyneladende biler af sedan-typen, hvor republikanere i højere grad vælger pickup trucks.
Estimaterne af sammenhængende fra de 35 byer blev herefter anvendt til i resten af de 200 byer at estimere befolkningens sammensætning på socioøkonomiske og demografiske grupper ud fra bilparkens sammensætning. Disse estimater blev så holdt op imod folketællingens og præsidentvalgets resultater. Overensstemmelsen var overraskende god.
Metoden kan ikke helt erstatte traditionel dataindsamling. Traditionelle statistiske data er bla. nødvendige for at estimere den sammenhæng mellem bilparkens sammensætning og de demografiske og sociale variable, der er metodens fundament. Men hvis pålideligheden af de foreløbige resultater bekræftes, kan metoden bidrage til både hurtigere og billigere statistikker.
