Data Science Campus

21/05/2019          Taleboble Kommentarer

I marts 2017 oprettede det britiske nationale statistikinstitut, Office for National Statistics (tidl. indlæg) en særlig enhed for forskning og uddannelse under navnet Data Science Campus (DSC). Enheden fik hjemsted i Newport i Wales, hvor Office for National Statistics har et af sine kontorer. Oprettelsen var et af resultaterne af anbefalingerne i den såkaldte Bean-rapport fra 2016 (tidl. indlæg), hvor professor Charles Bean leverede en samlet vurdering af den britiske økonomiske statistik og en række anbefalinger til forbedringer. I anledning af DSC’s toårsdag i marts 2019, blev en status for udviklingen i de første to år offentliggjort. 

På udannelsessiden tilbyder DSC et omfattende program for videreuddannelse af offentligt ansatte, rækkende fra to-timers workshops til en 2-4 årig kandidatuddannelse som datanalytiker med særlig fokus på behovene i den offentlige administration, herunder den officielle statistik. Der tilbydes også overbygningsuddannelser for kandidater (post-graduate). 

På udviklingssiden har DSC en række projekter kørende bl.a. om statistisk anvendelse af betalingsdata,  risiko for ensomhed, og bedre forståelse af hvad der kendetegner virksomheder med høj vækst. Blandt de afsluttede projekter kan nævnes dannelse af syntetiske data og forbedring af søgefunktionen på Office for National Statistics’ hjemmeside. DSC tilstræber en høj grad af åbenhed i sit arbejde og stiller det programmel, der udvikles, til rådighed for andre gennem GitHub.

Referencer:
Data Science Campus:
Hjemmeside, (link)
Data Science Campus: “Our First Two Years”, (link)
Data Science Campus: github side (link)

 


Trafikkameraer som grundlag for statistik

01/12/2020          Taleboble Kommentarer

Covid19-krisen har rejst en efterspørgsel efter nye typer af statistik, der kan belyse krisens udvikling og effekten af de politiske tiltag, der sættes i værk for at holde den under kontrol. De nationale statistikmyndigheder — herunder Danmarks Statistik (se tidl. indlæg) — har været hurtige til at søge at imødekomme de nye behov ved at udvikle og offentliggøre nye statistikker, ofte af eksperimentel karakter. Det er navnlig statistik om udviklingen i økonomiske forhold — både nationalt og privat — og i befolkningens sundhed og adfærd, der efterspørges.      

Et af eksperimenterne går ud på, at anvende trafikovervågningskameraer som grundlag for statistik over den trafikale aktivitet fordelt på fodgængere og forskellige køretøjstyper. Eksperimentet er iværksat af Office for National Statistics (ONS)  — UK’s officielle statistikmyndighed — og udviklingsarbejdet er udført på Data Science Campus  — en forsknings- og uddannelsesenhed under ONS (se tidl. indlæg). Projektet er næmere beskrevet i et dokumentationsnotat fra Data Science Campus

Udgangspunktet for eksperimentet er, at der i UK findes et meget stort antal trafikovervågningskameraer i drift, som umiddelbart og uden større omkostninger, kan levere et omfattende grundmateriale i form af billeder. Grundlæggende for projektet er anvendelse af programmel, der automatisk kan identificere objekter som biler, busser, cyklister og fodgængere på de mange billeder. En væsentlig del af projektet har derfor været, at sammenligne forskellige systemer til objektidentifikation i bllleder. Valget er faldet på en arkitektur, der går under navnet Faster-RCNN. 

Der er stor forskel på antallet af kameraer i forskellige geografiske regioner. Derfor er etablering af et system til aggregering af de regionale data til et samlet skøn for UK i første omgang ikke forsøgt, men det nævnes som et muligt fremtidigt projekt. I stedet præsenteres resultaterne for tre regioner — London, Manchester og Nordirland — hver for sig. For hver region vises dagligt antallet af biler, antallet af busser og det samlede antal af fodgængere og cyklister. Antallet af personer i biler og busser kan ikke opgøres med denne metode. Opgørelserne er tænkt som indikatorer for ændringer i aktiviteten over tid, men er ikke egnede til vurdering af det samlede trafikomfang

Sammenlignet med andre mulige metoder til registrering af trafikstrømme, f,eks.manuel optælling af passerede køretøjer og fodgængere, har kameradata en række fordele. Først og fremmest kan de opgøres med høj frekvens, f.eks. dagligt, og de kan offentliggøres meget hurtigt efter optællingsperiodens afslutning. Dertil kommer, at metoden er billig, bl.a. fordi der er tale om genanvendelse af data indsamlet til andet formål, og at man undgår fortrolighedsproblemer, da kun objekternes type, og ikke deres identitet, registreres.

Naturligvis er der også en række svagheder ved metoden. Bl.a. er valget af opstillingssteder for kameraerne styret af forskellige myndigheders specifikke behov for trafikdata, så de indsamlede data er ikke repræsentative for den samlede trafik. En anden svaghed er, at variationer i vejr og belysning kan påvirke billedets kvalitet, så præcisionen af optællingen kan variere under dataindsamlingen.

Generelt er optælling af fodgængere en af de større udfordringer ved denne type opgørelser. I den forbindelse har covid19-restriktionernes afstandskrav været en hjælp, fordi den større afstand har gjort det nemmere at identificere de enkelte fodgængere. Det er derfor ikke sikkert, at metoden uden videre kan anvendes, når engang restriktionerne lettes.

Dokumentationsnotatet har en række forslag til fremtidige forbedringer af metoden. Ønsket om en aggregeret opgørelse for hel UK er allerede nævnt. Mere generelt ønskes forbedringer af metoden, der kan gøre data mere repræsentative for den samlede trafik. 

Referencer:
Alistair Edwardes: “Estimating vehicle and pedestrian activity from town and city traffic cameras”, Data Science Campus (web), September 3, 2020 (link)
Office for National Statistics: “Coronavirus and the latest indicators for the UK economy and society: 12 November”, (link)