Syntetiske data

17/11/2020          Taleboble Kommentarer

Originale og fabrikerede datasæt

Når der i forbindelse med  officiel statistik tales om grunddata, tænkes der normalt på målte og registrerede værdier af en eller flere egenskaber ved et tællingsobjekt. Tællingsobjektet kan f.eks. være en person, og egenskaberne kan være køn og alder. Det er sådanne originale data, der er grundlaget for enhver pålidelig statistik. Den diamentrale modsætning til originale data er fabrikerede data, hvor man — eventuelt ved anvendelse af en tilfældighedsgenerator — danner datasæt, hvor objekterne er fiktive og de værdier der er knyttet til egenskaberne er tilfældige og på ingen måde afspejler virkeligheden. Fabrikerede data kan være nyttige under planlægningen af en statistik. De kan f.eks. gøre det muligt, i et vist omfang at teste programkoder tidligt i udviklingsprocessen, inden dataindsamlingen er sat i værk eller afsluttet.

Syntetiske datasæt

Et sted imellem originale og fabrikerede data finder man de syntetiske data. Her er de værdier der tillægges objekterne nok fabrikeret, men det er tilstræbt, at de fabrikerede værdier i en eller anden forstand afspejler virkeligheden. Objekterne i syntetiske data kan selv være syntetiske, men der kan også være tale om originale objekter, der blot tillægges syntetiske værdier for en eller flere egenskaber. Syntetiske data kan ligesom helt fabrikerede data være nyttige i forbindelse med aftestning af programkoder, men kan i nogle tilfælde også anvendes i forbindelse med aftestning af analyse- og målingsmetoder. Den ultimative anvendelse af syntetiske data er til forbedring  (berigelse) af et originalt datasæt.

ONS — UK’s nationale statistikmyndighed  — har i et arbejdspapir foreslået en klassifikation af syntetiske datasæt ( se oversigten nedenfor), der rangordner dem efter analytisk værdi og risiko for fortrolighedsbrud.. De to rangordninger er identiske — jo større analytisk værdi, jo større risiko for fortrolighedsbrud.

ONS’s rangordning af syntetiske datasæt

Type Analytisk værdi Risiko for fortrolighedsbrud Typisk anvendelse
Ordinære syntetiske datasæt Strukturel Ingen Ingen Grundlæggende testning af programkode
Validt Ingen Minimal Avanceret testning af programkode
Udvidede syntetiske datasæt Univariabelt Plausibelt Minimal Betydelig Udvidet testning af programkode
Multivariabelt plausibelt Nogen Høj Uddannelse og eksperimentel testning af metoder
Mutivariabelt detaljeret Nogen Meget høj
Replikeret (beriget) Høj Ekstrem Erstatter originalt datasæt

Kilde: Office for National Statistics: “Synthetic data pilot”

Ordinære syntetiske datasæt

I ordinære syntetiske datasæt er variabelnavne og variabelformater (f.eks. tekst eller heltal) identiske med det originale datasæt. I strukturelle datasæt forekommer forekommer kun værdier af variablene, der også forekommer i det originale datasæt, men uden hensyn til at kombinationen af værdier for den enkelte datapost kan være umulig eller usandsynlig — f.eks gravide mænd eller gifte personer under to år. I valide datasæt er det derimod tilstræbt, at både værdierne og kombinationerne af værdier ar plausible. Endvidere tilstræbes det i valide datasæt at inddrage manglende værdier og fejl, hvis de forekommer i det originale datasæt.Der gøres derimod intet forsøg på at få fordelingerne af de indgående variable til at ligne det originale datasæt. 

Udvidede syntetiske datasæt

I udvidede syntetiske datasæt går man skridtet videre, således at datasættet ikke blot i formel struktur ligner det originale datasæt, men også afspejler dele af indholdet. I univariabelt plausible datasæt tilstræber man, at de marginale fordelinger af variablene er som i de originale data. I multivariabelt plausible datasæt tilstræber man yderligere, at også multivariable fordelinger i et vist omfang afspejler det originale datasæt.

I et replikeret (beriget) datasæt er al information i det originale datasæt bevaret, men yderligere information i form af imputerede data kan være tilføjet. Mangler f.eks. oplysning om en enkelt egenskab for et objekt i det originale datasæt, f.eks. størrelsen af indkomsten for en enkelt husholdning, kan man vælge at erstatte den manglende værdi med værdien fra en anden husholdning, der på de egenskaber, der findes oplysning om f.eks erhverv, adresse, antal børn og alder på husholdningens medlemmer ligner den ufuldstændige husholdning. Ved denne fremgangsmåde, kan syntetiske data øge værdien af det originale datasæt.

Referencer:
Office for National Statistics: “Synthetic data pilot”, ONS methodology working paper series number 16,  januar 2019 (link)

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *


Besøg Offstat's hovedside