Differential privacy i den amerikanske folketælling
14/05/2019 Kommentarer
Som omtalt i mit tidligere indlæg om differentiel privacy (link) har man i USA besluttet, at differential privacy (i det følgende kaldet DP) skal være grundlaget for fortrolighedsbeskyttelsen i den amerikanske folketælling for 2020. Den beslutning har stillet Folketællingsbureauet (Census Bureau) over for en række udfordringer. Bureauets afdelingsdirektør for forskning og metode — John Abowd — har i et foredrag offentliggjort på YouTube leveret nogle overvejelser omkring disse udfordringer. Han har også sammen med Simson L. Garfinkel og Sarah Powazek lidt dybere redegjort for udfordringerne i artiklen “Issues Encountered Deploying Differential Privacy“.
DP er et ret nyt forskningsobjekt — de første artikler om emnet udkom i begyndelsen af dette årtusind — så en af udfordringerne har været, at finde kvalificeret personale og egnede redskaber bl.a i form af programmel og matematiske metoder. I det omfang programmel og metoder eksisterer, har de vist sig ikke umiddelbart at kunne opfylde bureauets konkrete behov, så udviklingen af nye metoder er også en udfordring. Men den største udfordring er efter Abowds opfattelse at få brugerne til at forstå, at de nye offentliggørelsesprincipper, som bliver følgen af DP, i mange tilfælde kræver, at de de hidtil anvendte modeller, værktøjer og metoder må ændres.
Det er et centralt led i en DP-baseret fortrolighedpolitik, at den samlede information, der kan offentliggøres på grundlag af en given database, i dette tilfælde folketællingsresultaterne, må begrænses. Det kan ske ved lægge loft over omfanget af data , der offentliggøres, eller ved af mindske præcisionen i offentliggørelserne. Præcisionen mindskes ved de tal der offentliggøres afviger lidt fra de faktisk opgjorte tal. Det kaldes at indlægge støj i opgørelserne. I praksis vil en kombination af de to metoder blive anvendt
Hvor megen information, der tillades udtrukket af databasen, skal afgøres på forhånd ud fra en afvejning mellem risikoen for fortrolighedsbrud og ønsket om mest mulig information. Det er en politisk og ikke en teknisk afvejning, så den afgørelse vil blive truffet i en politisk beslutningsproces. Resultatet bliver et informationsbudget, som herefter skal fordeles mellem forskellige anvendelser. Det kan næppe undgå at give konflikter mellem forskellige brugerinteresser. Det vil nok også skabe utilfredshed hos brugerne, at deres hidtidige metoder og programmer skal tilpasses. F.,eks. vil mikrodatasæt ikke nødvendigvis kunne leveres i den hidtidige form.
Referencer:
Simson L. Garfinkel, John M. Abowd og Sarah Powazek: “Issues Encountered Deploying Differential Privacy”, arXiv:1809.02201v1 [cs.CR] 6 Sep 2018 (link)
John M. Abowd: “Stepping-up: The Census Bureau Sets an Example of How to Be a Good Data Steward in the 21st Century”, YouTube (link)