Synthetische data

Duo (Dienst Uitvoering Onderwijs) heeft aangekondigd dat ze synthetische datasets over onderwijs op leerlingniveau kan maken. Synthetische data lijkt qua eigenschappen en relaties op de echte data, met als belangrijk verschil dat de privacy van de individuen wordt beschermd. Onderwijsonderzoekers kunnen een aanvraag indienen bij Duo. Als de data van Duo past bij het onderzoek dan krijgen de onderzoekers een synthetische versie van de data.

Het gebruik van synthetische data zorgt ervoor dat, als Duo zorgvuldig is geweest, de synthetische dataset geen persoonsgegevens meer bevat. Hierdoor hoeven de onderzoekers zich geen zorgen te maken om de AVG. Ook voor Duo zelf is het dan geen probleem meer om de gegevens te delen, want dit zijn geen persoonsgegevens meer.

Hoe werkt het?

De theorie van synthetische data is dat men probeert om de originele dataset te omschrijven in kansverdelingen. Dit is een stap van individuele metingen en waardes naar algemene eigenschappen. Op basis van deze algemene eigenschappen worden vervolgens nieuwe individuen gegenereerd. Als de algemene eigenschappen van de originele dataset goed zijn omschreven dan zal de gegenereerde dataset niet te onderscheiden zijn van de originele dataset.

Duo heeft voor dit project de programmeertaal R gebruikt en het synthpop pakket. Dit pakket is een implementatie van een specifieke manier om synthetische data te genereren. Hierbij worden de verschillende variabelen na elkaar gegenereerd. Waar de eerste variabele puur op basis van de originele variabele wordt gegenereerd, gebruiken alle volgende variabelen de voorgaande variabelen om hun kansverdeling te bepalen. Hierdoor blijven verbanden tussen variabelen bewaard, zoals dat mannen bijvoorbeeld langer zijn dan vrouwen en dat langere mensen zwaarder zijn.

Privacy

De belangrijkste reden voor het gebruiken van synthetische data is het beschermen van de privacy van de mensen in de originele dataset. Als het genereren van de synthetische data goed wordt gedaan, dan is het niet meer mogelijk om de mensen uit de originele dataset te identificeren. Dan is de synthetische dataset geanonimiseerd en daardoor is de AVG niet meer van toepassing. Het gebruiken van de originele dataset voor het maken van een synthetische versie past mooi bij artikel 89 van de AVG. Dat artikel stelt de voorwaarden voor het gebruiken van persoonsgegevens voor o.a. wetenschappelijk onderzoek.

Waar moet je op letten bij het genereren van synthetische data? Ten eerste is het van belang dat de methode voor het genereren van de data in staat is om de originele data goed te verbergen. Het mag niet mogelijk zijn om met het genererende model de originele data te achterhalen. Ten tweede is het ook van belang om niet te voorzichtig te zijn. Een model wat te algemeen is zal een dataset genereren die niet de details van de originele dataset bevat. Als laatste is het van belang om de uiteindelijke synthetische dataset te controleren voordat deze gedeeld wordt, om te checken of er niks raars in staat.

Conclusie

Synthetische datasets bieden voor onderzoekers een grote kans om onderzoek te doen zonder zorgen over privacy. Ook biedt deze technologie organisaties met veel data zoals Duo de kans om deze data te delen met onderzoekers zonder de privacy van de mensen in die datasets in gevaar te brengen. Bij het samenwerken tussen organisaties kan synthetische data een oplossing zijn voor AVG problemen. Het is natuurlijk wel van belang dat de methode om de data te synthetiseren daadwerkelijk in staat is om de individuen in de originele dataset te beschermen.

Details
More questions?

If you were not able to find an answer to your question, contact us via our member-only helpdesk or our contact page.

Recent Articles