Portfolio |

Sind Ihre Testdaten hinreichend anonymisiert?

Martin Eisoldt hat in seiner wissenschaftlichen Arbeit verschiedene Distanzmetriken zur Messung des Anonymisierungsgrades von Testdaten analysiert.

Martin Eisoldt hat in seiner wissenschaftlichen Arbeit verschiedene Distanzmetriken zur Messung des Anonymisierungsgrades von Testdaten analysiert.

Daten sind die Währung unserer Zeit! Was bei Datenschützern großes Unbehagen er­zeugt, ist für Softwareentwickler von es­sentieller Bedeutung. Dank offener Schnitt­stellen lassen sich Daten aus unzähligen verschiedenen Quellen miteinander kom­binieren und in einen neuen Zusammen­hang stellen.

Es genügt daher in der Qualitätssicherung von Applikationen nicht mehr, ausschließ­lich die reine Funktionalität der Anwendung und der Schnittstellen zu überprüfen. Zu­nehmend wichtiger ist das Zusammenspiel zwischen Applikationen, Schnittstellen und den Daten selbst. Die Datenqualität ist – insbesondere beim Test – ein guter Indikator für die Konsistenz der verwendeten Daten.

Martin Eisoldt und Dr. Carsten Neise von der profi.com AG haben nun den von Jan-Phillip Heinrich programmierten „Testdaten-Validator“ weiterentwickelt, um den Einsatz der Software für Nutzer zu vereinfachen.

Zugleich gibt die wissenschaftliche Arbeit von Martin Eisoldt eine Einordnung, wie sich die Ergebnisse mit unterschiedlichen Parametern verhalten. Die Arbeit basiert auf der Heinrich-Distanz und ordnet diese in Bezug auf andere Distanzmaße ein. Veröffentlicht wurde sie an der TU Chemnitz unter den „Chemnitzer Informatik-Berichten“.

Analyse verschiedener Distanzmetriken zur Messung des Anonymisierungsgrades
Um Software darauf zu testen, wie sie auf die Eingabe realer Daten reagiert, müssen die Testdaten denen aus dem realen Betrieb entsprechen. Die Nutzung von echten Daten ist aber unter datenschutzrechtlichen Aspekten nicht möglich, gerade durch die DSGVO wurden diese nochmal verschärft.

Damit diese Daten verwendet werden können, müssen sie so anonymisiert werden, dass ihre Struktur erhalten bleibt. Damit ist es dann nicht mehr möglich, Rückschlüsse auf real existierende Sachverhalte zu ziehen. Für die Messung der Güte dieser Anonymisierung hat die profi.com AG zuvor bereits ein Konzept entwickelt, welche die Frage zu beantworten hilft, ob Daten hinreichend anonymisiert sind  (laden Sie hier das „White Paper Datenqualität“ herunter, PDF, 2,6 MB).

Dabei wurde eine Distanzmetrik entwickelt, die verschiedene Datentypen untersuchen kann und sich dadurch von bereits existierenden Metriken unterscheidet. Dieser entwickelten Metrik liegt eine auf einer Gaußfunktion basierende Formel zugrunde, welche Parameter zur Anpassung der Berechnung auf verschiedene Einsatzszenarien beinhaltet. Bislang existierten jedoch noch keine aussagekräftigen Erfahrungswerte über das Verhalten dieser Formel mit unterschiedlichen Parametern. Um dazu Aussagen treffen zu können, wurden Daten modifiziert um eine Anonymisierung zu simulieren und danach Testdurchläufe gestartet.

Als Vergleichswerte dienten dazu bekannte Distanzmetriken wie Levenshtein oder Damerau-Levenshtein. Mittels dieser Versuche konnte gezeigt werden, dass der Ressourcenbedarf der komplexeren Metrik den bereits existierenden ähnelt. Zeitgleich ist es aber einfacher, Aussagen über die Anonymisierung eines gesamten Datensatzes zu treffen. So können nun Empfehlungen für die Parametereinstellungen in verschiedenen Einsatzszenarien gegeben werden, so dass das existierende Tool einfacher eingesetzt werden kann.

Autor:in

Profilbild proficom
Guter Content soll nicht verloren gehen. Daher veröffentlichen wir unter diesem Account alle Beiträge, die nicht persönlich zuzuordnen sind, aber dennoch unsere Entwicklung dokumentieren.

Diesen Beitrag teilen