Differential Privacy - Künstliche Intelligenz

Beim Datenschutz setzt DQ0, unser Tool, mit dem Forschern Zugriff auf Patientendaten DSGVO-konform gewährt werden kann, auf Differential Privacy. Was genau steckt hinter dem fortschrittlichsten Datenschutz?

Differential Privacy ist ein Versprechen.

Ein Dateninhaber verspricht einer Person, deren Daten sie oder er verarbeiten möchte, dass diese Person nicht nachteilig oder überhaupt irgendwie betroffen sein wird, dadurch, dass ihre Daten im Rahmen einer Analyse verarbeitet werden. Und zwar unabhängig davon, welche anderen Daten aus Studien, Datensätzen oder dritten Informationsquellen zur Verfügung stehen.

Keine Maskierungen

Differential Privacy kann Daten im besten Falle bei maximalem Datenschutz allgemein verfügbar machen, ohne vorher aufwändige Anonymisierungs- oder Maskierungsoperationen auf den Daten durchführen zu müssen.

Beispiel

Bei Differential Privacy geht es darum, allgemeine Aussagen über die Gesamtheit eines Datensatzes, aber nichts über einzelne Datenpunkte (Individuen) zu lernen. Das folgende Beispiel soll die Herausforderung an den Datenschutz bei statistischen Analysen und die Lösung, die Differential Privacy dafür eröffnet, illustrieren:

A und B arbeiten beide als Analysten bei einem Beratungsunternehmen. Sie haben beide Zugriff auf eine gesicherte Datenbank, welche personenbezogene Daten enthält. Unter anderem sind in dieser Datenbank Werte über das Einkommen der enthaltenen Personen gespeichert. A und B veröffentlichen nun unabhängig voneinander – mit einem zeitlichen Abstand von einigen Wochen – Analysen zur Gehaltsentwicklung in bestimmten Regionen.

Einige dieser Regionen sind in beiden Analysen enthalten. Die Angaben über die Gehälter sind in den Analysen als Mittelwerte über alle Gehälter von Personen in den jeweiligen Regionen angegeben. Die Analysen enthalten außerdem summierte Werte über die Größe der Populationen pro Region.

Ein externer Beobachter C erhält nun, zufällig oder gewollt, Zugang zu beiden Analysen. Er stellt fest, dass in einigen Regionen die Summen, also die Anzahl der Personen in diesen Regionen, nur minimal voneinander abweichen.

Er stellt weitere Nachforschungen an und erfährt, dass es in diesen Regionen im Zeitraum zwischen den beiden Analysen von A und B einige Zuzüge oder Wegzüge gab. Durch weitere Recherchen kann er für einige dieser Regionen die Personen identifizieren, die in der einen Analyse, nicht aber der anderen enthalten sind. Durch einen Vergleich der gemittelten Gehälter kann er so das Gehalt einzelner Personen bestimmen. Er kann also schützenswerte Informationen über die sensiblen Daten gewinnen, obwohl die Analysen – getrennt voneinander betrachtet – augenscheinlich diese Informationen nicht preisgeben.

Nichts wird geändert

Differential Privacy verspricht nun aber genau dies: dass das Hinzufügen oder Entfernen einzelner Datenpunkte am Analyseergebnis nichts (oder nur sehr wenig) ändert. In diesem Beispiel kann dies erreicht werden, indem zu den Mittelwerten der Gehälter und den Summen der Populationen ein zufälliges Rauschen hinzugefügt wird. Damit lässt sich ein genauer Vergleich über beide Analysen nicht mehr anstellen. Und dennoch behalten die Analysen jeweils ihre Aussagekraft.

Differenziell privat

Differential Privacy setzt also bei der Datenabfrage an, nicht bei den Daten selbst. Wenn mehrere Analysen von Daten derselben Gruppe durchgeführt werden, gilt, solange jede der Analysen der Differential Privacy genügt, dass alle veröffentlichten Informationen, wenn sie zusammengenommen werden, weiterhin „differenziell privat“ sind. Solange die Antworten an Datenabfragen das Differential Privacy Versprechen einhalten, zum Beispiel, indem sie wie oben beschrieben den aggregierten Resultaten Rauschen hinzufügen, sind alle Antworten sicher, auch wenn sie kombiniert werden.