Verteilte Anonymisierung von vertikal partitionierten Daten
Das Erheben und Verarbeiten von sensiblen, personenbezogenen Informationen zur statistischen Auswertung ist im medizinischen Umfeld unerlässlich. Aufgrund der Vertraulichkeit der Daten kann eine Veröffentlichung ausschließlich anonymisiert erfolgen. Die De-Identifikation der Daten durch das Entfernen direkt identifizierender Attribute wie dem Namen reicht jedoch nicht aus um die Privatsphäre eines Individuums zu schützen. Moderne Konzepte zum Schutz der Privatsphäre schaffen die Voraussetzung zur Veröffentlichung der Daten unter Einhaltung strenger Datenschutzrichtlinien. Das Konzept der k-Anonymisierung ermöglicht eine Veröffentlichung der Daten ohne deren Semantik zu verändern. Zu diesem Zweck folgt das Prinzip der k-Anonymisierung syntaktischen Vorgaben bezüglich der Form der Veröffentlichung. Die t-Closeness stellt eine vielbeachtete Weiterentwicklung der k-Anonymisierung dar. Sie bezieht die Semantik der Daten in die Anonymisierung ein. Diese Konzepte wurden jedoch nicht für die Anonymisierung räumlich getrennter Daten entwickelt. Dieses Problem entsteht durch die zunehmende Dezentralisierung von Daten. Vielfach erheben verschiedene Institutionen Daten unterschiedlicher Semantik über die gleiche Person. Diese vertikale Partitionierung der Daten stellt neue Anforderungen an Verfahren zum Schutz der Privatsphäre. Während Methoden der dezentralen Anonymisierung mithilfe der k-Anonymisierung existieren, ist dies für das Konzept der t-Closeness nicht der Fall. Die vorliegende Arbeit wird diese Lücke schließen und Anforderungen analysieren, unter denen eine verteilte Datenanonymisierung über vertikal partitionierten Daten mittels des Konzepts der t-Closeness möglich ist. Auf dieser Grundlage wird ein kryptografisches Protokoll zur verteilten Datenanonymisierung mithilfe der t-Closeness konzeptionell entwickelt. The collection of personally identifying information for statistical analysis is inevitable in the context of medical environments. Due to the sensitive nature of the data collected the data has to be anonymized prior to publication. Privacy mechanism like de-identification seek to protect sensitive data by removing directly identifying information like the name of a person. However, it has been shown that de-identification is not sufficient to protect sensitive information. Advanced privacy mechanisms are making the publication of data possible while meeting the demands of strict privacy laws. The concept of k-anonymity allows for the publication of data without loosing its semantics. To achieve this goal k-anonymity follows syntactical rules which operate on the structure of the data. The concept of t-closeness is a well-respected enhancement of k-anonymity. Its notion of privacy incorporates the semantics of data. However, these concepts were not designed to work on distributed data. Due to the increasing de-centralized organization of data this scenario becomes more and more relevant. Often different types of data about the same individual is being collected by more than one institution. This so called vertical partitioning of data places new demands on privacy preserving techniques. While mechanisms of decentralized data anonymization exist for the concept of k-anonymity no known method exists for enforcing the concept of t-closeness in a distributed environment. The present work will close this gap and analyze necessary requirements to achieve decentralized data anonymization over vertically partitioned data while enforcing the concept of t-closeness. Based on previous work a conceptual model of a cryptographic protocol for distributed data anonymization will be developed.
Files in this item