Was ist Datenmaskierung?

Datenmaskierung ist eine Datensicherheitstechnik, bei der Daten verschlüsselt werden, um eine nicht authentische Kopie für verschiedene Nichtproduktionszwecke zu erstellen. Die Datenmaskierung behält die Eigenschaften und die Integrität der ursprünglichen Produktionsdaten bei und hilft Unternehmen, Datensicherheitsprobleme zu minimieren, während sie Daten in einer produktionsfremden Umgebung verwenden. Diese maskierten Daten können für Analysen, Schulungen oder Tests verwendet werden.

Beispiel der Datenmaskierung

Ein einfaches Beispiel für Datenmaskierung ist das Verbergen von personenbezogenen Daten. Angenommen, eine Organisation hat eine Mitarbeitertabelle in ihrer Datenbank. In der Tabelle stehen die Personalnummer und der vollständige Name jedes Mitarbeiters. Durch Datenmaskierung kann die Organisation ein Replikat der ursprünglichen Datenbank erstellen, das einen gemeinsamen Vor- und Nachnamen verwendet.

Warum benötigen Unternehmen Datenmaskierung?

In den letzten Jahren sind die Datenschutzbestimmungen sehr streng geworden. Die Einführung von Vorschriften wie der Allgemeinen Datenschutzverordnung (DSGVO) hat Unternehmen gezwungen, ihre Daten strikt zu schützen. Dies hat die Verwendung der Daten der Organisation zum Testen oder Analysieren erheblich eingeschränkt.

Angenommen, ein Gesundheitsunternehmen möchte sein Kundenverhalten analysieren und untersuchen. Möglicherweise möchten sie den Analyseauftrag an einen Drittanbieter auslagern. Wenn sie die authentischen Gesundheitsinformationen ihrer Kunden an einen Anbieter weitergeben, besteht die Möglichkeit einer Datenverletzung. In solchen Szenarien hilft die Datenmaskierung.

Daten sind eines der wichtigsten Ressourcen einer Organisation. Datenmaskierung hilft Unternehmen dabei, die maximalen Vorteile von Daten zu nutzen, ohne die Datensicherheit zu gefährden.

Eine Lösung für die Regulierung, Verwaltung und dem Verbrauch aller gemeinsam genutzten Daten-Assets
Eine Lösung für die Regulierung, Verwaltung und dem Verbrauch aller gemeinsam genutzten Daten-Assets
Vermeiden Sie Silos mit einem All-in-One-Ansatz zur Verwaltung von Datenressourcen im gesamten Unternehmen.

Was sind die gängigen Datenmaskierungsmethoden?

Substitution

Bei der Substitutionsmethode wird der ursprüngliche Datenwert in einem Datensatz durch einen nicht authentischen Wert ersetzt. In einer Kundendatenbank könnte beispielsweise jeder männliche Name durch einen Standardwert ersetzt werden. Jeder weibliche Name könnte durch einen anderen Wert ersetzt werden. Durch Substitution wird sichergestellt, dass das Format der nicht authentischen Daten genau mit den Originaldaten übereinstimmt. Im obigen Beispiel behält das Datenmaskierungssystem auch das Kundenverhältnis zwischen Männern und Frauen bei, indem es die männlichen und weiblichen Namen getrennt ersetzt.

Mischen

Dies ist eine gängige Datenmaskierungstechnik, bei der die Werte vertikal in einer Spalte einer Datenbanktabelle gemischt werden. Wenn wir eine Tabelle maskieren müssen, in der die Salden der einzelnen Bankkonten gespeichert sind, werden die Spalten mit den Kontosalden zufällig gemischt. Auf diese Weise haben die Kontonummern einen zufälligen Saldo und nicht die authentischen Daten. Ein Vorteil des Mischens besteht darin, dass der Aggregatwert der Spalte auch nach der Datenmaskierung gleich bleibt.

Mittelwertbildung

Bei der Mittelwertbildung werden alle numerischen Werte in einer Tabellenspalte durch einen Durchschnittswert ersetzt. Im obigen Beispiel für den Kontostand wird jeder Kontostand durch den Durchschnitt aller Salden ersetzt. Dies macht es unmöglich, den Saldo einzelner Konten herauszufinden. Dieser Prozess behält auch den Gesamtwert bei.

Redigierung und Nullung

Die Redigierung ist die einfachste Methode zur Datenmaskierung. Die vertraulichen Daten werden durch einen generischen Wert wie „X“ ersetzt. Es ist üblich, Telefonnummern oder Kreditkartennummern zu maskieren. Nullung ist ein ähnlicher Prozess, aber anstelle des generischen Werts wird eine NULL in das Datenfeld eingefügt. Dieses Verfahren hat verschiedene Nachteile. Eine Nullung kann zu verschiedenen Dateninkonsistenzen führen. Es unterstreicht auch die Tatsache, dass die Daten maskiert sind.

Wahrung der Verschlüsselungsformate

Mit einer Verschlüsselung werden Daten in eine unlesbare Reihe von Symbolen umgewandelt. Standardverschlüsselungsmethoden wandeln normalerweise einen Datenpunkt in eine Zeichenfolge mit zufälliger Länge um. Für die Datenmaskierung sollte die Verschlüsselung die Länge und das Format der Originaldaten beibehalten, um die Datenintegrität zu wahren. Daher wird ein formatwahrendes Verschlüsselungsverfahren verwendet, um Daten zu maskieren. Im Gegensatz zu den oben genannten Methoden können verschlüsselte Daten rückgängig gemacht werden, wenn der Verschlüsselungsschlüssel verfügbar ist, was ein Sicherheitsrisiko darstellen kann. Dennoch verwenden viele Organisationen Verschlüsselung für die Datenmaskierung.

Wie lauten die allgemeinen Regeln der Datenmaskierung?

Datenmaskierungstechniken müssen einige Regeln befolgen, damit die transformierten Daten weiterhin nützlich sind.

Datenmaskierung darf nicht umkehrbar sein

Sobald die Datenmaskierungstechnik die authentischen Daten transformiert hat, sollte es unmöglich sein, die Originaldaten aus maskierten Daten abzurufen. Wenn die Daten umkehrbar sind, handelt es sich um ein schwerwiegendes Sicherheitsproblem.

Die Daten müssen repräsentativ sein

Die Datenmaskierungstechnik sollte die Art der Daten nicht verändern. Bei der Datenmaskierung sollten die Transformationen so verwendet werden, dass die geografische Verteilung, die Geschlechterverteilung, die Lesbarkeit und die numerischen Verteilungen der Originaldaten erhalten bleiben.

Integrität sollte nicht beeinträchtigt werden

Die Datenmaskierung sollte die Integrität der Datenbank nicht beeinträchtigen. Wenn die Kreditkartennummer beispielsweise der primäre Schlüssel einer Tabelle ist, der zum Maskieren verschlüsselt wird, sollte jede Instanz dieser Kreditkartennummer identisch verschlüsselt werden. Kurz gesagt: die Datenmaskierung sollte die referenzielle Integrität nicht beeinträchtigen.

Maskieren nicht sensibler Daten, wenn sie sensible Daten betreffen

Die Datenmaskierung maskiert nicht unbedingt jedes Feld in einem Datensatz. In einer Kundenakte kann es beispielsweise nicht erforderlich sein, das Geschlecht des Kunden zu maskieren, da alle vertraulichen Informationen bereits maskiert sind. Wenn die nicht-sensiblen Daten zur Rekonstruktion der sensiblen Daten verwendet werden können, müssen sie aus Sicherheitsgründen maskiert werden.

Datenmaskierung sollte automatisiert werden

Die Datenmaskierung ist kein einmaliger Vorgang. Da sich die Produktionsdaten häufig ändern, sollte das Datenmaskierungssystem ein maskiertes Replikat der neuen Daten erstellen. Wenn die Datenmaskierung nicht automatisiert ist, kann sie teuer, ineffizient und ineffektiv sein.

Workflow-Optionen für Datenmaskierung

Maskierung statischer Daten

Im Workflow zur Maskierung statischer Daten wird eine Kopie der Originaldaten erstellt, und auf diese Kopie wird eine Maskierung angewendet. Es gibt zwei beliebte Maskierungsmethoden für statische Daten.

Extrahieren – Transformieren – Laden (ETL)

ETL ist ein häufig verwendeter Workflow zur Datenmaskierung. Der erste Schritt in diesem Workflow ist die Extraktion von Daten aus einer Produktionsdatenbank. Dieser Schritt kann eine exakte Kopie der Produktionsdatenbank erstellen oder nur eine Teilmenge der Daten mithilfe von SELECT-Abfragen extrahieren. Im Schritt der Transformation wendet ein Datenmaskierungssystem eines der oben erläuterten Datenmaskierungsverfahren an. Im letzten Schritt werden die maskierten Daten in eine Testdatenbank geladen.

Statische Datenmaskierung

In diesem Workflow werden die Daten innerhalb der Produktions-/Originaldatenbank maskiert. Das Maskierungssystem arbeitet mit einer „Kopie“ der Daten, die sich in derselben Datenbank befinden. Dadurch entfallen die Schritte zum Extrahieren und Laden aus dem ETL-Workflow. Die statische Datenmaskierung nutzt die hochwertigen Einrichtungen einer Produktionsdatenbank. Einer der Nachteile dieses Verfahrens ist der Rechenaufwand für die Produktionsdatenbank. Die Erstellung einer Kopie in der Produktionsdatenbank und Benutzer, die auf diese maskierten Daten zugreifen, können außerdem Sicherheitsbedrohungen darstellen.

Dynamische Datenmaskierung

Bei der dynamischen Datenmaskierung wird die Maske immer dann auf eine Kopie der Daten angewendet, wenn das System eine Benutzeranforderung erhält.

Ansichtsbasierte Datenmaskierung

Bei dieser Datenmaskierungstechnik wird, wenn ein Benutzer Daten gemäß seinen Zugriffsrechten anfordert, eine Maske angewendet und der Benutzer erhält eine „maskierte Ansicht“ der Originaldaten. Die maskierte Ansicht ist eine virtuelle Tabelle. Die ansichtsbasierte dynamische Maskierung eignet sich bei Testumgebungen, in denen möglicherweise nicht jeder Testbenutzer über dieselben Datenberechtigungen verfügt.

Proxy-basierte Datenmaskierung

Die Proxy-basierte Datenmaskierung ist eine neuere Methode der dynamischen Datenmaskierung. In diesem Modell durchlaufen alle Datenanforderungen ein Proxysystem, das die Datenmaskierung als Service ausführt. Ein Beispiel für eine proxybasierte Maskierung ist die Datentransaktion zwischen einer Anwendung und einer Datenbank. Wenn die Anwendung zu viele Abfragen für sensible Daten wie Kreditkartennummern ausgibt, maskiert das Proxy-System die Daten möglicherweise. Das dient zum Schutz der Daten bei Hacking oder unbefugtem Zugriff. In diesem Modell wird das Abfrageergebnis durch die maskierten Daten ersetzt. In einer anderen Implementierung wird die Abfrage selbst so umgeschrieben, dass sie für die maskierte Datenkopie ausgeführt wird. Die Ergebnisse werden dann aus den maskierten Spalten der Datenbank ausgewählt.

Eine Lösung, mit der Sie alle Ihre Unternehmensdaten abrufen, kombinieren und bereitstellen
Eine Lösung, mit der Sie alle Ihre Unternehmensdaten abrufen, kombinieren und bereitstellen
Sehen Sie sich diese 13 Anwendungsszenarien an, um zu erfahren, wie Sie die komplexe Daten- und Analyselandschaft von heute unterstützen können.

Was sind die Herausforderungen der Datenmaskierung?

Während der Maskierungsprozess einfach erscheint, steht ein Datenmaskierungssystem vor vielen Herausforderungen, wenn es darum geht, eine aussagekräftige, maskierte Kopie von Produktionsdaten zu erstellen.

Wahrung von Formaten

Das Datenmaskierungssystem sollte verstehen, was die Daten darstellen. Beim Ersatz durch nicht authentische Daten sollte das Maskierungssystem das Format beibehalten. Dies ist besonders wichtig für Daten und Datenfolgen, bei denen Reihenfolge und Format von entscheidender Bedeutung sind.

Referenzielle Integrität

In einer relationalen Datenbank sind die Tabellen mit primären Schlüsseln miteinander verbunden. Wenn das Maskierungssystem die Werte des primären Schlüssels einer Tabelle verschlüsselt oder ersetzt, sollte derselbe Wert in der gesamten Datenbank konsistent geändert werden.

Wahrung der Geschlechter

Beim Ersatz der Namen von Personen in einer Datenbank sollte das Maskierungssystem männliche und weibliche Namen kennen. Wenn das Maskierungssystem den Namen zufällig ändert, ist die Geschlechterverteilung in der Tabelle davon betroffen.

Semantische Integrität

Die meisten Datenbanken setzen Regeln für den Bereich der zulässigen Werte durch. Zum Beispiel könnte es eine Reihe von Gehältern geben. Die maskierten Daten sollten in diesen Bereich fallen, um die Bedeutung (Semantik) der Daten zu wahren.

Einmaligkeit

Wenn die Originaldaten in einer Tabelle eindeutig sind, sollte das Maskierungssystem für jedes Datenelement eindeutige Werte liefern. Wenn beispielsweise in einer Tabelle die Sozialversicherungsnummern der Mitarbeiter gespeichert sind, sollte jedem Mitarbeiter nach dem Maskieren immer noch über eine eindeutige Sozialversicherungsnummer zugeordnet sein.

Die maskierten Daten müssen jede sinnvolle Häufigkeitsverteilung beibehalten – z. B. die geografische Verteilung. Der Durchschnittswert der Spalten in den maskierten Daten sollte ebenfalls nahe an den Originaldaten liegen.

Was sind die Vorteile der Datenmaskierung?

Schützt vor Datensicherheitsbedrohungen

Datenmaskierung ist eine effektive Lösung für verschiedene Datensicherheitsbedrohungen wie Datenlecks, Hacking, unsichere Datenschnittstellen oder vorsätzlichen Datenmissbrauch.

Ermöglicht die Verwendung von Geschäftsdaten zum Testen

Mit Datenmaskierung können Unternehmen wertvolle Geschäftsdaten zu Test- und Schulungszwecken verwenden, ohne sich Sorgen machen zu müssen, dass Originaldaten verloren gehen.

Ermöglicht den Informationsaustausch

Unternehmen können ihre datenbezogenen Aufgaben auslagern und Produktionsdaten an Drittanbieter weitergeben.

Bewahrt Datenformat und -struktur

Bei der Datenmaskierung werden die Struktur und das Format der Originaldaten beibehalten, was sie zu einer idealen Technik macht, um nicht produktive Verfahren und Forschungsarbeiten zu unterstützen.