Cos'è il mascheramento dei dati?
Il mascheramento dei dati è una tecnica di sicurezza dei dati che codifica i dati per creare una copia non autentica per vari scopi non produttivi. Il mascheramento dei dati mantiene le caratteristiche e l'integrità dei dati di produzione originali e aiuta le organizzazioni a minimizzare i problemi di sicurezza dei dati mentre utilizzano i dati in un ambiente non produttivo. Questi dati mascherati possono essere utilizzati per analisi, formazione o test.
Un semplice esempio di mascheramento dei dati è nascondere informazioni di identificazione personale. Supponiamo che un'organizzazione abbia una tabella dei dipendenti nel suo database. Ha il documento d'identità del dipendente e il nome completo di ciascuno dei suoi dipendenti. Attraverso il mascheramento dei dati, l'organizzazione potrebbe creare una copia del database originale che usa un nome e un cognome comuni.
Perché le organizzazioni hanno bisogno del mascheramento dei dati?
Negli ultimi anni, i regolamenti sulla sicurezza dei dati sono diventati molto severi. L'introduzione di regolamentazioni come il Regolamento generale sulla protezione dei dati (GDPR) ha costretto le organizzazioni a proteggere strenuamente i loro dati. Questo ha posto una restrizione significativa sull'uso dei dati dell'organizzazione per test o analisi.
Supponiamo che un'azienda sanitaria voglia analizzare e studiare il comportamento dei suoi clienti. Potrebbero voler esternalizzare il lavoro di analisi a un fornitore terzo. Se passano le informazioni sanitarie reali dei loro clienti a un fornitore, c'è la possibilità di una violazione dei dati. Il mascheramento dei dati aiuta in questi scenari.
I dati sono uno dei beni più significativi di un'organizzazione. Il mascheramento dei dati aiuta le organizzazioni a estrarre i massimi benefici dai dati senza comprometterne la sicurezza.

Quali sono i metodi comuni di mascheramento dei dati?
Sostituzione
Nel metodo di sostituzione, il valore originale dei dati in un record di dati viene sostituito con un valore inautentico. Per esempio, in un database di clienti, ogni nome maschile potrebbe essere sostituito con un valore standard. Ogni nome femminile potrebbe essere sostituito con un altro valore. La sostituzione assicura che il formato dei dati inautentici sia esattamente lo stesso dei dati originali. Inoltre, nell'esempio di cui sopra, il sistema di mascheramento dei dati mantiene il rapporto tra clienti maschi e femmine sostituendo separatamente i nomi maschili e femminili.
Rimescolamento
Questa è una comune tecnica di mascheramento dei dati in cui i valori vengono mescolati verticalmente in una colonna di una tabella di database. Se abbiamo bisogno di mascherare una tabella che memorizza il saldo di ogni conto bancario usando il rimescolamento, mescoliamo casualmente la colonna dei saldi dei conti. In questo modo, i numeri di conto avranno un saldo casuale e non i dati autentici. Un vantaggio del rimescolamento è che il valore aggregato della colonna rimane lo stesso anche dopo il mascheramento dei dati.
Calcolo della media
La media sostituisce tutti i valori numerici in una colonna della tabella con un valore medio. Nell'esempio del saldo del conto di cui sopra, ogni saldo del conto è sostituito dalla media di tutti i saldi. Questo rende impossibile scoprire il saldo dei singoli conti. Questo processo mantiene anche il valore aggregato.
Redazione e annullamento
La redazione è il metodo di mascheramento dei dati più diretto. I dati sensibili vengono sostituiti con un valore generico come "X". È una pratica comune per mascherare numeri di telefono o numeri di carte di credito. L'annullamento è un processo simile, ma invece del valore generico, viene inserito un NULL nel campo dati. Questo metodo ha vari svantaggi. L'annullamento può comportare varie incongruenze nei dati. Evidenzia anche il fatto che i dati sono mascherati.
Crittografia che preserva il formato
La crittografia trasforma i dati in una serie illeggibile di simboli. I metodi di crittografia standard di solito trasformano un punto dati in una stringa di lunghezza casuale. Per il mascheramento dei dati, la crittografia dovrebbe mantenere la lunghezza e il formato dei dati originali per preservare l'integrità dei dati. Per mascherare i dati viene quindi usato un metodo di crittografia che preserva il formato. A differenza dei metodi precedenti, i dati crittografati possono essere invertiti se la chiave di crittografia è disponibile, il che può essere un rischio per la sicurezza.
Quali sono le regole generali del mascheramento dei dati?
Le tecniche di mascheramento dei dati devono seguire alcune regole affinché i dati trasformati rimangano utili.
Il mascheramento dei dati deve essere non reversibile
Una volta che la tecnica di mascheramento dei dati trasforma i dati autentici, dovrebbe essere impossibile recuperare i dati originali dai dati mascherati. Se i dati sono reversibili, allora è un grave problema di sicurezza.
I dati devono essere rappresentativi
La tecnica di mascheramento dei dati non deve alterare la natura dei dati. Il mascheramento dei dati deve utilizzare le trasformazioni in modo tale che la distribuzione geografica, la distribuzione di genere, la leggibilità e le distribuzioni numeriche dei dati originali siano conservate.
L'integrità non deve essere compromessa
Il mascheramento dei dati non deve influenzare l'integrità del database. Per esempio, se il numero di carta di credito è la chiave primaria di una tabella, e se viene criptato per il mascheramento, ogni istanza di quel numero di carta di credito deve essere criptata in modo identico. In breve, il mascheramento dei dati non deve influenzare l'integrità referenziale.
Mascheramento di dati non sensibili se influisce su dati sensibili
Il mascheramento dei dati non maschera necessariamente ogni campo in un record di dati. Per esempio, in un record del cliente, potrebbe non essere necessario mascherare il sesso del cliente, poiché tutte le informazioni sensibili sono già mascherate. Se i dati non sensibili possono essere usati per ricostruire i dati sensibili, devono essere mascherati per sicurezza.
Il mascheramento dei dati deve essere automatizzato
Il mascheramento dei dati non è un processo una tantum. Poiché i dati di produzione cambiano spesso, il sistema di mascheramento dei dati deve creare una replica mascherata dei nuovi dati. Se il mascheramento dei dati non è automatizzato, potrebbe essere costoso, inefficiente e inefficace.
Opzioni del flusso di lavoro di mascheramento dei dati
Mascheramento statico dei dati
Nel flusso di lavoro di mascheramento statico dei dati, viene fatta una copia dei dati originali e il mascheramento viene applicato a questa copia. Esistono due metodi noti di mascheramento statico dei dati.
Estrarre – trasformare – caricare (ETL)
ETL è un flusso di lavoro di mascheramento dei dati comunemente usato. Il primo passo in questo flusso di lavoro è l'estrazione dei dati da un database di produzione. Questa fase può creare una copia esatta del database di produzione o estrarre solo un sottoinsieme dei dati usando query SELECT. Nella fase di trasformazione, un sistema di mascheramento dei dati applica uno dei metodi di mascheramento dei dati sopra trattati. Nell'ultimo passaggio, i dati mascherati vengono caricati in un database di prova.
Mascheramento sul posto
In questo flusso di lavoro, i dati vengono mascherati all'interno del database di produzione/originale. Il sistema di mascheramento lavora su una "copia" dei dati presenti all'interno dello stesso database. Questo elimina le fasi di estrazione e caricamento dal flusso di lavoro ETL. Il mascheramento dei dati sul posto utilizza le strutture di alto livello di un database di produzione. Uno degli svantaggi di questo metodo è l'overhead computazionale per il database di produzione. Inoltre, la creazione di una copia all'interno del database di produzione e gli utenti che accedono a questi dati mascherati possono creare minacce alla sicurezza.
Mascheramento dinamico dei dati
Nel mascheramento dinamico dei dati, la maschera viene applicata su una copia dei dati ogni volta che il sistema riceve una richiesta dell'utente.
Mascheramento dei dati basato sulla vista
In questa tecnica di mascheramento dei dati, quando un utente richiede dei dati, in base ai diritti di accesso dell'utente, viene applicata una maschera e l'utente ottiene una "vista mascherata" dei dati originali. La vista mascherata è una tabella virtuale. Il mascheramento dinamico basato sulla vista è adatto in ambienti di test in cui ogni utente di test potrebbe non avere gli stessi privilegi sui dati.
Mascheramento dei dati basato su proxy
Il mascheramento dei dati basato su proxy è un metodo più recente di mascheramento dinamico dei dati. In questo modello, tutte le richieste di dati passano attraverso un sistema proxy, che esegue il mascheramento dei dati come servizio. Un esempio di mascheramento basato su proxy è la transazione di dati tra un'applicazione e un database. Se l'applicazione emette troppe query per dati sensibili come i numeri delle carte di credito, il sistema proxy potrebbe mascherare i dati. Questo per proteggere i dati in caso di intrusione o qualsiasi accesso non autorizzato. In questo modello, il risultato della query è sostituito dai dati mascherati. In una diversa implementazione, la query stessa viene riscritta per essere eseguita contro la copia dei dati mascherati. I risultati sono poi selezionati dalle colonne mascherate del database.

Quali sono le sfide del mascheramento dei dati?
Nonostante l'apparente semplicità del processo di mascheramento, un sistema di mascheramento dei dati affronta molte sfide nel fare una copia significativa e mascherata dei dati di produzione.
Conservazione del formato
Il sistema di mascheramento dei dati deve comprendere cosa rappresentano i dati. Quando si sostituisce con dati non autentici, il sistema di mascheramento deve preservare il formato. Questo è particolarmente importante per date e stringhe di dati dove l'ordine e il formato sono essenziali.
Integrità referenziale
In un database relazionale, le tabelle sono interconnesse con chiavi primarie. Quando il sistema di mascheramento rimescola o sostituisce i valori della chiave primaria di una tabella, lo stesso valore dovrebbe essere cambiato in modo coerente in tutto il database.
Conservazione del genere
Mentre si sostituiscono i nomi delle persone in un database, il sistema di mascheramento dovrebbe essere consapevole dei nomi maschili e femminili. Se il sistema di mascheramento cambia il nome in modo casuale, la distribuzione dei generi nella tabella sarà influenzata.
Integrità semantica
La maggior parte dei database applica delle regole sulla gamma di valori consentiti. Per esempio, potrebbe essere presente una gamma di stipendi. I dati mascherati devono rientrare in questo intervallo per preservare il significato (la semantica) dei dati.
Unicità
Se i dati originali di una tabella sono unici, il sistema di mascheramento deve fornire valori unici per ogni elemento di dati. Per esempio, se una tabella memorizza gli SSN dei dipendenti, dopo il mascheramento, ogni dipendente deve avere ancora un SSN unico.
I dati mascherati devono mantenere qualsiasi distribuzione di frequenza significativa, per esempio la distribuzione geografica. Il valore medio delle colonne nei dati mascherati dovrebbe anche essere vicino ai dati originali.
Quali sono i vantaggi del mascheramento dei dati?
Protegge dalle minacce alla sicurezza dei dati
Il mascheramento dei dati è una soluzione efficace per varie minacce alla sicurezza dei dati come le fughe di dati, le intrusioni, le interfacce di dati insicuri o l'uso improprio e intenzionale dei dati.
Permette di utilizzare i dati aziendali per i test
Il mascheramento dei dati permette alle aziende di utilizzare preziosi dati aziendali per scopi di test e formazione, senza doversi preoccupare della fuga di dati originali.
Permette la condivisione delle informazioni
Le organizzazioni possono esternalizzare i loro compiti relativi ai dati e fornire i dati di produzione a fornitori terzi.
Preserva il formato e la struttura dei dati
Il mascheramento dei dati conserva la struttura e il formato dei dati originali, il che lo rende una tecnica ideale per assistere le procedure non produttive e la ricerca.