O que é o mascaramento de dados?
O mascaramento de dados é uma técnica de segurança de dados que embaralha os dados para criar uma cópia inautêntica para vários fins de não produção. O mascaramento de dados retém as características e a integridade dos dados de produção originais e ajuda as organizações a minimizar os problemas de segurança de dados ao utilizar os dados em um ambiente de não produção. Esses dados mascarados podem ser usados para análise, treinamento ou teste.
Um exemplo simples de mascaramento de dados é a ocultação de informações de identificação pessoal. Suponha que uma organização tenha uma tabela de funcionários em seu banco de dados. Ela tem o ID do funcionário e o nome completo de cada um dos funcionários. Por meio do mascaramento de dados, a organização pode criar uma réplica do banco de dados original que usa um nome e um sobrenome comuns.
Por que as organizações precisam do mascaramento de dados?
Nos últimos anos, os regulamentos de segurança de dados tornaram-se muito rigorosos. A introdução de regulamentos como o Regulamento Geral de Proteção de Dados (GDPR) forçou as organizações a proteger seus dados ferozmente. Isso colocou uma restrição significativa no uso dos dados da organização para teste ou análise.
Suponha que uma empresa de saúde queira analisar e estudar o comportamento de seus clientes. Eles podem querer terceirizar o trabalho de análise para um fornecedor terceirizado. Se eles passarem as informações de saúde autênticas de seus clientes para um fornecedor, há uma chance de violação de dados. O mascaramento de dados ajuda nesses cenários.
Os dados são um dos ativos mais importantes de uma organização. O mascaramento ajuda as organizações a extrair o máximo de benefícios dos dados sem comprometer a segurança.

Quais são os métodos comuns de mascaramento de dados?
Substituição
No método de substituição, o valor de dados original em um registro de dados é substituído por um valor não autêntico. Por exemplo, em um banco de dados de clientes, cada nome masculino pode ser substituído por um valor padrão. Cada nome feminino pode ser substituído por outro valor. A substituição garante que o formato dos dados inautênticos seja exatamente o mesmo dos dados originais. Além disso, no exemplo acima, o sistema de mascaramento de dados mantém a proporção de clientes homem-mulher, substituindo separadamente os nomes masculinos e femininos.
Embaralhamento
Essa é uma técnica comum de mascaramento de dados em que os valores são embaralhados verticalmente em uma coluna de uma tabela de banco de dados. Se precisarmos mascarar uma tabela que armazena o saldo de cada conta bancária usando o embaralhamento, embaralhamos aleatoriamente a coluna de saldos de conta. Desta forma, os números das contas terão um saldo aleatório e não os dados autênticos. Uma vantagem do embaralhamento é que o valor agregado da coluna permanece o mesmo após o mascaramento de dados.
Média
A média substitui todos os valores numéricos em uma coluna da tabela por um valor médio. No exemplo de saldo de conta acima, cada saldo de conta é substituído pela média de todos os saldos. Isso torna impossível descobrir o saldo das contas individuais. Esse processo também mantém o valor agregado.
Supressão e anulação
A supressão é o método de mascaramento de dados mais direto. Os dados confidenciais são substituídos por um valor genérico como "X". É uma prática comum mascarar números de telefone ou números de cartão de crédito. A anulação é um processo semelhante, mas em vez do valor genérico, um NULL é colocado no campo de dados. Este método tem várias desvantagens. A anulação pode levar a várias inconsistências de dados e também destaca o fato de que os dados são mascarados.
Criptografia com preservação de formato
A criptografia transforma os dados em uma matriz ilegível de símbolos. Os métodos de criptografia padrão geralmente transformam um ponto de dados em uma string de comprimento aleatório. Para o mascaramento de dados, a criptografia deve manter o comprimento e o formato dos dados originais para preservar sua integridade. Portanto, um método de criptografia com preservação de formato é usado para mascarar os dados. Ao contrário dos métodos acima, os dados criptografados podem ser revertidos se a chave de criptografia estiver disponível, o que pode ser um risco de segurança. Ainda assim, muitas organizações usam criptografia para mascaramento de dados.
Quais são as regras gerais do mascaramento de dados?
As técnicas de mascaramento de dados precisam seguir algumas regras para que os dados transformados permaneçam úteis.
O mascaramento de dados deve ser irreversível
Uma vez que a técnica de mascaramento de dados transforma os dados autênticos, deve ser impossível recuperar os dados originais dos dados mascarados. Se os dados forem reversíveis, é um problema de segurança grave.
Os dados devem ser representativos
A técnica de mascaramento de dados não deve alterar a natureza dos dados. O mascaramento deve usar as transformações de forma que a distribuição geográfica, distribuição de gênero, legibilidade e distribuições numéricas dos dados originais sejam preservadas.
A integridade não deve ser comprometida
O mascaramento de dados não deve afetar a integridade do banco de dados. Por exemplo, se o número do cartão de crédito for a chave primária de uma tabela e se for codificado para mascaramento, todas as instâncias desse número de cartão de crédito deverão ser codificadas de forma idêntica. Em suma, o mascaramento de dados não deve afetar a integridade referencial.
Mascaramento de dados não confidenciais se afetarem dados confidenciais
O mascaramento de dados não necessariamente mascara todos os campos em um registro de dados. Por exemplo, em um registro de cliente, pode não ser necessário mascarar o sexo do cliente, pois todas as informações confidenciais já estão mascaradas. Se os dados não confidenciais puderem ser usados para reconstruir os dados confidenciais, eles precisarão ser mascarados para garantir a segurança.
O mascaramento de dados deve ser automatizado
O mascaramento de dados não é um processo de ocorrência única. Como os dados de produção mudam com frequência, o sistema de mascaramento de dados deve criar uma réplica mascarada dos novos dados. Se o mascaramento não for automatizado, poderá ser caro, ineficiente e ineficaz.
Opções de fluxo de trabalho para o mascaramento de dados
Mascaramento de dados estáticos
No fluxo de trabalho de mascaramento de dados estáticos, é feita uma cópia dos dados originais e o mascaramento é aplicado a essa cópia. Existem dois métodos populares de mascaramento de dados estáticos.
Extrair – Transformar – Carregar (ETL)
ETL é um fluxo de trabalho de mascaramento de dados comumente usado. A primeira etapa desse fluxo de trabalho é extrair dados de um banco de dados de produção. Esta etapa pode criar uma cópia exata do banco de dados de produção ou extrair apenas um subconjunto dos dados usando consultas SELECT. Na etapa de transformação, um sistema de mascaramento de dados aplica um dos métodos de mascaramento de dados discutidos acima. Na última etapa, os dados mascarados são carregados em um banco de dados de teste.
Mascaramento no local
Nesse fluxo de trabalho, os dados são mascarados no banco de dados de produção/original. O sistema de mascaramento funciona em uma “cópia” dos dados presentes no mesmo banco de dados. Isso elimina as etapas de extração e carregamento do fluxo de trabalho ETL. O mascaramento de dados no local utiliza os recursos avançados de um banco de dados de produção. Uma das desvantagens deste método é a sobrecarga computacional para o banco de dados de produção. Além disso, a criação de uma cópia no banco de dados de produção e o acesso dos usuários aos dados mascarados podem criar ameaças à segurança.
Mascaramento de dados dinâmico
No mascaramento de dados dinâmico, a máscara é aplicada em uma cópia dos dados sempre que o sistema receber uma solicitação do usuário.
Mascaramento de dados baseado em visualização
Nesta técnica de mascaramento de dados, quando um usuário solicita dados uma máscara é aplicada com base nos direitos de acesso do usuário, e o usuário obtém uma “visão mascarada” dos dados originais. A visualização mascarada é uma tabela virtual. O mascaramento dinâmico baseado em visualização é adequado em ambientes de teste em que todos os usuários de teste podem não ter os mesmos privilégios de dados.
Mascaramento de dados baseado em proxy
O mascaramento de dados baseado em proxy é um método mais recente de mascaramento de dados dinâmico. Neste modelo, todas as requisições de dados passam por um sistema proxy, que executa o mascaramento de dados como um serviço. Um exemplo de mascaramento baseado em proxy é a transação de dados entre um aplicativo e um banco de dados. Se o aplicativo emitir muitas consultas para dados confidenciais, como números de cartão de crédito, o sistema proxy poderá mascarar os dados. Isso é feito para proteger os dados em caso de hackers ou qualquer acesso não autorizado. Nesse modelo, o resultado da consulta é substituído pelos dados mascarados. Em uma implementação diferente, a própria consulta é reescrita para ser executada na cópia de dados mascarada. Os resultados são então selecionados das colunas mascaradas do banco de dados.

Quais são os desafios do mascaramento de dados?
Embora o processo de mascaramento pareça simples, um sistema de mascaramento de dados enfrenta muitos desafios ao fazer uma cópia significativa e mascarada de dados de produção.
Preservação de formato
O sistema de mascaramento de dados deve entender o que os dados representam. Ao substituir dados por outros não autênticos, o sistema de mascaramento deve preservar seu formato. Isso é particularmente importante para datas e sequências de dados em que a ordem e o formato são essenciais.
Integridade referencial
Em um banco de dados relacional, as tabelas são interconectadas com chaves primárias. Quando o sistema de mascaramento embaralha ou substitui os valores da chave primária de uma tabela, o mesmo valor deve ser alterado de forma consistente em todo o banco de dados.
Preservação de gênero
Ao substituir os nomes das pessoas em um banco de dados, o sistema de mascaramento deve estar ciente dos nomes masculinos e femininos. Se o sistema de mascaramento alterar aleatoriamente o nome, a distribuição de gênero na tabela será afetada.
Integridade semântica
A maioria dos bancos de dados impõe regras sobre o intervalo de valores permitidos. Por exemplo, pode haver uma faixa de salários. Os dados mascarados devem estar nesse intervalo para preservar o significado (semântica) dos dados.
Singularidade
Se os dados originais em uma tabela forem exclusivos, o sistema de mascaramento deve fornecer valores exclusivos para cada elemento de dados. Por exemplo, se uma tabela armazena os SSNs dos funcionários, após o mascaramento, cada funcionário ainda deve ter um SSN exclusivo.
Os dados mascarados devem reter qualquer distribuição de frequência significativa, por exemplo, distribuição geográfica. O valor médio das colunas nos dados mascarados também deve estar próximo dos dados originais.
Quais são os benefícios do mascaramento de dados?
Protege contra ameaças de segurança de dados
O mascaramento de dados é uma solução eficaz para várias ameaças à segurança de dados, como vazamentos de dados, hackers, interfaces de dados inseguras ou uso indevido intencional de dados.
Permite que dados comerciais sejam usados para testes
O mascaramento de dados permite que as empresas usem dados valiosos de negócios para fins de teste e treinamento, sem precisar se preocupar com o vazamento de dados originais.
Permite compartilhar informações
As organizações podem terceirizar suas tarefas relacionadas a dados e fornecer dados de produção para fornecedores terceirizados.
Preserva o formato e a estrutura dos dados
O mascaramento de dados preserva a estrutura e o formato dos dados originais, o que o torna uma técnica ideal para auxiliar procedimentos de não produção e pesquisas.