Anonimização de dados

A decisão referente a entrada em vigor da Lei Geral de Proteção de Dados Pessoais (LGPD ou LGPDP), Lei nº 13.709/2018, dependerá da votação da MP 959, ocasionando no inicio em 14 de agosto de 2020 ou 3 de maio de 2021.

Essa lei é a legislação brasileira que regula as atividades de tratamento de dados pessoais e que também altera alguns artigos do Marco Civil da Internet.

Hoje falaremos de um assunto importante que está interligado a LGPD, que é a anonimização de dados.

O que é Anonimização de dados?

A anonimização de dados é um processo que permite a retirada de dados pessoais de uma base de dados.

Um ponto a considerar é: o que é considerado como dado pessoal?

É considerado um dado pessoal aquele que pode identificar uma pessoa, como nome, número de CPF, endereço ou gênero por exemplo.

No ponto de vista da LGPD, esse é um processo fundamental para evitar o uso impróprio desses dados. No artigo 5, inciso XI dessa lei, é definido como anonimização a utilização de meios técnicos razoáveis e disponíveis no momento do tratamento, por meio dos quais um dado pessoal perde a possibilidade de associação, direta ou indireta, com o seu titular de forma irreversível.

É importante não confundir os termos Anonimização e pseudo anonimização, enquanto o primeiro não permite a associação ao titular após o processo, na pseudo anonimização não é feita 100% essa desassociação, ou seja, ainda é possível localizar o dado através de alguma chave/variável armazenada em outro banco de dados por exemplo.

Não é possível rastrear um dado anonimizado, isso infringiria as regras da Lei Geral de Proteção de Dados, sendo passível de uma multa.

Podemos utilizar técnicas de mascaramento, tokenização e criptografia para fazer a anonimização.

Principais técnicas

Lookup Substitution

A substituição(substitution) ou substituição de pesquisa(Lookup Substitution) é um dos métodos mais eficazes de aplicar o mascaramento de dados e preservar a aparência autêntica dos registros de dados.

Ele permite que a máscara seja realizada de maneira que outro valor de aparência semelhante possa ser substituído pelo valor existente.

Geralmente é usado em campos de telefone, códigos postais, número de cartão de crédito e CPF

Por exemplo, temos uma tabela de clientes, vamos aplicar essa técnica no campo CPF:

Existirá uma lookup table contendo um CPF falso e o CPF verdadeiro:

No final os campo CPF terá seu valor substituído pelo que tem na tabela de pesquisa:

Shuffling

O método de embaralhamento é uma forma muito comum de ofuscação de dados. É semelhante ao método de substituição, mas não utiliza outra tabela, basicamente os valores da coluna são aleatoriamente embaralhados.

Neste exemplo usaremos a mesma tabela do item anterior e aplicaremos esta técnica no campo CPF:

Após a aplicação os valores serão embaralhados entre si:

Encryption

A criptografia(Encryption) é geralmente a abordagem mais complexa, pois é preciso um algoritmo de criptografia que requer que uma "chave" seja aplicada para exibir os dados. Essa chave deve ser divulgada somente para quem deve ter acesso a esses dados, pois qualquer pessoa com a chave pode acessa-los.

Nulling out/Deletion

Pode ser considerada a abordagem mais simples, nela o campo original é substituído por um valor nulo.

Neste exemplo usaremos a mesma tabela de clientes e aplicaremos esta técnica no campo CPF:

Após a aplicação os valores estarão nulos:

Masking out

O mascaramento é bem semelhante ao método anterior, mas nele mantemos uma parte dos dados reais é aplicada uma "mascara" no restante.

Muito utilizado em campos de Cpf, telefone e cartão de crédito para que não haja similaridade com o conteúdo original, exemplo:

Um CPF de numeração 123.456.789-10 após o processo ficaria 123.456.XXX-XX.

Averaging

Esta técnica permite utilizar a média de toda a coluna para substituir o valor original.

Por exemplo, uma tabela de funcionários, a técnica será aplicada no campo salario:

Após a aplicação da técnica o valor original será substituído pela média de todos os valores da coluna:

Token

Esta técnica permite a geração de um código identificador exclusivo e aleatório.

Por exemplo, o nome Leandro Ramos pode se transformar em !HYZKFJ54?@ após o processo de tokenização.

Tipos

Algo importante a considerar é o tipo de data masking que será aplicado. Aqui estão dois tipos principais de mascaramento de dados:

Estático

O mascaramento estático permite realizar o processo em dados em repouso, ou seja, modificando o arquivo original desses dados.

Dinâmico

No mascaramento dinâmico, os dados são protegidos em movimento, ou seja, somente a exibição dos dados que é mascarada. Preservando assim o arquivo de dados original.