A decisão referente a entrada em vigor da Lei Geral de Proteção de Dados Pessoais (LGPD ou LGPDP), Lei nº 13.709/2018, dependerá da votação da MP 959, ocasionando no inicio em 14 de agosto de 2020 ou 3 de maio de 2021.
Essa lei é a legislação brasileira que regula as atividades de tratamento de dados pessoais e que também altera alguns artigos do Marco Civil da Internet.
Hoje falaremos de um assunto importante que está interligado a LGPD, que é a anonimização de dados.
O que é Anonimização de dados?
A anonimização de dados é um processo que permite a retirada de dados pessoais de uma base de dados.
Um ponto a considerar é: o que é considerado como dado pessoal?
É considerado um dado pessoal aquele que pode identificar uma pessoa, como nome, número de CPF, endereço ou gênero por exemplo.
No ponto de vista da LGPD, esse é um processo fundamental para evitar o uso impróprio desses dados. No artigo 5, inciso XI dessa lei, é definido como anonimização a utilização de meios técnicos razoáveis e disponíveis no momento do tratamento, por meio dos quais um dado pessoal perde a possibilidade de associação, direta ou indireta, com o seu titular de forma irreversível.
É importante não confundir os termos Anonimização e pseudo anonimização, enquanto o primeiro não permite a associação ao titular após o processo, na pseudo anonimização não é feita 100% essa desassociação, ou seja, ainda é possível localizar o dado através de alguma chave/variável armazenada em outro banco de dados por exemplo.
Não é possível rastrear um dado anonimizado, isso infringiria as regras da Lei Geral de Proteção de Dados, sendo passível de uma multa.
Podemos utilizar técnicas de mascaramento, tokenização e criptografia para fazer a anonimização.
Principais técnicas
- Lookup Substitution
A substituição(substitution) ou substituição de pesquisa(Lookup Substitution) é um dos métodos mais eficazes de aplicar o mascaramento de dados e preservar a aparência autêntica dos registros de dados.
Ele permite que a máscara seja realizada de maneira que outro valor de aparência semelhante possa ser substituído pelo valor existente.
Geralmente é usado em campos de telefone, códigos postais, número de cartão de crédito e CPF
Por exemplo, temos uma tabela de clientes, vamos aplicar essa técnica no campo CPF:
Existirá uma lookup table contendo um CPF falso e o CPF verdadeiro:
No final os campo CPF terá seu valor substituído pelo que tem na tabela de pesquisa:
- Shuffling
O método de embaralhamento é uma forma muito comum de ofuscação de dados. É semelhante ao método de substituição, mas não utiliza outra tabela, basicamente os valores da coluna são aleatoriamente embaralhados.
Neste exemplo usaremos a mesma tabela do item anterior e aplicaremos esta técnica no campo CPF:
Após a aplicação os valores serão embaralhados entre si:
- Encryption
A criptografia(Encryption) é geralmente a abordagem mais complexa, pois é preciso um algoritmo de criptografia que requer que uma "chave" seja aplicada para exibir os dados. Essa chave deve ser divulgada somente para quem deve ter acesso a esses dados, pois qualquer pessoa com a chave pode acessa-los.
- Nulling out/Deletion
Pode ser considerada a abordagem mais simples, nela o campo original é substituído por um valor nulo.
Neste exemplo usaremos a mesma tabela de clientes e aplicaremos esta técnica no campo CPF:
Após a aplicação os valores estarão nulos:
- Masking out
O mascaramento é bem semelhante ao método anterior, mas nele mantemos uma parte dos dados reais é aplicada uma "mascara" no restante.
Muito utilizado em campos de Cpf, telefone e cartão de crédito para que não haja similaridade com o conteúdo original, exemplo:
Um CPF de numeração 123.456.789-10 após o processo ficaria 123.456.XXX-XX.
- Averaging
Esta técnica permite utilizar a média de toda a coluna para substituir o valor original.
Por exemplo, uma tabela de funcionários, a técnica será aplicada no campo salario:
Após a aplicação da técnica o valor original será substituído pela média de todos os valores da coluna:
- Token
Esta técnica permite a geração de um código identificador exclusivo e aleatório.
Por exemplo, o nome Leandro Ramos pode se transformar em !HYZKFJ54?@ após o processo de tokenização.
Tipos
Algo importante a considerar é o tipo de data masking que será aplicado. Aqui estão dois tipos principais de mascaramento de dados:
- Estático
O mascaramento estático permite realizar o processo em dados em repouso, ou seja, modificando o arquivo original desses dados.
- Dinâmico
No mascaramento dinâmico, os dados são protegidos em movimento, ou seja, somente a exibição dos dados que é mascarada. Preservando assim o arquivo de dados original.
Referências
- https://www.bmc.com/blogs/data-masking/
- https://smartbridge.com/overview-data-masking-methods/
- https://www.google.com/search?rlz=1C1GCEA_enBR841BR841&ei=l6gqX6rzH5em5OUPlM2akA4&q=data+masking+technique+example&oq=data+masking+technique+example&gs_lcp=CgZwc3ktYWIQAzIICCEQFhAdEB4yCAghEBYQHRAeMggIIRAWEB0QHjIICCEQFhAdEB4yCAghEBYQHRAeMggIIRAWEB0QHjIICCEQFhAdEB46BAgAEEc6BggAEBYQHjoICAAQFhAKEB5QtRVYuh9griBoAHABeACAAYMBiAHNBpIBAzMuNZgBAKABAaoBB2d3cy13aXrAAQE&sclient=psy-ab&ved=0ahUKEwjqmojYioTrAhUXE7kGHZSmBuIQ4dUDCAw&uact=5
- https://gdpr.report/news/2017/09/28/data-masking-anonymization-pseudonymization/#:~:text=With anonymization%2C the data is,%2C via an encryption scheme).
- https://studio3t.com/knowledge-base/articles/data-masking-and-anonymization/
- https://www.migalhas.com.br/coluna/impressoes-digitais/319519/a-efetividade-da-anonimizacao-de-dados-pessoais#:~:text=O artigo 5o%2C inciso,indireta%2C com o seu titular.
- https://pt.wikipedia.org/wiki/Lei_Geral_de_Proteção_de_Dados_Pessoais
- https://www.serpro.gov.br/lgpd/menu/protecao-de-dados/dados-anonimizados-lgpd
- https://www.migalhas.com.br/coluna/impressoes-digitais/319519/a-efetividade-da-anonimizacao-de-dados-pessoais
- https://www.totvs.com/blog/negocios/anonimizacao/#:~:text=É impossível falar sobre anonimização,adiada para maio de 2021.
- https://policies.google.com/technologies/anonymization?hl=pt-BR
- https://leadcomm.com.br/ibm-security-guardium/
- https://leadcomm.com.br/2020/07/29/a-lgpd-e-a-anonimizacao-de-dados-mascaramento-criptografia-e-tokenizacao/