Na sexta-feira, dia 03/04/2020, o Senado aprovou o PL 1.179/2020, que prorroga a entrada em vigor da LGPD para 01 de janeiro de 2021 e as sanções administrativas para 01 de agosto de 2021.
Para apoiar essas organizações que estão se movendo para se adequar a essa nova regulamentação, as plataformas em nuvem começaram a desenvolver diversas soluções, hoje falaremos sobre uma solução da Google Cloud Platform, o Cloud DLP.
O que é o Google Cloud Platform?
O Google Cloud Platform ou GCP é a plataforma de computação em
nuvem da Google.
Possui serviços de armazenamento, processamento, computação, análise, machine
learning e muitos outros.
O que é Cloud DLP?
O Cloud DLP (Data Loss Prevention) é uma ferramenta desenvolvida pelo
Google para compreensão e gerenciamento de dados confidenciais.
A solução permite descobrir e classificar dados, sendo
compatível com o BigQuery, Cloud Datastore, Cloud Storage possui uma API de
conteúdo de streaming para permitir a compatibilidade com outras fontes de
dados, cargas de trabalho personalizadas e aplicativos.
A classificação possui “categorias” pré-existentes como por
exemplo: número de CPF ou CNPJ, nome, número de cartão de crédito, números de
telefone, mas também há possibilidade de criar novas categorias
personalizadas.
Experimente a classificação do Cloud DLP com esta DEMO, para utilizar basta
escrever seu texto conforme abaixo:
Após a classificação é possível editar os dados para sejam desidentificados, a desintensificação remove informações de identificação de um
conjunto de dados, dificultando a associação de dados com um indivíduo
reduzindo o risco de exposição.
O Cloud DLP usa técnicas de mascaramento, hash seguro e
tokenização, os dados resultantes são adequados para uso em aplicativos, armazenamento
ou análise.
Recursos
O Cloud DLP possui muitos recursos, entre eles, citaremos os principais:
·
Classificação de dados:
O Cloud DLP possui mais de 90 detectores predefinidos, com a capacidade
para suportar detectores personalizados.
·
Tipos de arquivo:
O Cloud DLP trabalha com dados no formato de texto, pode lidar com o
texto fornecido via API ou armazenado no Google Cloud Storage (GCS), Google
BigQuery e Google Cloud Datastore. É possível usar o Cloud
Speech-to-Text para conversão de áudio em arquivos de
texto.
·
Proteção:
O Cloud DLP tem várias maneiras de proteger dados confidenciais,
incluindo:
A substituição por dado por texto genérico, mascaramento, tokenização ou
criptografia dos dados.
·
Processamento de imagem:
O Cloud DLP permite processamento de imagem nos formados JPEG, BMP, PNG
e SVG.
·
Pagamento por utilização:
O preço do Cloud DLP é determinado pela quantidade de dados a ser processados, não é necessário um dispositivo ou assinatura.
Caso de Uso
BioAnalisys - Sistema automatizado de quarentena e classificação de
dados usando o Cloud Storage e outros produtos do Google Cloud.
·
Problema de negócio
A organização BioAnalisys (fictícia) possui um data lake hospedado no
cloud storage, os responsáveis pela proteção de dados, lidam com uma quantidade
cada vez maior de dados que precisam ser protegidos e processados de maneira
adequada. É preciso colocar em quarentena e classificar os dados que são
confidenciais. A equipe não está conseguindo fazer esse processo manualmente.
·
Ideia
E se fosse possível selecionar todos os arquivos, fazer upload deles
para um local de quarentena, classificá-los automaticamente e movê-los para o
local adequado com base no resultado da classificação?
·
Solução
Utilizar a ferramenta de prevenção contra perda de dados e criar um
sistema automatizado de quarentena e classificação de dados hospedados no Cloud
Storage.
· Arquitetura da solução
Os números neste fluxo correspondem a estas etapas:
O usuário faz upload do arquivo para a camada Raw hospedada no Cloud
Storage.
É invocada uma Cloud Function que cria um processo dentro do Cloud
DLP.
O Cloud Cloud DLP inspeciona e classifica os dados deste
arquivo.
Caso tenha algum dado considerado como pessoal, o arquivo é movimentado
para um bucket de dados pessoais. Caso não tenha será movido para um intervalo
de dados não-pessoais. Nos dois cenários o arquivo é deletado da camada RAW.
·
Solução na prática
Na primeira etapa vamos subir o arquivo telefone_clientes_2020_04_13.csv
para nossa camada Raw hospedada em um intervalo do Cloud Storage.
O arquivo terá o seguinte layout e conteúdo:
Abaixo é possível o arquivo após o upload na camada RAW:
Após o arquivo entrar na camada Raw uma função é ativada
automaticamente, ela é responsável por criar um job Cloud DLP, classificar
e movimentar o arquivo:
O job Cloud DLP que foi criado pela Cloud Function encontrou 3
nomes e 3 telefones:
O arquivo foi movimentado para o intervalo de dados pessoais e deletado
do Bucket origem:
Referencias
·
Cloud Data Loss Prevention
https://cloud.google.com/dlp?hl=pt-br
·
Serverless Data Loss Prevention examples
https://github.com/GoogleCloudPlatform/dlp-cloud-functions-tutorials