Prevenção contra perda de dados com o Cloud DLP

Na sexta-feira, dia 03/04/2020, o Senado aprovou o PL 1.179/2020, que prorroga a entrada em vigor da LGPD para 01 de janeiro de 2021 e as sanções administrativas para 01 de agosto de 2021.

Para apoiar essas organizações que estão se movendo para se adequar a essa nova regulamentação, as plataformas em nuvem começaram a desenvolver diversas soluções, hoje falaremos sobre uma solução da Google Cloud Platform, o Cloud DLP. 

 O que é o Google Cloud Platform? 

O Google Cloud Platform ou GCP é a plataforma de computação em nuvem da Google. 
Possui serviços de armazenamento, processamento, computação, análise, machine learning e muitos outros. 

O que é Cloud DLP?

O Cloud DLP (Data Loss Prevention) é uma ferramenta desenvolvida pelo Google para compreensão e gerenciamento de dados confidenciais. 

A solução permite descobrir e classificar dados, sendo compatível com o BigQuery, Cloud Datastore, Cloud Storage possui uma API de conteúdo de streaming para permitir a compatibilidade com outras fontes de dados, cargas de trabalho personalizadas e aplicativos. 

A classificação possui “categorias” pré-existentes como por exemplo: número de CPF ou CNPJ, nome, número de cartão de crédito, números de telefone, mas também há possibilidade de criar novas categorias personalizadas.  

Experimente a classificação do Cloud DLP com esta DEMO, para utilizar basta escrever seu texto conforme abaixo:

Após a classificação é possível editar os dados para sejam desidentificados, a desintensificação remove informações de identificação de um

conjunto de dados, dificultando a associação de dados com um indivíduo reduzindo o risco de exposição.

O Cloud DLP usa técnicas de mascaramento, hash seguro e tokenização, os dados resultantes são adequados para uso em aplicativos, armazenamento ou análise.

Recursos


O Cloud DLP possui muitos recursos, entre eles, citaremos os principais:

·       Classificação de dados:

O Cloud DLP possui mais de 90 detectores predefinidos, com a capacidade para suportar detectores personalizados. 

·       Tipos de arquivo:

O Cloud DLP trabalha com dados no formato de texto, pode lidar com o texto fornecido via API ou armazenado no Google Cloud Storage (GCS), Google BigQuery e Google Cloud Datastore. É possível usar o Cloud Speech-to-Text para conversão de áudio em arquivos de texto. 

·       Proteção:

O Cloud DLP tem várias maneiras de proteger dados confidenciais, incluindo:

A substituição por dado por texto genérico, mascaramento, tokenização ou criptografia dos dados.

·       Processamento de imagem:

O Cloud DLP permite processamento de imagem nos formados JPEG, BMP, PNG e SVG.

·       Pagamento por utilização:

O preço do Cloud DLP é determinado pela quantidade de dados a ser processados, não é necessário um dispositivo ou assinatura. 

Caso de Uso 

BioAnalisys - Sistema automatizado de quarentena e classificação de dados usando o Cloud Storage e outros produtos do Google Cloud.

·       Problema de negócio

A organização BioAnalisys (fictícia) possui um data lake hospedado no cloud storage, os responsáveis pela proteção de dados, lidam com uma quantidade cada vez maior de dados que precisam ser protegidos e processados de maneira adequada. É preciso colocar em quarentena e classificar os dados que são confidenciais. A equipe não está conseguindo fazer esse processo manualmente.

·       Ideia

E se fosse possível selecionar todos os arquivos, fazer upload deles para um local de quarentena, classificá-los automaticamente e movê-los para o local adequado com base no resultado da classificação? 

·       Solução

Utilizar a ferramenta de prevenção contra perda de dados e criar um sistema automatizado de quarentena e classificação de dados hospedados no Cloud Storage. 

·       Arquitetura da solução

Os números neste fluxo correspondem a estas etapas:

O usuário faz upload do arquivo para a camada Raw hospedada no Cloud Storage.

É invocada uma Cloud Function que cria um processo dentro do Cloud DLP.

O Cloud Cloud DLP inspeciona e classifica os dados deste arquivo.

Caso tenha algum dado considerado como pessoal, o arquivo é movimentado para um bucket de dados pessoais. Caso não tenha será movido para um intervalo de dados não-pessoais. Nos dois cenários o arquivo é deletado da camada RAW.

·       Solução na prática

Na primeira etapa vamos subir o arquivo telefone_clientes_2020_04_13.csv para nossa camada Raw hospedada em um intervalo do Cloud Storage. 

O arquivo terá o seguinte layout e conteúdo:


 Abaixo é possível o arquivo após o upload na camada RAW:


Após o arquivo entrar na camada Raw uma função é ativada automaticamente, ela é responsável por criar um job Cloud DLP, classificar e movimentar o arquivo:


O job Cloud DLP que foi criado pela Cloud Function encontrou 3 nomes e 3 telefones:


O arquivo foi movimentado para o intervalo de dados pessoais e deletado do Bucket origem:


Referencias

·       Cloud Data Loss Prevention

https://cloud.google.com/dlp?hl=pt-br

·       Serverless Data Loss Prevention examples

https://github.com/GoogleCloudPlatform/dlp-cloud-functions-tutorials