Integração de dados com o Azure Data Factory

   


Criar análises a partir de dados faz parte do cotidiano de muitas empresas, essa tarefa pode ter uma complexidade alta caso as origens sejam diferentes, imagine criar uma visão de todos os clientes dos últimos 5 anos utilizando dados de 23 sistemas, não é uma tarefa simples.  

Ter diversas origens de dados pode dificultar futuras análises, as empresas tem muito a ganhar ao fazer uma integração de dados, que ao combinar todas essas informações em um local único, podem direcionar o foco da pesquisa/junção de dados para outra atividade. 
 Para apoiar essas organizações as plataformas em nuvem começaram a desenvolver diversas soluções,  hoje falaremos sobre uma solução Microsoft Azure, o Azure Data Factory 

 O que é o Azure Data Factory? 

"Serviço de integração híbrida de dados que simplifica o ETL em escala” - Microsoft Azure.  

 O Azure Data Factory (ADF) é um serviço de nuvem gerenciado desenvolvido pela Microsoft que possibilita a integração de dados em projetos de nuvem.  Permite criar fluxos ETL (extrair, transformar e carregar), ELT (extrair, carregar e transformar), orquestração e agendamento de pipelines. Além de ter integração com Azure HDInsight, o Azure Databricks e o Banco de Dados SQL do Azure. 

Recursos 

O ADF possui muitos recursos, entre eles, citaremos os principais: 
  • Escalável: 
É um serviço gerenciado que pode ser escalado sob demanda. 

  • Visual: 
Não é necessário codificação na criação de processos ETL ou ELT. 

  • Seguro: 
O Azure possui muitas medidas de segurança na conexão para banco de dados ou aplicativoso Azure Data Factory também não guarda dados, somente as credenciais (que são criptografadas). 
Pagamento por utilização 
O preço é determinado pelo uso, ou seja, será cobrado somente o tempo que foi utilizado. 

  • Conectores: 
Atualmente existe mais de 90 conectores predefinidos. É possível conectar em origens de dados locais, Google BigQueryAmazon RedshiftAmazon S3 e do próprio Azure. 
  
Caso de Uso  

BioAnalisys - Integração de dados. 

  • Problema de negócio 
A organização BioAnalisys (fictícia) possui 23 sistemas legados contendo informações sobre seus clientes, cada sistema possui seu próprio formato, ou seja, os campos e tabelas diferem entre eles.  
Oanalistas precisam, no início de cada dia gerar uma visão unificada dos novos clientes do dia anterior em todos esses sistemasAtualmente o processo é muito árduo, sendo executada uma consulta em cada sistema origem, exportado o retorno em um arquivo .csv 
A equipe apresenta dificuldade ao fazer esse processo manualmente. 

  • Ideia 
E se fosse possível utilizar uma ferramenta/solução para consultar os sistemas origens e inserir o resultado em uma tabela única? 

  • Visão Geral da Solução 
Será utilizado o Azure Data Factory para ingestão no SQL Azure a partir dos sistemas de origem, após réplica, processos de ETL vão padronizar os dados de cada sistema e inserir em uma base única.  

  • Arquitetura da solução 
 
  • Benefícios  
Ao automatizar o processo de coleta e padronização de dados e agendando para rodar no período noturno, a empresa é capaz de analisar mais rapidamente os novos clientes e a eficácia de suas campanhas.