Ter diversas origens de dados pode dificultar futuras análises, as
empresas tem muito a ganhar ao fazer uma integração de dados, que ao
combinar todas essas informações em um local único, podem direcionar o
foco da pesquisa/junção de dados para outra atividade.
Para apoiar essas organizações as plataformas em nuvem começaram a
desenvolver diversas soluções, hoje falaremos sobre uma solução
Microsoft Azure, o Azure Data Factory.
O que é o Azure Data Factory?
"Serviço de integração híbrida de dados que simplifica o ETL em escala” - Microsoft Azure.
"Serviço de integração híbrida de dados que simplifica o ETL em escala” - Microsoft Azure.
O Azure Data Factory (ADF) é um serviço de nuvem gerenciado desenvolvido pela
Microsoft que possibilita a integração de dados em projetos de
nuvem. Permite criar fluxos ETL (extrair, transformar e carregar), ELT (extrair,
carregar e transformar), orquestração e agendamento de pipelines. Além de
ter integração com Azure HDInsight, o Azure Databricks e o Banco de Dados SQL do Azure.
Recursos
O ADF possui muitos recursos, entre eles, citaremos os principais:
- Escalável:
É um serviço gerenciado que pode ser escalado sob demanda.
- Visual:
Não é necessário codificação na criação de processos ETL ou ELT.
- Seguro:
O Azure possui muitas medidas de segurança na conexão para banco de dados ou aplicativos, o Azure Data Factory também não guarda dados, somente as credenciais (que são
criptografadas).
Pagamento por utilização
O preço é determinado pelo uso, ou seja, será cobrado somente o tempo que
foi utilizado.
- Conectores:
Atualmente existe mais de 90 conectores predefinidos. É possível conectar em origens de dados locais, Google BigQuery, Amazon Redshift, Amazon S3 e do próprio Azure.
Caso de Uso
BioAnalisys - Integração de dados.
- Problema de negócio
A organização BioAnalisys (fictícia) possui 23 sistemas legados contendo informações sobre seus clientes, cada
sistema possui seu próprio formato, ou seja, os campos e tabelas diferem entre eles.
Os analistas precisam, no início de cada dia gerar uma visão unificada dos novos clientes do dia anterior em todos esses sistemas. Atualmente o processo é muito árduo, sendo executada uma consulta em cada sistema origem, exportado o retorno
em um arquivo .csv.
A equipe apresenta dificuldade ao fazer esse processo manualmente.
- Ideia
E se fosse possível utilizar uma ferramenta/solução para consultar os sistemas origens e inserir o resultado em uma
tabela única?
- Visão Geral da Solução
Será utilizado o Azure Data Factory para ingestão no SQL Azure a partir dos sistemas de origem, após réplica, processos de ETL vão padronizar os dados de cada sistema e inserir
em uma base única.
- Arquitetura da solução
- Benefícios
Ao automatizar o processo de coleta e padronização de dados e agendando para rodar no período noturno, a empresa é capaz de analisar mais rapidamente os novos clientes e a eficácia de suas campanhas.