Como extrair dados do BigQuery através do Datastage

Nesta postagem, falaremos como realizar a extração de uma tabela que esteja no BigQuery utilizando o IBM Datastage como ferramenta.

O que é BigQuery?

É um data warehouse totalmente gerenciado que permite realizar análises em um grande conjunto de dados, no patamar de petabytes.

Suporta consultas no formato ANSI SQL e criação de modelos de Machine Learning (ML) em uma sintaxe semelhante ao SQL.

O que é Datastage?

É uma das ferramentas de ETL (Extract - Transform - Load) mais utilizadas no mercado, possui uma grande variedade de componente para realizar cada etapa do ETL.

Inicialmente foi desenvolvida pela Ascential Software e foi adquirida pela IBM em 2005.

Passo a Passo

1. O primeiro passo a fazer é o login em sua conta do GCP, para este tutorial você vai precisar de uma conta que possua um projeto.

2. Vá até o console do BigQuery e crie um novo conjunto de dados:

3. Insira um nome para o conjunto de dados e clique em criar:

4. Crie a tabela "clientes" a partir da query abaixo, vamos usar esses dados para fazer a exportação:

create table dataset_teste.clientes as
SELECT cliente_id, nome
FROM (
  SELECT 1 AS cliente_id,'José' Nome UNION ALL
  SELECT 2 AS cliente_id,'Maria' Nome UNION ALL
  SELECT 3 AS cliente_id,'João' Nome UNION ALL
  SELECT 4 AS cliente_id,'Pedro' Nome UNION ALL
  SELECT 5 AS cliente_id,'Ana' Nome 
  ) AS Clientes;

5. Pelo console, no menu do IAM, selecione contas de serviço:

6. Selecione uma conta de serviço que tenha permissão de leitura no dataset do BigQuery, clique em Criar chave:

7. Gere um arquivo Json, esse arquivo será baixado na sua máquina, pegue esse arquivo e jogue no seu diretório do Datastage:

8. Abra o Designer Client, e faça login no seu projeto:

9. Após o Datastage abrir, selecione o menu: File>New>Parallel Job>Ok:

10. Clique no BigQuery_Connector da Palette e arraste para o Canvas

11. Clique no Peek da Palette e arraste para o Canvas

12. Faça um link entre as stages:

13. Abra o BigQuery_Connector e insira o path em que está seu arquivo de credenciais, o nome do dataset do BQ e o nome da sua tabela:

14. Em Output>Columns insira os campos da sua tabela:

15. Compile e execute seu job:

Referências

  • Exporting table data

https://cloud.google.com/bigquery/docs/exporting-data#console

  • IBM DataStage BigQuery Connector to read data from Google BigQuery in a hybrid cloud scenario

https://developer.ibm.com/recipes/tutorials/ibm-datastage-bigquery-connector-to-read-data-from-google-bigquery-in-a-hybrid-cloud-scenario/