Como carregar arquivos no Cloud Storage através do Datastage

Nesta postagem, falaremos como realizar a carga de arquivos no Cloud Storage utilizando o IBM Datastage como ferramenta.

O que é Cloud Storage?

Fornece, a nível mundial, um armazenamento de objetos altamente durável que escalona para exabytes de dados. É possível acessar dados instantaneamente de qualquer classe de armazenamento, integrar o armazenamento aos seus aplicativos com uma API exclusiva unificada e otimizar o preço e desempenho de forma fácil.

O que é Datastage?

É uma das ferramentas de ETL (Extract - Transform - Load) mais utilizadas no mercado, possui uma grande variedade de componente para realizar cada etapa do ETL.

Inicialmente foi desenvolvida pela Ascential Software e foi adquirida pela IBM em 2005.

Passo a Passo

1. O primeiro passo a fazer é o login em sua conta do GCP, para este tutorial você vai precisar de uma conta que possua um projeto.

2. Vá até a barra superior e clique no ícone do Cloud Shell, igual a imagem abaixo.

3. Criaremos o bucket do Cloud Storage em que iremos exportar nossa tabela:

gsutil mb -l us-central1 gs://[PROJECT_ID]-arquivos

4. Pelo console, no menu do IAM, selecione contas de serviço:

5. Selecione uma conta de serviço que tenha permissão no bucket, clique em Criar chave:

6. Gere um arquivo Json, esse arquivo será baixado na sua máquina, pegue esse arquivo e jogue no seu diretório do Datastage:

7. Abra o Designer Client, e faça login no seu projeto:

8. Após o Datastage abrir, selecione o menu: File>New>Parallel Job>Ok:

9. Clique no Cloud_Storage_Connector da Palette e arraste para o Canvas:

10. Clique no Row_generator da Palette e arraste para o Canvas:

11. Faça um link entre as stages:

12. Abra o Cloud_Storage_Connector e insira o path em que está seu arquivo de credenciais, o nome do bucket e nome do seu arquivo junto com a extensão:

13. Em Output>Columns insira os campos do seu arquivo(exemplo):

14. Abra o Row_generator e insira o número de linhas geradas:

15. Compile e execute seu job:

Referências

  • Exporting table data

https://cloud.google.com/bigquery/docs/exporting-data#console

  • IBM DataStage Google Cloud Storage Connector to write data to Google Cloud Storage

https://developer.ibm.com/recipes/tutorials/ibm-datastage-google-cloud-storage-connector-to-write-data-to-google-cloud-storage/#:~:text=The datastage job includes a,OnPremise environment on to cloud