Como criar uma tabela externa do BigQuery por script

 Nesta postagem, falaremos como criar uma tabela externa do BigQuery por script apontando para um arquivo parquet no Cloud Storage.


O que é BigQuery?

É um data warehouse totalmente gerenciado que permite realizar análises em um grande conjunto de dados, no patamar de petabytes.

Suporta consultas no formato ANSI SQL e criação de modelos de Machine Learning (ML) em uma sintaxe semelhante ao SQL.

O que é Cloud Storage?

Fornece, a nível mundial, um armazenamento de objetos altamente durável que escalona para exabytes de dados. É possível acessar dados instantaneamente de qualquer classe de armazenamento, integrar o armazenamento aos seus aplicativos com uma API exclusiva unificada e otimizar o preço e desempenho de forma fácil.

Passo a Passo

1. O primeiro passo a fazer é o login em sua conta do GCP, para este tutorial você vai precisar de uma conta que possua um projeto.

2. Vá até o console do BigQuery e crie um novo conjunto de dados:

3. Insira um nome para o conjunto de dados e clique em criar:

4. Crie a tabela "clientes" a partir da query abaixo:

CREATE EXTERNAL TABLE `<seu_projeto>.dataset_teste.clientes`

OPTIONS(format="PARQUET", uris=["gs://<seu_bucket_do_cloud_storage>/<nome_do_seu_arquivo>*.parquet"]);
  1. Ao termino da execução aparecerá a seguinte mensagem:

Ao clicar em “acessar tabela” perceba que a estrutura de campos foi obtida automaticamente a partir do arquivo parquet.