Nesta postagem, falaremos como criar uma tabela externa do BigQuery por script apontando para um arquivo parquet no Cloud Storage.
O que é BigQuery?
É um data warehouse totalmente gerenciado que permite realizar análises em um grande conjunto de dados, no patamar de petabytes.
Suporta consultas no formato ANSI SQL e criação de modelos de Machine Learning (ML) em uma sintaxe semelhante ao SQL.
O que é Cloud Storage?
Fornece, a nÃvel mundial, um armazenamento de objetos altamente durável que escalona para exabytes de dados. É possÃvel acessar dados instantaneamente de qualquer classe de armazenamento, integrar o armazenamento aos seus aplicativos com uma API exclusiva unificada e otimizar o preço e desempenho de forma fácil.
Passo a Passo
1. O primeiro passo a fazer é o login em sua conta do GCP, para este tutorial você vai precisar de uma conta que possua um projeto.
![](https://miro.medium.com/max/625/0*Krq7iUXz_wUIfv2D.png)
2. Vá até o console do BigQuery e crie um novo conjunto de dados:
3. Insira um nome para o conjunto de dados e clique em criar:
4. Crie a tabela "clientes" a partir da query abaixo:
CREATE EXTERNAL TABLE `<seu_projeto>.dataset_teste.clientes`
OPTIONS(format="PARQUET", uris=["gs://<seu_bucket_do_cloud_storage>/<nome_do_seu_arquivo>*.parquet"]);
- Ao termino da execução aparecerá a seguinte mensagem:
Ao clicar em “acessar tabela” perceba que a estrutura de campos foi obtida automaticamente a partir do arquivo parquet.