Nesta postagem, falaremos como criar um cluster do Dataproc dentro do GCP.
O que é Cloud Dataproc?
É a plataforma de big data totalmente gerenciado, para processar grandes quantidades de dados com rapidez, de forma econômica e em grande escala. Usando ferramentas de código aberto como o Apache Spark, o Apache Hive, o Apache Hadoop e o Apache Pig combinadas à escalabilidade dinâmica do Compute Engine e ao armazenamento escalável do Cloud Storage, o Dataproc oferece à s equipes analÃticas os mecanismos e a elasticidade para executar análises na escala de petabytes por uma fração do custo dos clusters locais tradicional, além de ser facilmente incorporado a outros serviços do Google Cloud Platform (GCP).
Passo a Passo
1. O primeiro passo a fazer é o login em sua conta do GCP, para este tutorial você vai precisar de uma conta que possua um projeto.
2. Vá até menu, selecione Dataproc >Clusters.
3.Clique em Criar cluster:
4.Especifique um nome para seu cluster, o nome dele precisa começar com uma letra minúscula seguida por até 54 letras minúsculas, números ou hifens, mas não pode terminar com um hÃfen, nesse exemplo usaremos o nome "meu-cluster":
5. Defina o Local conforme abaixo:
6. Defina o tipo de cluster como Padrão:
7. Em controle de versões mantenha do jeito que está, se quiser pode marcar um componente adicional para instalação:
8. Clique em Configurar nós e altere o valor do campo "Number of worker nodes" para 2, conforme abaixo:
9. Clique em Criar:
Observação: Ao clicar em linha de comando ao fim da página aparecerá o comando de criação via Cloud Shell:
gcloud beta dataproc clusters create meu-cluster \
--region southamerica-east1 \
--zone southamerica-east1-a \
--master-machine-type n1-standard-4 \
--master-boot-disk-size 500 \
--num-workers 2 \
--worker-machine-type n1-standard-4 \
--worker-boot-disk-size 500 \
--image-version 1.3-debian10 \
--project $PROJECT_ID
10.Aguarde a criação do cluster:
11. Após a criação será possÃvel se conectar ao cluster ou criar Jobs:
Referências
· Dataproc documentation
https://cloud.google.com/dataproc/docs
· Submit a job
https://cloud.google.com/dataproc/docs/guides/submit-job
· Como criar um Job no Cloud Dataproc
https://cloudetl.blogspot.com/2020/07/como-criar-um-job-no-cloud-dataproc.html