Como criar um cluster do Dataproc no GCP


Nesta postagem, falaremos como criar um cluster do Dataproc dentro do GCP.

O que é Cloud Dataproc?

É a plataforma de big data totalmente gerenciado, para processar grandes quantidades de dados com rapidez, de forma econômica e em grande escala. Usando ferramentas de código aberto como o Apache Spark, o Apache Hive, o Apache Hadoop e o Apache Pig combinadas à escalabilidade dinâmica do Compute Engine e ao armazenamento escalável do Cloud Storage, o Dataproc oferece às equipes analíticas os mecanismos e a elasticidade para executar análises na escala de petabytes por uma fração do custo dos clusters locais tradicional, além de ser facilmente incorporado a outros serviços do Google Cloud Platform (GCP).

Passo a Passo

1. O primeiro passo a fazer é o login em sua conta do GCP, para este tutorial você vai precisar de uma conta que possua um projeto.

2. Vá até menu, selecione Dataproc >Clusters.


3.Clique em Criar cluster:

4.Especifique um nome para seu cluster, o nome dele precisa começar com uma letra minúscula seguida por até 54 letras minúsculas, números ou hifens, mas não pode terminar com um hífen, nesse exemplo usaremos o nome "meu-cluster":

5. Defina o Local conforme abaixo:

6. Defina o tipo de cluster como Padrão:

7. Em controle de versões mantenha do jeito que está, se quiser pode marcar um componente adicional para instalação:

8. Clique em Configurar nós e altere o valor do campo "Number of worker nodes" para 2, conforme abaixo:

9. Clique em Criar:

Observação: Ao clicar em linha de comando ao fim da página aparecerá o comando de criação via Cloud Shell:

gcloud beta dataproc clusters create meu-cluster \
--region southamerica-east1 \
--zone southamerica-east1-a \
--master-machine-type n1-standard-4 \
--master-boot-disk-size 500 \
--num-workers 2 \
--worker-machine-type n1-standard-4 \
--worker-boot-disk-size 500 \
--image-version 1.3-debian10 \
--project $PROJECT_ID

10.Aguarde a criação do cluster:

11. Após a criação será possível se conectar ao cluster ou criar Jobs:

Referências

· Dataproc documentation

https://cloud.google.com/dataproc/docs

· Submit a job

https://cloud.google.com/dataproc/docs/guides/submit-job

· Como criar um Job no Cloud Dataproc

https://cloudetl.blogspot.com/2020/07/como-criar-um-job-no-cloud-dataproc.html