PutBigQueryBatch

Olá, seja bem-vindo a mais uma aula do curso Desenvolvimento com Apache Nifi.

Nesta aula vamos falar sobre o processor PutBigQueryBatch.

Este processor carrega o conteúdo dos flowfiles para uma tabela do Google BigQuery.

Abaixo temos uma lista com as suas propriedades:

Project ID: ID do projeto do Google CloudSuporta Expression Language: true (será avaliado usando apenas registro de variável)

GCP Credentials Provider Service: O serviço do controlador usado para obter as credenciais do Google Cloud Platform.

Number of retries: Quantas tentativas de repetição devem ser feitas antes do roteamento para o relacionamento de falha.

Proxy host: IP ou nome do host do proxy a ser usado. Talvez seja necessário definir as seguintes propriedades no bootstrap para uso do proxy https: -Djdk.http.auth.tunneling.disabledSchemes= -Djdk.http.auth.proxying.disabledSchemes=Suporta Expression Language: true (será avaliado usando apenas registro de variável)

Proxy port: Número da porta proxySuporta Expression Language: true (será avaliado usando apenas registro de variável)

HTTP Proxy Username: Nome de usuário proxy HTTPSuporta Expression Language: true (será avaliado usando apenas registro de variável)

HTTP Proxy Password: Senha do proxy HTTPPropriedade sensível: trueSuporta Expression Language: true (será avaliado usando apenas registro de variável)

Proxy Configuration Service: Especifica o serviço do controlador de configuração de proxy para solicitações de rede de proxy. Se definido, ele substitui as configurações de proxy configuradas por componente. Proxies suportados: HTTP + AuthN

Dataset: Nome do conjunto de dados do BigQuery (Observação: o conjunto de dados deve existir no GCP)Suporta Expression Language: true (será avaliado usando atributos de arquivo de fluxo e registro de variável)

Table Name: Nome da tabela do BigQuerySuporta Expression Language: true (será avaliado usando atributos de arquivo de fluxo e registro de variável)

Ignore Unknown Values: Define se o BigQuery deve permitir valores extras que não são representados no esquema da tabela. Se verdadeiro, os valores extras são ignorados. Se falso, os registros com colunas extras são tratados como registros inválidos e, se houver muitos registros inválidos, um valor inválido erro é retornado no resultado do trabalho. Por padrão, valores desconhecidos não são permitidos.Suporta Expression Language: true (será avaliado usando atributos de arquivo de fluxo e registro de variável)

Table Schema: Esquema do BigQuery no formato JSONSuporta Expression Language: true (será avaliado usando atributos de arquivo de fluxo e registro de variável)

Read Timeout: Carregar tempo limite do trabalhoSuporta Expression Language: true (será avaliado usando atributos de arquivo de fluxo e registro de variável)

Load file type: Tipo de dados do arquivo a ser carregado. Valores possíveis: AVRO, NEWLINE_DELIMITED_JSON, CSV.Suporta Expression Language: true (será avaliado usando atributos de arquivo de fluxo e registro de variável)

Create Disposition: Define se o trabalho tem permissão para criar novas tabelas

Write Disposition: Define a ação que deve ocorrer se a tabela de destino já existir.

Max Bad Records: Define o número máximo de registros inválidos que o BigQuery pode ignorar ao executar o job. Se o número de registros inválidos exceder esse valor, um erro inválido será retornado no resultado da tarefa. Por padrão, nenhum registro incorreto é ignorado.

CSV Input - Allow Jagged Rows: Defina se o BigQuery deve aceitar linhas sem colunas opcionais à direita. Se true, o BigQuery trata as colunas à direita ausentes como valores nulos. Se for false, os registros com colunas à direita ausentes serão tratados como registros inválidos e, se houver muitos registros inválidos, um erro inválido será retornado no resultado do trabalho. Por padrão, as linhas com colunas à direita ausentes são consideradas registros inválidos.

CSV Input - Allow Quoted New Lines: Define se o BigQuery deve permitir seções de dados entre aspas que contenham caracteres de nova linha em um arquivo CSV. Por padrão, novas linhas entre aspas não são permitidas.

CSV Input - Character Set: Define a codificação de caracteres dos dados.

CSV Input - Field Delimiter: Define o separador para campos em um arquivo CSV. O BigQuery converte a string para a codificação ISO-8859-1 e, em seguida, usa o primeiro byte da string codificada para dividir os dados em seu estado binário bruto. O BigQuery também é compatível com a sequência de escape " " para especificar um separador de tabulação. O valor padrão é uma vírgula (',').Suporta Expression Language: true (será avaliado usando atributos de arquivo de fluxo e registro de variável)

CSV Input - Quote: Define o valor usado para citar seções de dados em um arquivo CSV. O BigQuery converte a string para a codificação ISO-8859-1 e, em seguida, usa o primeiro byte da string codificada para dividir os dados em seu estado binário bruto. O o valor padrão é aspas duplas ('"'). Se seus dados não contiverem seções entre aspas, defina o valor da propriedade como uma string vazia. Se seus dados contiverem caracteres de nova linha entre aspas, você também deverá definir a propriedade Permitir novas linhas entre aspas para verdade.Suporta Expression Language: true (será avaliado usando atributos de arquivo de fluxo e registro de variável)

CSV Input - Skip Leading Rows: Define o número de linhas na parte superior de um arquivo CSV que o BigQuery ignorará ao ler os dados. O valor padrão é 0. Essa propriedade é útil se você tiver linhas de cabeçalho no arquivo que devem ser ignoradas.Suporta Expression Language: true (será avaliado usando atributos de arquivo de fluxo e registro de variável)

Avro Input - Use Logical Types: Se format for definido como Avro e esta opção for definida como true, você poderá interpretar os tipos lógicos em seus tipos correspondentes (como TIMESTAMP) em vez de usar apenas seus tipos brutos (como INTEGER).