GetHDFS

 

Olá, seja bem-vindo a mais uma aula do curso Desenvolvimento com Apache Nifi.

Nesta aula vamos falar sobre o processor GetHDFS.

Este processor lê arquivos do Hadoop Distributed File System (HDFS) e os transforma em FlowFiles. Este processador excluirá o arquivo do HDFS após buscá-lo.

Abaixo temos uma lista com as suas propriedades:

  • Hadoop Configuration Resources: Um arquivo ou lista de arquivos separados por vírgula que contém a configuração do sistema de arquivos do Hadoop. Sem isso, o Hadoop pesquisará o classpath por um arquivo 'core-site.xml' e 'hdfs-site.xml' ou reverterá para uma configuração padrão Para usar swebhdfs, veja a seção 'Detalhes Adicionais' da documentação do PutHDFS.Esta propriedade espera uma lista separada por vírgulas de recursos de arquivo.Suporta Expression Language: true (será avaliado usando apenas registro de variável)

Kerberos Credentials Service: Especifica o serviço do controlador de credenciais Kerberos que deve ser usado para autenticação com o Kerberos


Kerberos User Service: Especifica o serviço de controlador de usuário Kerberos que deve ser usado para autenticação com Kerberos


Kerberos Principal: Kerberos principal para autenticar como. Requer que nifi.kerberos.krb5.file seja definido em seu nifi.propertiesSuporta Expression Language: true (será avaliado usando apenas registro de variável)


Kerberos Keytab: Kerberos keytab associado ao principal. Requer que nifi.kerberos.krb5.file seja definido em seu nifi.propertiesEsta propriedade requer que seja fornecido exatamente um arquivo.Suporta Expression Language: true (será avaliado usando apenas registro de variável)


Kerberos Password: Senha do Kerberos associada ao principal.Propriedade sensível: true


Kerberos Relogin Period: Período de tempo que deve passar antes de tentar um novo login do kerberos. Esta propriedade foi descontinuada e não tem efeito no processamento. Os novos logins agora ocorrem automaticamente.Suporta Expression Language: true (será avaliado usando apenas registro de variável)


Additional Classpath Resources: Uma lista separada por vírgulas de caminhos para arquivos e/ou diretórios que serão adicionados ao classpath e usados para carregar bibliotecas nativas. Ao especificar um diretório, todos os arquivos contidos no diretório serão adicionados ao classpath, mas diretórios não serão incluídos.Esta propriedade espera uma lista de recursos separados por vírgulas. Cada um dos recursos pode ser de qualquer um dos seguintes tipos: arquivo, diretório.


Directory: O diretório HDFS a partir do qual os arquivos devem ser lidosSuporta Expression Language: true (será avaliado usando apenas registro de variável)


Recurse Subdirectories: Indica se deve extrair arquivos de subdiretórios do diretório HDFS


Keep Source File: Determina se o arquivo do HDFS deve ser excluído após a transferência bem-sucedida. Se true, o arquivo será buscado repetidamente. Isto destina-se apenas a testes.


File Filter Regex: Uma Expressão Regular Java para filtrar nomes de arquivos; se um filtro for fornecido, apenas os arquivos cujos nomes correspondem a essa Expressão Regular serão buscados, caso contrário, todos os arquivos serão buscados


Filter Match Name Only: Se true, o File Filter Regex corresponderá apenas ao nome do arquivo, caso contrário, os nomes de subdiretório serão incluídos com o nome do arquivo na comparação de regex


Ignore Dotted Files: Se true, os arquivos cujos nomes começam com um ponto ("".") serão ignorados


Minimum File Age: A idade mínima que um arquivo deve ter para ser puxado; qualquer arquivo mais recente que esse período (com base na data da última modificação) será ignorado


Maximum File Age: A idade máxima que um arquivo deve ter para ser puxado; qualquer arquivo mais antigo que esse período (com base na data da última modificação) será ignorado


Polling Interval: Indica quanto tempo esperar entre a execução de listagens de diretório


Batch Size: O número máximo de arquivos para extrair em cada iteração, com base na programação de execução.


IO Buffer Size: Quantidade de memória a ser usada para armazenar em buffer o conteúdo do arquivo durante a E/S. Isso substitui a configuração do Hadoop


Compression codec: Nenhuma descrição fornecida.