ListHDFS

 

Olá, seja bem-vindo a mais uma aula do curso Desenvolvimento com Apache Nifi.

Nesta aula vamos falar sobre o processor ListHDFS.

Este processor permite recuperar uma lista de arquivos do HDFS. Para cada arquivo listado no HDFS, esse processador cria um FlowFile que representa o arquivo HDFS a ser buscado em conjunto com FetchHDFS.

Foi projetado para ser executado no Nó Primário apenas em um cluster. Se o nó primário for alterado, o novo nó primário continuará de onde o nó anterior parou sem duplicar todos os dados. Ao contrário do GetHDFS, este processador não exclui nenhum dado do HDFS.

Abaixo temos uma lista com as suas propriedades:

  • Hadoop Configuration Resources: Um arquivo ou lista de arquivos separados por vírgula que contém a configuração do sistema de arquivos do Hadoop. Sem isso, o Hadoop pesquisará o classpath por um arquivo 'core-site.xml' e 'hdfs-site.xml' ou reverterá para uma configuração padrão
  • Kerberos Credentials Service: Especifica o serviço do controlador de credenciais Kerberos que deve ser usado para autenticação com o Kerberos
  • Kerberos User Service: Especifica o serviço de controlador de usuário Kerberos que deve ser usado para autenticação com Kerberos
  • Kerberos Principal: Kerberos principal para autenticar. Requer que nifi.kerberos.krb5.file seja definido em seu nifi.propertiesSuporta
  • Kerberos Keytab: Kerberos keytab associado ao principal. Requer que nifi.kerberos.krb5.file seja definido em seu nifi.propertiesEsta propriedade requer que seja fornecido exatamente um arquivo.
  • Kerberos Password: Senha do Kerberos associada ao principal.Propriedade sensível: true
  • Kerberos Relogin Period: Período de tempo que deve passar antes de tentar um novo login do kerberos. Esta propriedade foi descontinuada e não tem efeito no processamento. Os novos logins agora ocorrem automaticamente.
  • Additional Classpath Resources: Uma lista separada por vírgulas de caminhos para arquivos e/ou diretórios que serão adicionados ao classpath e usados para carregar bibliotecas nativas. Ao especificar um diretório, todos os arquivos contidos no diretório serão adicionados ao classpath, mas diretórios não serão incluídos.Esta propriedade espera uma lista de recursos separados por vírgulas. Cada um dos recursos pode ser de qualquer um dos seguintes tipos: arquivo, diretório.
  • Distributed Cache Service: Esta propriedade é ignorada. O estado será armazenado no escopo LOCAL ou CLUSTER pelo State Manager com base na configuração do NiFi.
  • Directory: O diretório HDFS a partir do qual os arquivos devem ser lidos
  • Recurse Subdirectories: Indica se os arquivos de subdiretórios do diretório HDFS devem ser listados
  • Record Writer: Especifica o gravador de registros a ser usado para criar a listagem. Se não for especificado, um FlowFile será criado para cada entidade listada. Se o Record Writer for especificado, todas as entidades serão gravadas em um único FlowFile.
  • File Filter: Somente os arquivos cujos nomes correspondem à expressão regular fornecida serão selecionados
  • File Filter Mode: Determina como a expressão regular no Filtro de Arquivos será usada ao recuperar listagens.
  • Minimum File Age: A idade mínima que um arquivo deve ter para ser puxado; qualquer arquivo mais recente que esse período (com base na data da última modificação) será ignorado
  • Maximum File Age: A idade máxima que um arquivo deve ter para ser puxado; qualquer arquivo anterior a esse período (com base na data da última modificação) será ignorado. O valor mínimo é 100ms.

Os relacionamentos permitidos para direcionar ou terminar um flowfile são:

  • success= FlowFile criado com sucesso a partir do conjunto de resultados da consulta SQL.