Conexão ao Apache Hive (v.1)

Esta versão do conector de dados do Apache Hive foi removida do Analytics 18.x.
Os scripts que usam essa versão do conector do Hive não serão executados no Analytics 18.x e devem ser atualizados para usar a nova versão do conector.
A versão do conector continuará a funcionar no Analytics 17.x e em versões anteriores do Analytics, enquanto houver compatibilidade entre a origem dos dados e o conector.
Ver Mudança para uma nova versão do conector do ACL

Informações do conceito

Comando ACCESSDATA

O Apache Hive é um serviço de dados na nuvem. Você pode usar o conector de dados do Apache Hive para importar dados da sua organização residentes no Hive.

Antes de começar

Para conectar-se ao Hive, você deve obter o seguinte:

  • nome do usuário e senha
  • a porta de conexão correta
  • o esquema de autenticação utilizado
  • o nome ou endereço IP do host do servidor
  • o modo de transporte para comunicação com o servidor
  • Acesso de leitura

Para obter ajuda na coleta dos pré-requisitos de conexão, entre em contato com o Hive administrador do na sua organização. Se o administrador não conseguir ajudá-lo, você ou o administrador deve entrar em contato com o suporte da Hive.

Criar uma conexão ao Hive

  1. No menu principal do Analytics, selecione Importar > Banco de dados e aplicativo.
  2. Na guia novas conexões, na seção Conectores do ACL, selecione Hive.

    Dica

    Você pode filtrar a lista de conectores disponíveis inserindo uma cadeia de pesquisa na caixa Filtrar conexões. Os conectores são listados em ordem alfabética.

  3. No painel Configurações de Conexão de Dados, insira as configurações da conexão e clique em Salvar e conectar na parte inferior do painel.

    Você pode aceitar o Nome de conexão padrão ou inserir um novo nome.

A conexão do Hive é salva na guia Conexões existentes. No futuro, você poderá reconectar o Hive usando a conexão salva.

Após estabelecer a conexão, a janela Acesso a Dados abre na Área de preparação e você pode começar a importar dados. Para obter ajuda na importação de dados do Hive, consulte Trabalho com a Janela de Acesso a Dados.

Configurações de conexão

Configurações básicas

Configuração Descrição Exemplo
Tipo de servidor de hive Especifica a instância do servidor do Hive a ser conectada. Servidor de hive 2
Modo de descoberta de serviços

Especifica como os serviços do servidor Hive são descobertos. As opções disponíveis são:

  • Sem descoberta de serviços - O driver se conecta ao Hive sem usar um serviço de descoberta.
  • ZooKeeper - O driver descobre serviços do servidor do Hive por meio do serviço do ZooKeeper.
Sem descoberta de serviços
Host(s) O endereço IP ou nome de host do servidor do Hive.  
Porta A porta para a conexão à instância do servidor do Hive. 10000
Banco de dados O nome do esquema de banco de dados a ser usado quando um esquema não é especificado explicitamente em uma consulta.  
Namespace do ZooKeeper O namespace configurado no ZooKeeper para os znodes do servidor 2 do Hive.  
Mecanismo de autenticação

Especifica o mecanismo de autenticação a ser usado. As opções disponíveis são:

  • Sem autenticação
  • Kerberos
  • Nome do usuário
  • Nome do usuário e senha
  • Serviço HDInsight do Windows Azure
Sem autenticação
Realm O realm do host do servidor 2 do Hive.  
FQDN do host O nome de domínio totalmente qualificado para o host do servidor do Hive. _HOST
Nome do serviço O nome principal do serviço do Kerberos do servidor do Hive.  
Nome do usuário O nome de usuário para autenticação no servidor do servidor do Hive.  
Senha A senha correspondente ao nome do usuário para autenticação no servidor do Hive.  
UID de delegação O ID do usuário delegado ao qual o driver deve delegar todas as operações do Hive, em vez do usuário autenticado da conexão.  
Transporte Thrift

Especifica o protocolo de transporte a ser usado na camada do Thrift. As opções disponíveis são:

  • Binário
  • SASL
  • HTTP
Binário

Configurações avançadas

Configuração Descrição Exemplo
Ativar SSL Especifica se o cliente usa uma conexão criptografada de SSL para comunicação com o servidor do Hive.  
Permitir discrepância de nome do host de nome comum Especifica se um nome de certificado SSL emitido por uma CA deve corresponder ao nome do host do servidor do Hive.  
Permitir certificado autoassinado de servidor Especifica se o driver permite uma conexão ao servidor do Hive que usa um certificado autoassinado, mesmo que esse certificado não esteja na lista de certificados confiáveis.  
Certificados confiáveis O caminho completo para o arquivo .pem que contém certificados de CA confiáveis para verificação do servidor ao usar SSL.  
SSL bidirecional Especifica se o SSL bidirecional está habilitado.  
Arquivo de certificado do cliente O caminho completo para o arquivo .pem que contém o certificado SSL do cliente.  
Arquivo de chave privada do cliente O caminho completo para o arquivo .pem que contém a chave privada SSL do cliente.  
Senha da chave privada do cliente A senha do arquivo de chave privada especificada no campo Arquivo de chave privada do cliente.  
Usar consulta nativa Especifica se o driver usa consultas nativas do HiveQL. Se essa opção não for selecionada, o driver converterá as consultas emitidas por um aplicativo em uma forma equivalente no HiveQL.  
SQLPrepare rápido Especifica se o driver transfere a execução de consultas para o SQLExecute.  
Configuração do driver tem precedência Especifica se configurações que abrangem todo o driver têm precedência sobre configurações de conexão e DSN.  
Usar execução ASYNC Especifica se as consultas devem ser executadas de forma síncrona ou assíncrona.  
Intervalo de sondagem da execução ASYNC O tempo, em milissegundos, entre cada sondagem do status de execução da consulta. 100
Obter tabelas com consulta Especifica se o driver usa uma consulta SHOW TABLES para recuperar nomes de tabelas do banco de dados. Se desabilitado, o driver usa a chamada de API GetTables do Thrift.  
Tipos de caracteres SQL Unicode Especifica os tipos de SQL a serem retornados para tipos de dados cadeia. Quando habilitado, o driver retorna SQL_WVARCHAR para colunas STRING e VARCHAR e retorna SQL_WCHAR para colunas CHAR.  
Mostrar tabela do sistema Especifica se o driver retorna a tabela hive_system para chamadas de funções de catálogo, como SQLTables e SQLColumns.  
Usar apenas SSPI Especifica se o driver processa autenticação do Kerberos com o plugin SSPI ou com o MIT Kerberos.  
Recuperar automaticamente sessão inválida Especifica se o driver abre automaticamente uma nova sessão quando a sessão existente não é mais válida.  
Linhas recuperadas por bloco O número máximo de linhas que uma consulta retorna por vez. 10000
Comprimento padrão da coluna de cadeia O número máximo de caracteres que pode estar contido em colunas STRING. 255
Comprimento da coluna de binários O comprimento de dados máximo para colunas BINARY. 32767
Escala de coluna decimal O número máximo de dígitos à direita do ponto decimal para tipos de dados numéricos. 10
Tempo limite de socket O número de segundos que uma operação pode permanecer ociosa antes de ser fechada. 60
Caminho HTTP O URL parcial correspondente ao servidor do Hive.  

Campos da conexão ao Hive

Colunas com nomes únicos

As conexões do Hive efetuadas por meio da janela Acesso a Dados usam um parâmetro de cadeia de conexão EnableUniqueColumnName, definido como 0 por padrão. Esse parâmetro deve ter um valor de 0 para garantir que os nomes de coluna corretos são recuperados na conexão.

Se você criar uma conexão do Hive usando um DSN em vez da janela Acesso a Dados, esse valor será definido como 1 por padrão. Você precisa alterá-lo para 0 no registro do Windows para que a conexão funcione.

Nota

Scripts que usam conexões DSN estabelecidas em versões do ACL anteriores à 13.1 continuam a funcionar após a atualização para a versão 13.1.