Conexão ao Apache Spark

Esta versão do conector de dados do Apache Spark será descontinuada após o Analytics 17.x.
Faça o teste e mude para a nova versão do conector agora, para manter a conexão ao Spark no Analytics 18. (Lançamento provisório no segundo semestre de 2024)
Ver Mudança para uma nova versão do conector do ACL

Concept Information

Comando ACCESSDATA

O Apache Spark é um mecanismo de análise para processamento de dados em larga escala. Você pode usar o conector de dados do Apache Spark para importar dados da sua organização residentes no Spark.

Nota

O Analytics oferece o Spark como um conector opcional. Se esse conector não estiver disponível na janela Acesso a dados, é provável que o coletor não tenha sido selecionado durante a instalação. Para obter mais informações, consulte Instale opcionalmente os conectores de dados do Analytics e o mecanismo do Python.

Antes de começar

Para conectar-se ao Spark, você deve obter:

  • o nome do usuário e senha
  • a porta de conexão correta
  • o esquema de autenticação utilizado
  • o nome ou endereço IP do host do servidor
  • o modo de transporte para comunicação com o servidor
  • Acesso de leitura

Para obter ajuda na coleta dos pré-requisitos de conexão, entre em contato com o administrador do Spark na sua organização. Se o administrador não conseguir ajudá-lo, você ou o administrador deve entrar em contato com o suporte da Spark.

Criar uma conexão ao Spark

  1. No menu principal do Analytics, selecione Importar > Banco de dados e aplicativo.
  2. Na guia novas conexões, na seção Conectores do ACL, selecione Spark.

    Dica

    Você pode filtrar a lista de conectores disponíveis inserindo uma cadeia de pesquisa na caixa Filtrar conexões. Os conectores são listados em ordem alfabética.

  3. No painel Configurações de Conexão de Dados, insira as configurações da conexão e clique em Salvar e conectar na parte inferior do painel.

    Você pode aceitar o Nome de conexão padrão ou inserir um novo nome.

A conexão do Spark é salva na guia Conexões existentes. No futuro, você poderá reconectar o Spark usando a conexão salva.

Após estabelecer a conexão, a janela Acesso a Dados abre na Área de preparação e você pode começar a importar dados. Para obter ajuda na importação de dados do Spark, consulte Trabalho com a Janela de Acesso a Dados.

Configurações de conexão

Configurações básicas

Configuração Descrição Exemplo
Tipo de servidor Spark Especifica a instância do servidor do Spark a ser conectada. SharkServer2
Host(s) O endereço IP ou nome de host do servidor do Spark.  
Porta A porta para a conexão à instância do servidor do Spark. 10000
Banco de dados O nome do esquema de banco de dados a ser usado quando um esquema não é especificado explicitamente em uma consulta. padrão
Mecanismo de autenticação

Especifica o mecanismo de autenticação a ser usado. As opções disponíveis são:

  • Sem autenticação
  • Kerberos
  • Nome de usuário
  • Nome do usuário e senha
  • Emulador HDInsight do Windows Azure
  • Serviço HDInsight do Windows Azure
Sem autenticação
Realm O realm do host do servidor do Spark Thrift.  
FQDN do host O nome de domínio totalmente qualificado para o host do servidor do Spark Thrift. _HOST
Nome do serviço O nome principal do serviço do Kerberos do servidor do Spark.  
Nome do usuário O nome do usuário para autenticação no servidor do Spark.  
Senha A senha correspondente ao nome do usuário para autenticação no servidor do Spark.  
UID de delegação O ID do usuário delegado ao qual o driver deve delegar todas as operações do Spark, em vez do usuário autenticado da conexão.  
Transporte Thrift

Especifica o protocolo de transporte a ser usado na camada do Thrift. As opções disponíveis são:

  • Binário
  • SASL
  • HTTP
Binário

Configurações avançadas

Configuração Descrição Exemplo
Ativar SSL Especifica se o cliente usa uma conexão criptografada de SSL para comunicação com o servidor do Spark.  
Permitir discrepância de nome do host de nome comum Especifica se um nome de certificado SSL emitido por uma CA deve corresponder ao nome do host do servidor do Spark.  
Permitir certificado autoassinado de servidor Especifica se o driver permite uma conexão ao servidor do Spark que usa um certificado autoassinado, mesmo que esse certificado não esteja na lista de certificados confiáveis.  
Certificados confiáveis O caminho completo para o arquivo .pem que contém certificados de CA confiáveis para verificação do servidor ao usar SSL.  
SSL bidirecional Especifica se o SSL bidirecional está habilitado.  
Arquivo de certificado do cliente O caminho completo para o arquivo .pem que contém o certificado SSL do cliente.  
Arquivo de chave privada do cliente O caminho completo para o arquivo .pem que contém a chave privada SSL do cliente.  
Senha da chave privada do cliente A senha do arquivo de chave privada especificada no campo Arquivo de chave privada do cliente.  
Usar consulta nativa Especifica se o driver usa consultas nativas do HiveQL. Se essa opção não for selecionada, o driver converterá as consultas emitidas por um aplicativo em uma forma equivalente no HiveQL.  
SQLPrepare rápido Especifica se o driver transfere a execução de consultas para o SQLExecute.  
Configuração do driver tem precedência Especifica se configurações que abrangem todo o driver têm precedência sobre configurações de conexão e DSN.  
Usar execução ASYNC Especifica se as consultas devem ser executadas de forma síncrona ou assíncrona.  
Intervalo de sondagem da execução ASYNC O tempo, em milissegundos, entre cada sondagem do status de execução da consulta. 100
Obter tabelas com consulta Especifica se o driver usa uma consulta SHOW TABLES para recuperar nomes de tabelas do banco de dados. Se desabilitado, o driver usa a chamada de API GetTables do Thrift. 1
Tipos de caracteres SQL Unicode Especifica os tipos de SQL a serem retornados para tipos de dados cadeia. Quando habilitado, o driver retorna SQL_WVARCHAR para colunas STRING e VARCHAR e retorna SQL_WCHAR para colunas CHAR.  
Mostrar tabela do sistema Especifica se o driver retorna a tabela spark_system para chamadas de funções de catálogo, como SQLTables e SQLColumns.  
Usar apenas SSPI Especifica se o driver processa autenticação do Kerberos com o plugin SSPI ou com o MIT Kerberos.  
Recuperar automaticamente sessão inválida Especifica se o driver abre automaticamente uma nova sessão quando a sessão existente não é mais válida.  
Linhas recuperadas por bloco O número máximo de linhas que uma consulta retorna por vez. 10000
Comprimento padrão da coluna de cadeia O número máximo de caracteres que pode estar contido em colunas STRING. 255
Comprimento da coluna de binários O comprimento de dados máximo para colunas BINARY. 32767
Escala de coluna decimal O número máximo de dígitos à direita do ponto decimal para tipos de dados numéricos. 10
Tempo limite de socket O número de segundos que uma operação pode permanecer ociosa antes de ser fechada. 60
Caminho HTTP O URL parcial correspondente ao servidor do Spark. /spark

Campos da conexão ao Spark

Colunas com nomes únicos

As conexões do Spark efetuadas por meio da janela Acesso a Dados usam um parâmetro de cadeia de conexão EnableUniqueColumnName, definido como 0 por padrão. Esse parâmetro deve ter um valor de 0 para garantir que os nomes de coluna corretos são recuperados na conexão.

Se você criar uma conexão do Spark usando um DSN em vez da janela Acesso a Dados, esse valor será definido como 1 por padrão. Você precisa alterá-lo para 0 no registro do Windows para que a conexão funcione.

Nota

Scripts que usam conexões DSN estabelecidas em versões do ACL anteriores à 13.1 continuam a funcionar após a atualização para a versão 13.1.