Conexão ao Apache Spark
Faça o teste e mude para a nova versão do conector agora, para manter a conexão ao Spark no Analytics 18. (Lançamento provisório no segundo semestre de 2024)
Ver Mudança para uma nova versão do conector do ACL
Concept Information
O Apache Spark é um mecanismo de análise para processamento de dados em larga escala. Você pode usar o conector de dados do Apache Spark para importar dados da sua organização residentes no Spark.
Nota
O Analytics oferece o Spark como um conector opcional. Se esse conector não estiver disponível na janela Acesso a dados, é provável que o coletor não tenha sido selecionado durante a instalação. Para obter mais informações, consulte Instale opcionalmente os conectores de dados do Analytics e o mecanismo do Python.
Antes de começar
Para conectar-se ao Spark, você deve obter:
- o nome do usuário e senha
- a porta de conexão correta
- o esquema de autenticação utilizado
- o nome ou endereço IP do host do servidor
- o modo de transporte para comunicação com o servidor
- Acesso de leitura
Para obter ajuda na coleta dos pré-requisitos de conexão, entre em contato com o administrador do Spark na sua organização. Se o administrador não conseguir ajudá-lo, você ou o administrador deve entrar em contato com o suporte da Spark.
Criar uma conexão ao Spark
- No menu principal do Analytics, selecione Importar > Banco de dados e aplicativo.
- Na guia novas conexões, na seção Conectores do ACL, selecione Spark.
Dica
Você pode filtrar a lista de conectores disponíveis inserindo uma cadeia de pesquisa na caixa Filtrar conexões. Os conectores são listados em ordem alfabética.
- No painel Configurações de Conexão de Dados, insira as configurações da conexão e clique em Salvar e conectar na parte inferior do painel.
Você pode aceitar o Nome de conexão padrão ou inserir um novo nome.
A conexão do Spark é salva na guia Conexões existentes. No futuro, você poderá reconectar o Spark usando a conexão salva.
Após estabelecer a conexão, a janela Acesso a Dados abre na Área de preparação e você pode começar a importar dados. Para obter ajuda na importação de dados do Spark, consulte Trabalho com a Janela de Acesso a Dados.
Configurações de conexão
Configurações básicas
Configuração | Descrição | Exemplo |
---|---|---|
Tipo de servidor Spark | Especifica a instância do servidor do Spark a ser conectada. | SharkServer2 |
Host(s) | O endereço IP ou nome de host do servidor do Spark. | |
Porta | A porta para a conexão à instância do servidor do Spark. | 10000 |
Banco de dados | O nome do esquema de banco de dados a ser usado quando um esquema não é especificado explicitamente em uma consulta. | padrão |
Mecanismo de autenticação |
Especifica o mecanismo de autenticação a ser usado. As opções disponíveis são:
|
Sem autenticação |
Realm | O realm do host do servidor do Spark Thrift. | |
FQDN do host | O nome de domínio totalmente qualificado para o host do servidor do Spark Thrift. | _HOST |
Nome do serviço | O nome principal do serviço do Kerberos do servidor do Spark. | |
Nome do usuário | O nome do usuário para autenticação no servidor do Spark. | |
Senha | A senha correspondente ao nome do usuário para autenticação no servidor do Spark. | |
UID de delegação | O ID do usuário delegado ao qual o driver deve delegar todas as operações do Spark, em vez do usuário autenticado da conexão. | |
Transporte Thrift |
Especifica o protocolo de transporte a ser usado na camada do Thrift. As opções disponíveis são:
|
Binário |
Configurações avançadas
Configuração | Descrição | Exemplo |
---|---|---|
Ativar SSL | Especifica se o cliente usa uma conexão criptografada de SSL para comunicação com o servidor do Spark. | |
Permitir discrepância de nome do host de nome comum | Especifica se um nome de certificado SSL emitido por uma CA deve corresponder ao nome do host do servidor do Spark. | |
Permitir certificado autoassinado de servidor | Especifica se o driver permite uma conexão ao servidor do Spark que usa um certificado autoassinado, mesmo que esse certificado não esteja na lista de certificados confiáveis. | |
Certificados confiáveis | O caminho completo para o arquivo .pem que contém certificados de CA confiáveis para verificação do servidor ao usar SSL. | |
SSL bidirecional | Especifica se o SSL bidirecional está habilitado. | |
Arquivo de certificado do cliente | O caminho completo para o arquivo .pem que contém o certificado SSL do cliente. | |
Arquivo de chave privada do cliente | O caminho completo para o arquivo .pem que contém a chave privada SSL do cliente. | |
Senha da chave privada do cliente | A senha do arquivo de chave privada especificada no campo Arquivo de chave privada do cliente. | |
Usar consulta nativa | Especifica se o driver usa consultas nativas do HiveQL. Se essa opção não for selecionada, o driver converterá as consultas emitidas por um aplicativo em uma forma equivalente no HiveQL. | |
SQLPrepare rápido | Especifica se o driver transfere a execução de consultas para o SQLExecute. | |
Configuração do driver tem precedência | Especifica se configurações que abrangem todo o driver têm precedência sobre configurações de conexão e DSN. | |
Usar execução ASYNC | Especifica se as consultas devem ser executadas de forma síncrona ou assíncrona. | |
Intervalo de sondagem da execução ASYNC | O tempo, em milissegundos, entre cada sondagem do status de execução da consulta. | 100 |
Obter tabelas com consulta | Especifica se o driver usa uma consulta SHOW TABLES para recuperar nomes de tabelas do banco de dados. Se desabilitado, o driver usa a chamada de API GetTables do Thrift. | 1 |
Tipos de caracteres SQL Unicode | Especifica os tipos de SQL a serem retornados para tipos de dados cadeia. Quando habilitado, o driver retorna SQL_WVARCHAR para colunas STRING e VARCHAR e retorna SQL_WCHAR para colunas CHAR. | |
Mostrar tabela do sistema | Especifica se o driver retorna a tabela spark_system para chamadas de funções de catálogo, como SQLTables e SQLColumns. | |
Usar apenas SSPI | Especifica se o driver processa autenticação do Kerberos com o plugin SSPI ou com o MIT Kerberos. | |
Recuperar automaticamente sessão inválida | Especifica se o driver abre automaticamente uma nova sessão quando a sessão existente não é mais válida. | |
Linhas recuperadas por bloco | O número máximo de linhas que uma consulta retorna por vez. | 10000 |
Comprimento padrão da coluna de cadeia | O número máximo de caracteres que pode estar contido em colunas STRING. | 255 |
Comprimento da coluna de binários | O comprimento de dados máximo para colunas BINARY. | 32767 |
Escala de coluna decimal | O número máximo de dígitos à direita do ponto decimal para tipos de dados numéricos. | 10 |
Tempo limite de socket | O número de segundos que uma operação pode permanecer ociosa antes de ser fechada. | 60 |
Caminho HTTP | O URL parcial correspondente ao servidor do Spark. | /spark |
Campos da conexão ao Spark
Colunas com nomes únicos
As conexões do Spark efetuadas por meio da janela Acesso a Dados usam um parâmetro de cadeia de conexão EnableUniqueColumnName, definido como 0 por padrão. Esse parâmetro deve ter um valor de 0 para garantir que os nomes de coluna corretos são recuperados na conexão.
Se você criar uma conexão do Spark usando um DSN em vez da janela Acesso a Dados, esse valor será definido como 1 por padrão. Você precisa alterá-lo para 0 no registro do Windows para que a conexão funcione.
Nota
Scripts que usam conexões DSN estabelecidas em versões do ACL anteriores à 13.1 continuam a funcionar após a atualização para a versão 13.1.