Conexión a Apache Spark

Esta versión del conector de datos de Apache Spark se discontinuará después de Analytics 17.x.
Pruebe la nueva versión del conector y haga la transición ahora para poder seguir conectándose a Spark en Analytics 18. (Fecha de lanzamiento tentativa en T3 2024)
Véase Transición a una nueva versión del conector de ACL

Concept Information

Comando ACCESSDATA

Apache Spark es un motor de estudios analíticos para procesamiento de datos a gran escala. Puede utilizar el conector de datos de Apache Spark para importar los datos de Spark de su organización.

Nota

Analytics ofrece Spark como un conector opcional. Si no está disponible en la ventana Acceso a Datos, es probable que no se haya seleccionado el conector durante la instalación. Si desea obtener más información, consulte Instalar los conectores de datos opcionales de Analytics y el motor de Python.

Antes de comenzar

Para conectarse a Spark, debe contar con lo siguiente:

  • el nombre de usuario y contraseña
  • el puerto de conexión correcto
  • el esquema de autenticación que se utilizó
  • el nombre del host o la dirección IP del servidor
  • el modo de transporte para comunicarse con el servidor
  • Acceso de lectura

Si desea obtener ayuda para reunir los requisitos previos para la conexión, comuníquese con el administrador de Spark de su organización. Si el administrador no puede ayudarlo, usted o el administrador deben comunicarse con el Soporte de Spark.

Crear una nueva conexión de Spark

  1. Desde el menú principal de Analytics, seleccione Importar > Base de datos y aplicación.Analytics
  2. Desde la ficha Nuevas conexiones, en la sección Conectores ACL, seleccione Spark.

    Consejo

    Puede filtrar la lista de conectores disponibles introduciendo una cadena de búsqueda en el cuadro Filtrar conexiones. Los conectores se indican en orden alfabético.

  3. En el panel Ajustes de conexión de datos, ingrese la configuración de la conexión y, en la parte inferior del panel, haga clic en Guardar y conectar.

    Puede aceptar el Nombre de la conexión predeterminado o introducir uno nuevo.

La conexión de Spark se guarda en la ficha Conexiones existentes. En el futuro, puede volver a conectarse a Spark desde la conexión guardada.

Una vez que se establezca la conexión, se abre la ventana Acceso a Datos en el Área de almacenamiento temporal y puede comenzar a importar datos. Si desea obtener ayuda para importar datos desde Spark, consulte Trabajo con la ventana Acceso a Datos.

Ajustes de conexión

Ajustes básicos

Ajuste Descripción Ejemplo
Tipo de servidor Spark Especifica la instancia del Servidor de Spark a la que se debe conectar. SharkServer2
Host(s) La dirección IP o el nombre de host del servidor de Spark.  
Puerto El puerto para la conexión a la instancia del servidor de Spark. 10000
Base de datos Nombre del esquema de base de datos que se utiliza cuando no se especifica explícitamente un esquema en una consulta. predeterminadas
Mecanismo de autenticación

Especifica el mecanismo de autenticación que se debe utilizar. Las opciones disponibles son las siguientes:

  • Sin autenticación
  • Kerberos
  • Nombre de usuario
  • Nombre de usuario y contraseña
  • Emulador de Windows Azure HDInsight
  • Servicio Windows Azure HDInsight
Sin autenticación
Dominio El dominio del host del servidor Thrift de Spark.  
FQDN del host El nombre de dominio totalmente calificado del host del servidor de Thrift de Spark. _HOST
Nombre de servicio El nombre principal del servicio de Kerberos del servidor de Spark.  
Nombre de usuario El nombre de usuario para autenticar al servidor de Spark.  
Contraseña La contraseña del nombre de usuario para autenticar al servidor de Spark.  
UID para la delegación El ID del usuario delegado a quien el controlador debe delegar todas las operaciones de Spark, en lugar de usar al usuario autenticado para la conexión.  
Transporte en la capa Thrift

Especifica el protocolo de transporte que se debe usar en la capa Thrift. Las opciones disponibles son las siguientes:

  • Binario
  • SASL
  • HTTP
Binario

Ajustes avanzados

Ajuste Descripción Ejemplo
Permitir SSL Especifica si el cliente utiliza una conexión cifrada con SSL para comunicarse con el servidor de Spark.  
Permitir la falta de concordancia del nombre de host con el nombre común Especifica si el nombre del certificado SSL emitido por una autoridad de certificación debe coincidir con el nombre de host del servidor de Spark.  
Permitir el certificado de servidor autofirmado Especifica si el controlador permite una conexión al servidor de Spark que utiliza un certificado autofirmado, aun cuando ese certificado no esté en la lista de certificados de confianza.  
Certificados de confianza La ruta completa al archivo .pem que contiene los certificados firmados por una autoridad de certificación para verificar al usuario al usar SSL.  
SSL de dos vías Especifica si está habilitado el SSL de dos vías.  
Archivo de certificado de cliente La ruta completa al archivo .pem que contiene el certificado SSL del cliente.  
Archivo de clave privada de cliente La ruta completa al archivo .pem que contiene la clave privada SSL del cliente.  
Contraseña de clave privada de cliente La contraseña del archivo de clave privada que se especifica en el campo Archivo de clave privada de cliente.  
Utilizar consulta nativa Especifica si el controlador usa consultas HiveQL nativas. Si no se selecciona esta opción, el controlador convierte las consultas emitidas por una aplicación en una forma equivalente en HiveQL.  
Fast SQLPrepare Especifica si el controlador difiere la ejecución de la consulta a SQLExecute.  
Prioridad de la configuración del controlador Especifica si la configuración del controlador tiene prioridad sobre los ajustes de DSN y conexión.  
Utilizar ejecución ASYNC Especifica si ejecutar las consultas de forma sincrónica o asincrónica.  
Intervalo de sondeo de ejecución ASYNC El tiempo, medido en milisegundos, entre cada sondeo del estado de ejecución de la consulta. 100
Obtener tablas con consultas Especifica si el controlador utiliza la consulta SHOW TABLES para recuperar los nombres de las tablas de la base de datos. Si está desactivado, el controlador utiliza la llamada GetTables en la API de Thrift. 1
Tipos de caracteres de SQL Unicode Especifica los tipos de SQL que se deben devolver para los tipos de datos de cadena. Cuando está activado, el controlador devuelve SQL_WVARCHAR para columnas VARCHAR y STRING, y devuelve SQL_WCHAR para columnas CHAR.  
Mostrar la tabla del sistema Especifica si el controlador devuelve la tabla spark_system para las invocaciones de la función catálogo, como SQLTables y SQLColumns.  
Utilizar solo SSPI Especifica si el controlador maneja la autenticación de Kerberos con el plugin SSPI o con MIT Kerberos.  
Recuperación automática de sesión no válida Especifica si el controlador abre una nueva sesión automáticamente cuando la sesión existente ya no es válida.  
Filas recuperadas por bloque La cantidad máxima de filas que devuelve una consulta al mismo tiempo. 10000
Longitud de la columna de cadena predeterminada La cantidad máxima de caracteres que pueden incluirse en las columnas STRING. 255
Longitud de la columna binaria La longitud de datos máxima para las columnas BINARY. 32767
Escala de la columna decimal La cantidad máxima de dígitos a la derecha del separador decimal para los tipos de datos numéricos. 10
Tiempo de espera de socket La cantidad de segundos que una operación puede permanecer ociosa antes de que se cierre. 60
Ruta HTTP La URL parcial que corresponde al servidor de Spark. /spark

Campos de la conexión a Spark

Nombres de columna exclusivos

SparkLas conexiones de que se realizan a través de la ventana Acceso a Datos utilizan un parámetro de cadena de conexión EnableUniqueColumnName que está ajustado en 0 por valor predeterminado. Este parámetro debe tener un valor de 0 para garantizar que se recuperen nombres de columna correctos al establecer la conexión.

Si crea una conexión de Spark con un DSN en lugar de hacerlo desde la ventana Acceso a Datos, este valor se establece en 1 por valor predeterminado. Debe cambiarlo a 0 en el registro de Windows para que la conexión funcione.

Nota

Los scripts que utilizan conexiones de DSN establecidas en versiones de ACL anteriores a la 13.1 continúan funcionando después de actualizar a la versión 13.1.