Conexión a Apache Spark

Esta versión del conector de datos de Apache Spark se discontinuará después de Analytics 17.x.
Pruebe la nueva versión del conector y haga la transición ahora para poder seguir conectándose a Spark en Analytics 18. (Fecha de lanzamiento tentativa en T3 2024)
Véase Transición a una nueva versión del conector de ACL

Concept Information

Comando ACCESSDATA

Apache Spark es un motor de estudios analíticos para procesamiento de datos a gran escala. Puede utilizar el conector de datos de Apache Spark para importar los datos de Spark de su organización.

Nota

Analytics ofrece Spark como un conector opcional. Si no está disponible en la ventana Acceso a Datos, es probable que no se haya seleccionado el conector durante la instalación. Si desea obtener más información, consulte Instalar los conectores de datos opcionales de Analytics y el motor de Python.

Antes de comenzar

Para conectarse a Spark, debe contar con lo siguiente:

el nombre de usuario y contraseña
el puerto de conexión correcto
el esquema de autenticación que se utilizó
el nombre del host o la dirección IP del servidor
el modo de transporte para comunicarse con el servidor
Acceso de lectura

Si desea obtener ayuda para reunir los requisitos previos para la conexión, comuníquese con el administrador de Spark de su organización. Si el administrador no puede ayudarlo, usted o el administrador deben comunicarse con el Soporte de Spark.

Crear una nueva conexión de Spark

Desde el menú principal de Analytics, seleccione Importar > Base de datos y aplicación.Analytics
Desde la ficha Nuevas conexiones, en la sección Conectores ACL, seleccione Spark.
Consejo
Puede filtrar la lista de conectores disponibles introduciendo una cadena de búsqueda en el cuadro Filtrar conexiones. Los conectores se indican en orden alfabético.
En el panel Ajustes de conexión de datos, ingrese la configuración de la conexión y, en la parte inferior del panel, haga clic en Guardar y conectar.
Puede aceptar el Nombre de la conexión predeterminado o introducir uno nuevo.

La conexión de Spark se guarda en la ficha Conexiones existentes. En el futuro, puede volver a conectarse a Spark desde la conexión guardada.

Una vez que se establezca la conexión, se abre la ventana Acceso a Datos en el Área de almacenamiento temporal y puede comenzar a importar datos. Si desea obtener ayuda para importar datos desde Spark, consulte Trabajo con la ventana Acceso a Datos.

Ajustes de conexión

Ajustes básicos

Ajuste	Descripción	Ejemplo
Tipo de servidor Spark	Especifica la instancia del Servidor de Spark a la que se debe conectar.	SharkServer2
Host(s)	La dirección IP o el nombre de host del servidor de Spark.
Puerto	El puerto para la conexión a la instancia del servidor de Spark.	10000
Base de datos	Nombre del esquema de base de datos que se utiliza cuando no se especifica explícitamente un esquema en una consulta.	predeterminadas
Mecanismo de autenticación	Especifica el mecanismo de autenticación que se debe utilizar. Las opciones disponibles son las siguientes: Sin autenticación Kerberos Nombre de usuario Nombre de usuario y contraseña Emulador de Windows Azure HDInsight Servicio Windows Azure HDInsight	Sin autenticación
Dominio	El dominio del host del servidor Thrift de Spark.
FQDN del host	El nombre de dominio totalmente calificado del host del servidor de Thrift de Spark.	_HOST
Nombre de servicio	El nombre principal del servicio de Kerberos del servidor de Spark.
Nombre de usuario	El nombre de usuario para autenticar al servidor de Spark.
Contraseña	La contraseña del nombre de usuario para autenticar al servidor de Spark.
UID para la delegación	El ID del usuario delegado a quien el controlador debe delegar todas las operaciones de Spark, en lugar de usar al usuario autenticado para la conexión.
Transporte en la capa Thrift	Especifica el protocolo de transporte que se debe usar en la capa Thrift. Las opciones disponibles son las siguientes: Binario SASL HTTP	Binario

Ajustes avanzados

Ajuste	Descripción	Ejemplo
Permitir SSL	Especifica si el cliente utiliza una conexión cifrada con SSL para comunicarse con el servidor de Spark.
Permitir la falta de concordancia del nombre de host con el nombre común	Especifica si el nombre del certificado SSL emitido por una autoridad de certificación debe coincidir con el nombre de host del servidor de Spark.
Permitir el certificado de servidor autofirmado	Especifica si el controlador permite una conexión al servidor de Spark que utiliza un certificado autofirmado, aun cuando ese certificado no esté en la lista de certificados de confianza.
Certificados de confianza	La ruta completa al archivo .pem que contiene los certificados firmados por una autoridad de certificación para verificar al usuario al usar SSL.
SSL de dos vías	Especifica si está habilitado el SSL de dos vías.
Archivo de certificado de cliente	La ruta completa al archivo .pem que contiene el certificado SSL del cliente.
Archivo de clave privada de cliente	La ruta completa al archivo .pem que contiene la clave privada SSL del cliente.
Contraseña de clave privada de cliente	La contraseña del archivo de clave privada que se especifica en el campo Archivo de clave privada de cliente.
Utilizar consulta nativa	Especifica si el controlador usa consultas HiveQL nativas. Si no se selecciona esta opción, el controlador convierte las consultas emitidas por una aplicación en una forma equivalente en HiveQL.
Fast SQLPrepare	Especifica si el controlador difiere la ejecución de la consulta a SQLExecute.
Prioridad de la configuración del controlador	Especifica si la configuración del controlador tiene prioridad sobre los ajustes de DSN y conexión.
Utilizar ejecución ASYNC	Especifica si ejecutar las consultas de forma sincrónica o asincrónica.
Intervalo de sondeo de ejecución ASYNC	El tiempo, medido en milisegundos, entre cada sondeo del estado de ejecución de la consulta.	100
Obtener tablas con consultas	Especifica si el controlador utiliza la consulta SHOW TABLES para recuperar los nombres de las tablas de la base de datos. Si está desactivado, el controlador utiliza la llamada GetTables en la API de Thrift.	1
Tipos de caracteres de SQL Unicode	Especifica los tipos de SQL que se deben devolver para los tipos de datos de cadena. Cuando está activado, el controlador devuelve SQL_WVARCHAR para columnas VARCHAR y STRING, y devuelve SQL_WCHAR para columnas CHAR.
Mostrar la tabla del sistema	Especifica si el controlador devuelve la tabla spark_system para las invocaciones de la función catálogo, como SQLTables y SQLColumns.
Utilizar solo SSPI	Especifica si el controlador maneja la autenticación de Kerberos con el plugin SSPI o con MIT Kerberos.
Recuperación automática de sesión no válida	Especifica si el controlador abre una nueva sesión automáticamente cuando la sesión existente ya no es válida.
Filas recuperadas por bloque	La cantidad máxima de filas que devuelve una consulta al mismo tiempo.	10000
Longitud de la columna de cadena predeterminada	La cantidad máxima de caracteres que pueden incluirse en las columnas STRING.	255
Longitud de la columna binaria	La longitud de datos máxima para las columnas BINARY.	32767
Escala de la columna decimal	La cantidad máxima de dígitos a la derecha del separador decimal para los tipos de datos numéricos.	10
Tiempo de espera de socket	La cantidad de segundos que una operación puede permanecer ociosa antes de que se cierre.	60
Ruta HTTP	La URL parcial que corresponde al servidor de Spark.	/spark

Campos de la conexión a Spark

Nombres de columna exclusivos

SparkLas conexiones de que se realizan a través de la ventana Acceso a Datos utilizan un parámetro de cadena de conexión EnableUniqueColumnName que está ajustado en 0 por valor predeterminado. Este parámetro debe tener un valor de 0 para garantizar que se recuperen nombres de columna correctos al establecer la conexión.

Si crea una conexión de Spark con un DSN en lugar de hacerlo desde la ventana Acceso a Datos, este valor se establece en 1 por valor predeterminado. Debe cambiarlo a 0 en el registro de Windows para que la conexión funcione.