Conexión a Apache Hive (v.1)

Esta versión del conector de datos de Apache Hive se ha eliminado de Analytics 18.x.
Los scripts que utilicen esta versión del conector Hive no funcionarán en Analytics 18.x y deberán actualizarse para utilizar la nueva versión del conector.
Esta versión del conector seguirá funcionando en Analytics 17.x, y versiones anteriores de Analytics, mientras el conector y la fuente de datos sigan siendo compatibles.
Véase Transición a una nueva versión del conector de ACL

Información de concepto

Comando ACCESSDATA

Apache Hive es un servicio de datos en la nube. Puede utilizar el conector de datos de Apache Hive para importar los datos de Hive de su organización.

Antes de comenzar

Para conectarse a Hive, debe contar con lo siguiente:

el nombre de usuario y la contraseña
el puerto de conexión correcto
el esquema de autenticación que se utilizó
el nombre del host o la dirección IP del servidor
el modo de transporte para comunicarse con el servidor
Acceso de lectura

Si desea obtener ayuda para reunir los requisitos previos para la conexión, comuníquese con el administrador de Hive de su organización. Si el administrador no puede ayudarlo, usted o el administrador deben comunicarse con el Soporte de Hive.

Crear una conexión de Hive

Desde el menú principal de Analytics, seleccione Importar > Base de datos y aplicación.Analytics
Desde la ficha Nuevas conexiones, en la sección Conectores ACL, seleccione Hive.
Consejo
Puede filtrar la lista de conectores disponibles introduciendo una cadena de búsqueda en el cuadro Filtrar conexiones. Los conectores se indican en orden alfabético.
En el panel Ajustes de conexión de datos, ingrese la configuración de la conexión y, en la parte inferior del panel, haga clic en Guardar y conectar.
Puede aceptar el Nombre de la conexión predeterminado o introducir uno nuevo.

La conexión de Hive se guarda en la ficha Conexiones existentes. En el futuro, puede volver a conectarse a Hive desde la conexión guardada.

Una vez que se establezca la conexión, se abre la ventana Acceso a Datos en el Área de almacenamiento temporal y puede comenzar a importar datos. Si desea obtener ayuda para importar datos desde Hive, consulte Trabajo con la ventana Acceso a Datos.

Ajustes de conexión

Ajustes básicos

Ajuste	Descripción	Ejemplo
Tipo de servidor Hive	Especifica la instancia del Servidor de Hive a la que se debe conectar.	Servidor Hive 2
Modo de descubrimiento de servicio	Especifica cómo se descubren los servicios del Servidor de Hive. Las opciones disponibles son las siguientes: Sin descubrimiento de servicio: el controlador se conecta a Hive sin usar un servicio de descubrimiento. ZooKeeper: el controlador descubre los servicios del Servidor de Hive a través del servicio ZooKeeper.	Sin descubrimiento de servicio
Host(s)	La dirección IP o el nombre de host del servidor de Hive.
Puerto	El puerto para la conexión a la instancia del servidor de Hive.	10000
Base de datos	Nombre del esquema de base de datos que se utiliza cuando no se especifica explícitamente un esquema en una consulta.
Espacio de nombre de ZooKeeper	El espacio de nombre configurado en ZooKeeper para los znodes de Hive Server 2.
Mecanismo de autenticación	Especifica el mecanismo de autenticación que se debe utilizar. Las opciones disponibles son las siguientes: Sin autenticación Kerberos Nombre de usuario Nombre de usuario y contraseña Servicio Windows Azure HDInsight	Sin autenticación
Dominio	El dominio del host de Hive Server 2.
FQDN del host	El nombre de dominio totalmente calificado del host de Hive Server.	_HOST
Nombre de servicio	El nombre principal del servicio de Kerberos del servidor de Hive.
Nombre de usuario	El nombre de usuario para autenticar el servidor de Hive.
Contraseña	La contraseña del nombre de usuario para autenticar el servidor de Hive.
UID para la delegación	El ID del usuario delegado a quien el controlador debe delegar todas las operaciones de Hive, en lugar de usar el usuario autenticado para la conexión.
Transporte en la capa Thrift	Especifica el protocolo de transporte que se debe usar en la capa Thrift. Las opciones disponibles son las siguientes: Binario SASL HTTP	Binario

Ajustes avanzados

Ajuste	Descripción	Ejemplo
Permitir SSL	Especifica si el cliente utiliza una conexión cifrada con SSL para comunicarse con el servidor de Hive.
Permitir la falta de concordancia del nombre de host con el nombre común	Especifica si el nombre del certificado SSL emitido por una autoridad de certificación debe coincidir con el nombre de host del servidor de Hive.
Permitir el certificado de servidor autofirmado	Especifica si el controlador permite una conexión al servidor de Hive que utiliza un certificado autofirmado, aun cuando ese certificado no esté en la lista de certificados de confianza.
Certificados de confianza	La ruta completa al archivo .pem que contiene los certificados firmados por una autoridad de certificación para verificar al usuario al usar SSL.
SSL de dos vías	Especifica si está habilitado el SSL de dos vías.
Archivo de certificado de cliente	La ruta completa al archivo .pem que contiene el certificado SSL del cliente.
Archivo de clave privada de cliente	La ruta completa al archivo .pem que contiene la clave privada SSL del cliente.
Contraseña de clave privada de cliente	La contraseña del archivo de clave privada que se especifica en el campo Archivo de clave privada de cliente.
Utilizar consulta nativa	Especifica si el controlador usa consultas HiveQL nativas. Si no se selecciona esta opción, el controlador convierte las consultas emitidas por una aplicación en una forma equivalente en HiveQL.
Fast SQLPrepare	Especifica si el controlador difiere la ejecución de la consulta a SQLExecute.
Prioridad de la configuración del controlador	Especifica si la configuración del controlador tiene prioridad sobre los ajustes de DSN y conexión.
Utilizar ejecución ASYNC	Especifica si ejecutar las consultas de forma sincrónica o asincrónica.
Intervalo de sondeo de ejecución ASYNC	El tiempo, medido en milisegundos, entre cada sondeo del estado de ejecución de la consulta.	100
Obtener tablas con consultas	Especifica si el controlador utiliza la consulta SHOW TABLES para recuperar los nombres de las tablas de la base de datos. Si está desactivado, el controlador utiliza la llamada GetTables en la API de Thrift.
Tipos de caracteres de SQL Unicode	Especifica los tipos de SQL que se deben devolver para los tipos de datos de cadena. Cuando está activado, el controlador devuelve SQL_WVARCHAR para columnas VARCHAR y STRING, y devuelve SQL_WCHAR para columnas CHAR.
Mostrar la tabla del sistema	Especifica si el controlador devuelve la tabla hive_system para las invocaciones de la función catálogo, como SQLTables y SQLColumns.
Utilizar solo SSPI	Especifica si el controlador maneja la autenticación de Kerberos con el plugin SSPI o con MIT Kerberos.
Recuperación automática de sesión no válida	Especifica si el controlador abre una nueva sesión automáticamente cuando la sesión existente ya no es válida.
Filas recuperadas por bloque	La cantidad máxima de filas que devuelve una consulta al mismo tiempo.	10000
Longitud de la columna de cadena predeterminada	La cantidad máxima de caracteres que pueden incluirse en las columnas STRING.	255
Longitud de la columna binaria	La longitud de datos máxima para las columnas BINARY.	32767
Escala de la columna decimal	La cantidad máxima de dígitos a la derecha del separador decimal para los tipos de datos numéricos.	10
Tiempo de espera de socket	La cantidad de segundos que una operación puede permanecer ociosa antes de que se cierre.	60
Ruta HTTP	La URL parcial que corresponde al servidor de Hive.

Campos de la conexión a Hive

Nombres de columna exclusivos

HiveLas conexiones de que se realizan a través de la ventana Acceso a Datos utilizan un parámetro de cadena de conexión EnableUniqueColumnName que está ajustado en 0 por valor predeterminado. Este parámetro debe tener un valor de 0 para garantizar que se recuperen nombres de columna correctos al establecer la conexión.

Si crea una conexión de Hive con un DSN en lugar de hacerlo desde la ventana Acceso a Datos, este valor se establece en 1 por valor predeterminado. Debe cambiarlo a 0 en el registro de Windows para que la conexión funcione.

Nota

Los scripts que utilizan conexiones de DSN establecidas en versiones de ACL anteriores a la 13.1 continúan funcionando después de actualizar a la versión 13.1.