Conexión a Apache Hive (v.1)

Esta versión del conector de datos de Apache Hive se ha eliminado de Analytics 18.x.
Los scripts que utilicen esta versión del conector Hive no funcionarán en Analytics 18.x y deberán actualizarse para utilizar la nueva versión del conector.
Esta versión del conector seguirá funcionando en Analytics 17.x, y versiones anteriores de Analytics, mientras el conector y la fuente de datos sigan siendo compatibles.
Véase Transición a una nueva versión del conector de ACL

Información de concepto

Comando ACCESSDATA

Apache Hive es un servicio de datos en la nube. Puede utilizar el conector de datos de Apache Hive para importar los datos de Hive de su organización.

Antes de comenzar

Para conectarse a Hive, debe contar con lo siguiente:

  • el nombre de usuario y la contraseña
  • el puerto de conexión correcto
  • el esquema de autenticación que se utilizó
  • el nombre del host o la dirección IP del servidor
  • el modo de transporte para comunicarse con el servidor
  • Acceso de lectura

Si desea obtener ayuda para reunir los requisitos previos para la conexión, comuníquese con el administrador de Hive de su organización. Si el administrador no puede ayudarlo, usted o el administrador deben comunicarse con el Soporte de Hive.

Crear una conexión de Hive

  1. Desde el menú principal de Analytics, seleccione Importar > Base de datos y aplicación.Analytics
  2. Desde la ficha Nuevas conexiones, en la sección Conectores ACL, seleccione Hive.

    Consejo

    Puede filtrar la lista de conectores disponibles introduciendo una cadena de búsqueda en el cuadro Filtrar conexiones. Los conectores se indican en orden alfabético.

  3. En el panel Ajustes de conexión de datos, ingrese la configuración de la conexión y, en la parte inferior del panel, haga clic en Guardar y conectar.

    Puede aceptar el Nombre de la conexión predeterminado o introducir uno nuevo.

La conexión de Hive se guarda en la ficha Conexiones existentes. En el futuro, puede volver a conectarse a Hive desde la conexión guardada.

Una vez que se establezca la conexión, se abre la ventana Acceso a Datos en el Área de almacenamiento temporal y puede comenzar a importar datos. Si desea obtener ayuda para importar datos desde Hive, consulte Trabajo con la ventana Acceso a Datos.

Ajustes de conexión

Ajustes básicos

Ajuste Descripción Ejemplo
Tipo de servidor Hive Especifica la instancia del Servidor de Hive a la que se debe conectar. Servidor Hive 2
Modo de descubrimiento de servicio

Especifica cómo se descubren los servicios del Servidor de Hive. Las opciones disponibles son las siguientes:

  • Sin descubrimiento de servicio: el controlador se conecta a Hive sin usar un servicio de descubrimiento.
  • ZooKeeper: el controlador descubre los servicios del Servidor de Hive a través del servicio ZooKeeper.
Sin descubrimiento de servicio
Host(s) La dirección IP o el nombre de host del servidor de Hive.  
Puerto El puerto para la conexión a la instancia del servidor de Hive. 10000
Base de datos Nombre del esquema de base de datos que se utiliza cuando no se especifica explícitamente un esquema en una consulta.  
Espacio de nombre de ZooKeeper El espacio de nombre configurado en ZooKeeper para los znodes de Hive Server 2.  
Mecanismo de autenticación

Especifica el mecanismo de autenticación que se debe utilizar. Las opciones disponibles son las siguientes:

  • Sin autenticación
  • Kerberos
  • Nombre de usuario
  • Nombre de usuario y contraseña
  • Servicio Windows Azure HDInsight
Sin autenticación
Dominio El dominio del host de Hive Server 2.  
FQDN del host El nombre de dominio totalmente calificado del host de Hive Server. _HOST
Nombre de servicio El nombre principal del servicio de Kerberos del servidor de Hive.  
Nombre de usuario El nombre de usuario para autenticar el servidor de Hive.  
Contraseña La contraseña del nombre de usuario para autenticar el servidor de Hive.  
UID para la delegación El ID del usuario delegado a quien el controlador debe delegar todas las operaciones de Hive, en lugar de usar el usuario autenticado para la conexión.  
Transporte en la capa Thrift

Especifica el protocolo de transporte que se debe usar en la capa Thrift. Las opciones disponibles son las siguientes:

  • Binario
  • SASL
  • HTTP
Binario

Ajustes avanzados

Ajuste Descripción Ejemplo
Permitir SSL Especifica si el cliente utiliza una conexión cifrada con SSL para comunicarse con el servidor de Hive.  
Permitir la falta de concordancia del nombre de host con el nombre común Especifica si el nombre del certificado SSL emitido por una autoridad de certificación debe coincidir con el nombre de host del servidor de Hive.  
Permitir el certificado de servidor autofirmado Especifica si el controlador permite una conexión al servidor de Hive que utiliza un certificado autofirmado, aun cuando ese certificado no esté en la lista de certificados de confianza.  
Certificados de confianza La ruta completa al archivo .pem que contiene los certificados firmados por una autoridad de certificación para verificar al usuario al usar SSL.  
SSL de dos vías Especifica si está habilitado el SSL de dos vías.  
Archivo de certificado de cliente La ruta completa al archivo .pem que contiene el certificado SSL del cliente.  
Archivo de clave privada de cliente La ruta completa al archivo .pem que contiene la clave privada SSL del cliente.  
Contraseña de clave privada de cliente La contraseña del archivo de clave privada que se especifica en el campo Archivo de clave privada de cliente.  
Utilizar consulta nativa Especifica si el controlador usa consultas HiveQL nativas. Si no se selecciona esta opción, el controlador convierte las consultas emitidas por una aplicación en una forma equivalente en HiveQL.  
Fast SQLPrepare Especifica si el controlador difiere la ejecución de la consulta a SQLExecute.  
Prioridad de la configuración del controlador Especifica si la configuración del controlador tiene prioridad sobre los ajustes de DSN y conexión.  
Utilizar ejecución ASYNC Especifica si ejecutar las consultas de forma sincrónica o asincrónica.  
Intervalo de sondeo de ejecución ASYNC El tiempo, medido en milisegundos, entre cada sondeo del estado de ejecución de la consulta. 100
Obtener tablas con consultas Especifica si el controlador utiliza la consulta SHOW TABLES para recuperar los nombres de las tablas de la base de datos. Si está desactivado, el controlador utiliza la llamada GetTables en la API de Thrift.  
Tipos de caracteres de SQL Unicode Especifica los tipos de SQL que se deben devolver para los tipos de datos de cadena. Cuando está activado, el controlador devuelve SQL_WVARCHAR para columnas VARCHAR y STRING, y devuelve SQL_WCHAR para columnas CHAR.  
Mostrar la tabla del sistema Especifica si el controlador devuelve la tabla hive_system para las invocaciones de la función catálogo, como SQLTables y SQLColumns.  
Utilizar solo SSPI Especifica si el controlador maneja la autenticación de Kerberos con el plugin SSPI o con MIT Kerberos.  
Recuperación automática de sesión no válida Especifica si el controlador abre una nueva sesión automáticamente cuando la sesión existente ya no es válida.  
Filas recuperadas por bloque La cantidad máxima de filas que devuelve una consulta al mismo tiempo. 10000
Longitud de la columna de cadena predeterminada La cantidad máxima de caracteres que pueden incluirse en las columnas STRING. 255
Longitud de la columna binaria La longitud de datos máxima para las columnas BINARY. 32767
Escala de la columna decimal La cantidad máxima de dígitos a la derecha del separador decimal para los tipos de datos numéricos. 10
Tiempo de espera de socket La cantidad de segundos que una operación puede permanecer ociosa antes de que se cierre. 60
Ruta HTTP La URL parcial que corresponde al servidor de Hive.  

Campos de la conexión a Hive

Nombres de columna exclusivos

HiveLas conexiones de que se realizan a través de la ventana Acceso a Datos utilizan un parámetro de cadena de conexión EnableUniqueColumnName que está ajustado en 0 por valor predeterminado. Este parámetro debe tener un valor de 0 para garantizar que se recuperen nombres de columna correctos al establecer la conexión.

Si crea una conexión de Hive con un DSN en lugar de hacerlo desde la ventana Acceso a Datos, este valor se establece en 1 por valor predeterminado. Debe cambiarlo a 0 en el registro de Windows para que la conexión funcione.

Nota

Los scripts que utilizan conexiones de DSN establecidas en versiones de ACL anteriores a la 13.1 continúan funcionando después de actualizar a la versión 13.1.