Productos Galvanize Unicode
Las ediciones Unicode de productos de Galvanize le permiten ver y trabajar con archivos que contienen datos Unicode.
Unicode es un estándar industrial de codificación de caracteres que acepta la mayoría de los idiomas del mundo.
¿Debo instalar la edición no Unicode o Unicode de Analytics?
Analytics está disponible en ediciones no Unicode y Unicode. Ambas ediciones se incluyen en el mismo paquete de instalación y, durante la instalación, usted especifica qué edición se debe instalar.
Debe instalar la edición no Unicode, a menos que necesite ver o analizar datos Unicode. Los datos Unicode solo pueden abrirse en la edición Unicode de Analytics.
Si trabaja en entornos con sistemas de información global o analiza datos que contienen varios idiomas es probable que encuentre datos Unicode.
Cuándo se necesita la edición Unicode
Es necesario que instale la edición Unicode para ver y analizar datos con:
- Caracteres asiáticos
- una combinación de codificaciones de caracteres no Unicode o tradicional
Por ejemplo, alguna combinación de idiomas de al menos dos de las siguientes codificaciones de caracteres:
- Latín 1 (Inglés y Europa occidental)
- Latín 2 (Europa central)
- Cirílico
- Griego
- Árabe
Nota
Si desea usar la interfaz de usuario de Analytics en chino, japonés o polaco, la única opción es instalar la edición Unicode. Este requisito está relacionado con el idioma de la interfaz de usuario, no con el idioma de los datos.
Datos unilingües
Si los datos con los que trabaja solo están en inglés, o usan solo uno de los idiomas de Europa Occidental, lo más probable es que deba instalar la edición no Unicode. Sin embargo, debe tener en cuenta que es posible encontrar archivos solo en inglés que son Unicode.
Nota
Póngase en contacto con su departamento de TI si no está seguro acerca de la codificación de caracteres de los datos de la organización.
Uso de Analytics no Unicode con datos Unicode
En algunos casos es posible, y preferible, usar Analytics no Unicode con datos Unicode.
Si alguna de las codificaciones tradicionales de caracteres acepta todos los caracteres en los datos Unicode con los que trabaja (por ejemplo, datos solo en inglés), no hay necesidad de usar Analytics Unicode. Al importar estos datos en Analytics no Unicode, los campos de texto se convierten automáticamente de Unicode a ASCII, sin pérdida ni corrupción de datos.
Para ver los motivos por los cuales se prefiere este enfoque, consulte Desventajas de la edición Unicode.
Nota
Si importa datos Unicode a Analytics no Unicode y los datos contienen caracteres no aceptados por el conjunto de caracteres ASCII extendido, los datos se van a corromper.
Lo importante es el idioma de los datos
El idioma (o los idiomas) de los datos con los que trabaja generalmente determina la edición de Analytics que debe instalar, no el idioma de la interfaz de usuario de Analytics.
Por ejemplo, su organización puede usar la interfaz de Analytics en español, pero la decisión acerca de si debe instalar la edición no Unicode o Unicode depende del idioma o los idiomas que espera encontrar en los datos.
Las interfaces de usuario de Analytics en chino, japonés y polaco son una excepción a la regla general para escoger una edición de Analytics. Estas tres interfaces solo están disponibles en la edición Unicode. Para obtener más información acerca de las interfaces de Analytics localizadas y la compatibilidad con Unicode, consulte Idiomas admitidos.
¿Qué edición de Analytics estoy utilizando actualmente?
Para identificar qué edición de Analytics está utilizando actualmente, seleccione Ayuda > Acerca de para abrir el cuadro de diálogo que contiene la información del producto y de la suscripción. Aparece Unicode o no Unicode después del número de versión.
Usuarios de Analytics Exchange o Robots
Debe instalar la edición de Analytics que coincida con la edición de Robots o Analytics Exchange que utiliza su organización. Analytics no puede interactuar con Robots o Analytics Exchange si la edición no es la misma.
Desventajas de la edición Unicode
La edición Unicode de Analytics tiene estas desventajas:
- Tamaños de archivos de datos más grandes requieren aproximadamente el doble de espacio de almacenamiento que los datos no Unicode, porque cada carácter se representa usando dos bytes en lugar de uno.
- Desempeño inferior potencial Con archivos de datos más grandes, algunos comandos de Analytics pueden demorar un tiempo considerablemente mayor en ejecutarse porque en la edición Unicode se está procesando el doble de la cantidad de datos.
Debido a estas desventajas, no debería instalar la edición Unicode a menos que realmente necesite trabajar con datos Unicode.
Comparación entre datos de un byte y datos de dos bytes en Analytics
Analytics no Unicode
Al leer y escribir archivos de datos, la edición no Unicode de Analytics trabaja únicamente con conjuntos de caracteres de un solo byte. En un conjunto de caracteres de un solo byte, se utiliza un byte de datos para representar a cada carácter y se admite un máximo de 256 caracteres.
El conjunto de caracteres de un byte utilizado por Analytics no Unicode depende del idioma especificado en la configuración regional de su computadora. Si la configuración regional del sistema especifica inglés o alguno de los idiomas de Europa occidental, se utiliza el conjunto de caracteres Windows-1252. Windows-1252 también se denomina "Windows Latín 1". Puede ajustar la configuración regional de su sistema en el Panel de control de Windows.
Otra manera común de referirse a los conjuntos de caracteres de un solo byte es "ANSI", "conjunto de caracteres ANSI" o "ASCII extendido".
Nota
El conjunto de caracteres que utiliza Analytics no Unicode para procesar datos no es necesariamente el mismo que el conjunto de caracteres utilizado por el texto en la interfaz de usuario de Analytics.
Analytics Unicode
Lectura de datos
La edición Unicode de Analytics puede leer conjuntos de caracteres de un solo byte o de dos bytes. Los caracteres Unicode de dos bytes utilizan dos bytes de datos para representar a cada carácter. Al usar dos (o más) bytes de datos para codificar los caracteres, Unicode puede representar todos los caracteres de los idiomas del mundo en un único conjunto de caracteres.
Escritura de datos
Para las operaciones de escritura que crean archivos de salida, Analytics Unicode suele usar la codificación de caracteres UTF-16 de dos bytes. Para algunas operaciones, el archivo de salida conserva la codificación de caracteres de un solo byte presente en el archivo de origen.
Número de bytes en comparación con la cantidad de caracteres
Al trabajar con datos Unicode de dos bytes, recuerde la diferencia entre la longitud de un campo en bytes, que aparece en el cuadro de diálogo Formato de tabla y la longitud de un campo en caracteres.
Por ejemplo, si un campo Unicode tiene una longitud de 44 bytes en el cuadro de diálogo Formato de tabla, en realidad el campo contiene 22 caracteres.
Por qué son importantes los bytes y los caracteres en ACLScript
Al utilizar funciones tales como STRING( ) y SUBSTRING( ), que incluyen un parámetro de longitud de campo, usted especifica la longitud en caracteres, no en bytes. Por el contrario, algunos comandos, como DEFINE FIELD, requieren que especifique la longitud del campo en bytes, no en caracteres.
En Analytics no Unicode, un byte equivale a un carácter; por lo tanto, la diferencia entre bytes y caracteres no importa. Pero en Analytics Unicode, al trabajar con datos Unicode de dos bytes, dos bytes equivalen a un carácter; por lo tanto, la diferencia es importante.
Si desea obtener información detallada acerca del tipo de unidad que debe usar para comandos o funciones en particular, consulte la Guía de creación de scripts de ACL.
Importación de archivos de texto a Analytics Unicode
La codificación de caracteres de un archivo de texto afecta el modo en que se importa a Analytics Unicode y el tipo de datos que se usa para los campos de caracteres en la tabla de Analytics resultante.
Al importar archivos ASCII y EBCDIC a Analytics Unicode, tiene dos opciones:
- Convertir el tipo de datos de caracteres a UNICODE y crear un archivo de datos de Analytics
Si, a continuación, cambia el tipo de datos UNICODE a ASCII o EBCDIC, los caracteres de los campos no aparecen de manera correcta.
- Conserve la codificación de caracteres ASCII o EBCDIC y cree un formato de tabla de Analytics solo sin un archivo de datos de Analytics
El formato de tabla de Analytics continúa enlazado al archivo de texto de origen.
Codificación de caracteres de un archivo de texto | Opción del Asistente de Definición de Datos | Tipo de datos de carácter en la tabla de Analytics | Longitud del carácter |
---|---|---|---|
UTF-16 LE (Unicode) |
Texto Unicode |
UNICODE | carácter de dos bytes |
Unicode |
Texto codificado + el conjunto de caracteres adecuado (página de código) para el archivo de datos |
UNICODE | carácter de dos bytes |
ASCII extendido (conjunto de caracteres ANSI) |
ASCII > Archivo de texto delimitado ASCII > Archivo de imagen de impresión (reporte) |
UNICODE | carácter de dos bytes |
ASCII > Otro formato de archivo |
ASCII |
carácter de dos bytes | |
EBCDIC |
EBCDIC > Archivo de imagen de impresión (reporte) |
UNICODE | carácter de dos bytes |
EBCDIC > Otro formato de archivo |
EBCDIC |
carácter de dos bytes |
Datos "Little-endian" y "Big-endian"
Los términos “Little-endian” (LE) y “Big-endian” (BE) se utilizan para hacer referencia a dos maneras de codificar datos Unicode. Los datos Unicode que se obtienen de computadoras con Microsoft Windows suelen estar codificados como “little-endian”. Si utiliza Analytics en una computadora Windows, no puede analizar los datos “big-endian”.
Conversión de proyectos de Analytics no Unicode a Unicode
Puede abrir un proyecto de Analytics no Unicode en la edición Unicode de Analytics, pero no puede hacer lo contrario: abrir un proyecto de Analytics Unicode en Analytics no Unicode.
Abrir en Analytics no Unicode | Abrir en Analytics Unicode | |
---|---|---|
proyecto no Unicode | Sí | Sí |
Proyecto Unicode | No | Sí |
Conversión del proyecto
Al abrir un proyecto de Analytics no Unicode en Analytics Unicode, se le pedirá que convierta automáticamente el proyecto y los archivos del log asociados a Unicode. Si continúa con la conversión, las copias del proyecto no Unicode original y el archivo de log se guardan con la extensión de archivo .OLD, y no se alteran.
Nota
Una vez que convierta un proyecto de Analytics no Unicode a Unicode, ya no podrá abrirlo en ediciones no Unicode de Analytics ni podrá convertir el proyecto a no Unicode nuevamente. En caso de ser necesario, puede recuperar la versión no Unicode del proyecto usando el archivo .OLD.
Archivos de datos Analytics
Cuando convierte un proyecto de Analytics no Unicode en Unicode, todos los archivos de datos de Analytics (.fil) asociados se convierten a Unicode. Continúan como datos ASCII (ANSI) de un solo byte en el proyecto de Unicode.
Nota
En Analytics Unicode, la posición de los bytes o la longitud de bytes de los campos de datos de un solo byte que no se convierten funcionan del mismo modo que lo hacen en Analytics no Unicode. Un byte equivale a un carácter. Tenga en cuenta esta diferencia al ejecutar los comandos con datos no convertidos que hagan referencia a la posición de bytes o la longitud de bytes.
Funciones Unicode específicas en Analytics
Analytics cuenta con seis funciones específicas de Unicode que facilitan la conversión y el análisis de los datos. Las funciones se resumen en la tabla que se incluye a continuación. Las funciones se incluyen únicamente en la versión Unicode de Analytics.
Para obtener información detallada sobre estas funciones, consulte la Guía de creación de scripts de ACL.
Función |
Propósito |
---|---|
BINTOSTR( ) |
Devuelve datos de caracteres Unicode convertidos a partir de datos de caracteres ZONED o EBCDIC. Abreviatura de “Binario a cadena”, en inglés. Esta conversión asegura que los valores codificados en EBCDIC o ZONED se muestren correctamente. |
DBYTE( ) |
Devuelve el carácter Unicode que se encuentra en la posición de byte especificada en un registro. |
DHEX( ) |
Convierte una cadena Unicode en una cadena hexadecimal. Es el opuesto de HTOU( ). |
HTOU( ) |
Convierte una cadena hexadecimal en una cadena Unicode. Abreviatura de la expresión "Hexadecimal a Unicode", en inglés. Es el opuesto de DHEX( ). |
DTOU( ) |
Convierte un valor de fecha de Analytics en una cadena Unicode en el formato de configuración regional y de idioma especificado. Abreviatura de la expresión "Fecha a Unicode", en inglés. Es el opuesto de UTOD( ). |
UTOD( ) |
Convierte una cadena Unicode que contiene una fecha con formato en un valor de fecha de Analytics. Abreviatura de la expresión "Unicode a Fecha", en inglés. Es el opuesto de DTOU( ). |