Produtos Unicode da Galvanize
As edições Unicode dos produtos da Galvanize permitem que você exiba arquivos que contêm dados Unicode e trabalhe com eles.
Unicode é um método de codificação de caracteres padrão do setor que oferece suporte à maioria dos idiomas do mundo.
Devo instalar a edição não Unicode ou Unicode do Analytics?
O Analytics está disponível em edições Unicode e não Unicode. O pacote de instalação contém as duas edições. Durante a instalação, você especifica qual edição quer instalar.
Você deve instalar a edição não Unicode, a menos que tenha uma necessidade de exibir ou analisar dados Unicode. Os dados Unicode somente podem ser abertos na edição Unicode do Analytics.
É mais provável que você encontre dados Unicode se você trabalhar em um ambiente com sistemas de informações globais ou se analisar dados que contêm vários idiomas.
Quando a edição Unicode é necessária
Você precisa instalar a edição Unicode para exibir ou analisar dados com:
- caracteres asiáticos
- uma combinação de codificações de caracteres não Unicode, ou tradicionais
Por exemplo, uma combinação de idiomas de pelo menos duas destas codificações de caracteres:
- Latino 1 (inglês e europeu ocidental)
- Latino 2 (europeu central)
- Cirílico
- Grego
- Árabe
Nota
Se quiser usar a interface do usuário do Analytics em chinês, japonês ou polonês, a única opção é instalar a edição Unicode. Esse requisito está relacionado ao idioma da interface do usuário, não ao idioma dos dados.
Dados unilíngues
Se os dados com os quais você estiver trabalhando forem somente em inglês, ou usarem apenas um dos idiomas da Europa Ocidental, você deverá muito provavelmente instalar a edição não Unicode. Esteja ciente, no entanto, de que é possível que um arquivo somente em inglês seja Unicode.
Nota
Entre em contato com seu departamento de TI se não estiver certo sobre a codificação de caracteres que você pode encontrar ao trabalhar com dados organizacionais.
Uso do Analytics não Unicode com dados Unicode
Em algumas situações, é possível, e preferível, usar o Analytics não Unicode com dados Unicode.
Se todos os caracteres nos dados Unicode com os quais você trabalha tiverem suporte de uma das codificações de caracteres tradicionais, por exemplo, dados somente em inglês, não será necessário usar o Analytics Unicode. Quando você importar esses dados no Analytics não Unicode, os campos de texto serão automaticamente convertidos de Unicode para ASCII, sem perda ou corrupção de dados.
Para saber por que essa abordagem é preferível, consulte Desvantagens da edição Unicode.
Nota
Ocorrerá corrupção dos dados se você importar dados Unicode para o Analytics não Unicode e os dados contiverem caracteres não compatíveis com o conjunto de caracteres ASCII estendido.
O idioma dos dados é o que importa
O idioma, ou idiomas, dos dados com os quais você trabalha é geralmente o que determina a edição do Analytics que você deve instalar, e não o idioma da interface do usuário do Analytics.
Por exemplo, sua organização pode usar a interface do Analytics em espanhol, mas a decisão de instalar a edição não Unicode ou Unicode depende do idioma, ou idiomas, que você espera encontrar nos dados.
As interfaces do usuário do Analytics em chinês, japonês e polonês são uma exceção à regra geral para escolher uma edição do Analytics. Essas três interfaces estão disponíveis apenas na edição Unicode. Para obter informações sobre as interfaces localizadas do Analytics e o suporte a Unicode, consulte Suporte a idiomas.
Qual edição do Analytics estou usando no momento?
Para identificar qual edição do Analytics você está usando no momento, selecione Ajuda > Sobre para abrir a caixa de diálogo que contém informações sobre produto e assinatura. Unicode ou não Unicode é exibido após o número da versão.
Usuários do Robôs ou do Analytics Exchange
Você precisa instalar a edição do Analytics correspondente à edição do Robôs ou Analytics Exchange instalada na organização. O Analytics não pode interagir com o Robôs ou o Analytics Exchange se as edições forem discrepantes.
Desvantagens da edição Unicode
A edição Unicode do Analytics tem as seguintes desvantagens:
- Tamanhos maiores de arquivos de dados Os dados Unicode exigem aproximadamente o dobro do espaço de armazenamento de dados não Unicode porque cada caractere é representado com dois bytes, em vez de um.
- Desempenho possivelmente mais lento Com arquivos de dados maiores, alguns comandos do Analytics podem levar um tempo consideravelmente mais longo para serem executados, uma vez que o dobro da quantidade de dados está sendo processado pela edição Unicode.
Devido a essas desvantagens, você somente deve instalar a edição Unicode se realmente precisar que ela funcione com dados Unicode.
Dados de byte simples e byte duplo o Analytics
Analytics não Unicode
Para ler e gravar arquivos de dados, a edição não Unicode do Analytics funciona apenas com conjuntos de caracteres de byte simples (SBCS). Em um conjunto de caracteres de byte simples, um byte de dados é usado para representar cada caractere e são permitidos no máximo 256 caracteres diferentes.
O conjunto de caracteres de byte simples usado pelo Analytics não Unicode depende do idioma especificado na configuração de localidade do sistema do computador. Se a localidade do sistema especificar inglês ou um dos idiomas europeus ocidentais, será usado o conjunto de caracteres Windows-1252. O Windows-1252 também é conhecido como "Windows Latin 1". Você pode definir a localidade do sistema no painel de controle do Windows.
Outros nomes comuns dos conjuntos de caracteres de byte simples são "ANSI", "conjunto de caracteres ANSI" ou "ASCII estendido".
Nota
O conjunto de caracteres usado pelo Analytics não Unicode para processar dados não é necessariamente o mesmo conjunto de caracteres usado pelo texto na interface do usuário do Analytics.
Analytics Unicode
Leitura de dados
A edição Unicode do Analytics pode ler conjuntos de caracteres de byte simples ou byte duplo. Os caracteres Unicode de byte duplo usam dois bytes de dados para representar cada caractere. O uso de dois (ou mais) bytes de dados para codificar caracteres permite que o Unicode represente todos os caracteres dos idiomas do mundo em um único conjunto de caracteres.
Gravação de dados
Para operações de gravação que criam arquivos de saída, o Analytics Unicode usa normalmente a codificação de caracteres UTF-16 de byte duplo. Para algumas operações, o arquivo de saída mantém qualquer codificação de caracteres de byte simples presente no arquivo de origem.
Número de bytes versus número de caracteres
Para trabalhar com dados Unicode de byte duplo, tenha em mente a distinção entre o comprimento de um campo em bytes, que aparece na caixa de diálogo Layout da tabela e entre o comprimento de um campo em termos de caracteres.
Por exemplo, se um campo Unicode tiver um comprimento de 44 bytes na caixa de diálogo Layout da tabela, ele na verdade conterá 22 caracteres.
Por que bytes e caracteres são importantes no ACLScript
Quando são usadas funções como STRING( ) e SUBSTRING( ), que têm um parâmetro de comprimento de campo, você especifica o comprimento em caracteres e não em bytes. Por outro lado, alguns comandos, como DEFINE FIELD, exigem a especificação de comprimento do campo em bytes e não em caracteres.
No Analytics não Unicode, um byte é igual a um caractere. Portanto, a distinção entre bytes e caracteres não é importante. No entanto, no Analytics Unicode, ao trabalhar com dados Unicode de byte duplo, dois bytes são iguais a um caractere. Neste caso, a distinção é importante.
Para obter detalhes sobre o tipo de unidade a ser usado para comandos e funções específicos, consulte o Guia de scripting do ACL.
Importação de arquivos de texto para o Analytics Unicode
A codificação de caracteres de um arquivo de texto afeta a forma como é importado para o Analytics Unicode e o tipo de dados usado para campos de caracteres na tabela do Analytics resultante.
Na importação de arquivos ASCII e EBCDIC para o Analytics Unicode, você tem duas alternativas:
- Converter o tipo de dados dos caracteres para UNICODE e criar um arquivo de dados do Analytics
Se você alterar depois o tipo de dados UNICODE para ASCII ou EBCDIC, os caracteres dos campos não serão exibidos corretamente.
- Reter a codificação de caracteres ASCII ou EBCDIC e criar apenas um layout da tabela do Analytics, sem um arquivo de dados do Analytics
O layout de tabela do Analytics continuará vinculado ao arquivo de texto de origem.
Codificação de caracteres de arquivo de texto | Opção do Assistente de Definição de Dados | Tipo de dados dos caracteres na tabela do Analytics | Comprimento dos caracteres |
---|---|---|---|
UTF-16 LE (Unicode) |
Texto Unicode |
UNICODE | caractere de byte duplo |
UTF-8 (Unicode) |
Texto codificado + o conjunto de caracteres adequado (página de código) para o arquivo de dados |
UNICODE | caractere de byte duplo |
ASCII estendido (conjunto de caracteres ANSI) |
ASCII > Arquivo de texto delimitado ASCII > Arquivo de imagem de impressão (relatório) |
UNICODE | caractere de byte duplo |
ASCII > Outro formato de arquivo |
ASCII |
caractere de byte simples | |
EBCDIC |
EBCDIC > Arquivo de imagem de impressão (relatório) |
UNICODE | caractere de byte duplo |
EBCDIC > Outro formato de arquivo |
EBCDIC |
caractere de byte simples |
Dados little-endian e big-endian
"Little-endian" (LE) e "big-endian" (BE) são termos que fazem referência a dois métodos diferentes de codificação de dados Unicode. Os dados Unicode que se originam de computadores com o Microsoft Windows são geralmente codificados como little-endian. Se você usar o Analytics em um computador Windows, não será possível analisar dados big-endian.
Conversão de projetos não-Unicode do Analytics para Unicode
Você pode abrir um projeto não Unicode do Analytics na edição Unicode do Analytics, mas você não pode fazer o contrário: abrir um projeto Unicode do Analytics no Analytics não Unicode.
Abrir no Analytics não Unicode | Abrir no Analytics Unicode | |
---|---|---|
projeto não Unicode | Sim | Sim |
projeto Unicode | Não | Sim |
Conversão de projeto
Quando você abre um projeto não Unicode do Analytics no Analytics Unicode, será solicitado que você converta automaticamente o projeto e o arquivo de log associado para Unicode. Se você continuar com a conversão, cópias do projeto original não-Unicode e do arquivo de log serão salvos com a extensão do arquivo .OLD e não serão alterados.
Nota
Depois de converter um projeto não Unicode do Analytics para Unicode, você não poderá mais abri-lo na edição não Unicode do Analytics, e não poderá convertê-lo de volta para não Unicode. Se necessário, você poderá recuperar a versão não Unicode do projeto usando o arquivo .OLD.
Arquivos de dados do Analytics
Quando você converter um projeto do Analytics não Unicode para Unicode, nenhum arquivo de dados do Analytics (.fil) associados será convertido para Unicode. Eles permanecerão como dados de byte simples ASCII (ANSI) no projeto Unicode.
Nota
No Analytics Unicode, a posição em bytes ou o comprimento em bytes de campos em dados de byte único não convertidos funciona da mesma forma que no Analytics não Unicode. Um byte é igual a um caractere. Lembre-se dessa diferença se executar qualquer comando com dados não convertidos que faz referência à posição ou ao comprimento em bytes.
Funções específicas Unicode no Analytics
O Analytics tem seis funções específicas do Unicode para ajudar na análise de dados e conversão. As funções estão indexadas na tabela abaixo. As funções são incluídas apenas na edição Unicode do Analytics.
Para obter informações detalhadas sobre essas funções, consulte o Guia de scripting do ACL.
Função |
Propósito |
---|---|
BINTOSTR( ) |
Retorna os dados de caracteres Unicode convertidos de dados de caracteres ZONED ou EBCDIC. Abreviação de "Binário para Cadeia". Essa conversão garante que os valores codificados em ZONED ou EBCDIC possam ser exibidos corretamente. |
DBYTE( ) |
Retorna o caractere Unicode localizado em uma posição determinada de byte em um registro. |
DHEX( ) |
Converte uma cadeia Unicode em formato hexadecimal. É o inverso da HTOU( ). |
HTOU( ) |
Converte uma string hexadecimal em formato Unicode. Abreviação de "Hexadecimal para Unicode". O inverso da DHEX( ). |
DTOU( ) |
Converte um valor de data do Analytics para uma cadeia Unicode no idioma e no formato de localidade especificados. Abreviação de "Data para Unicode". O inverso da UTOD( ). |
UTOD( ) |
Converte uma cadeia Unicode que contém uma data formatada em um valor de data do Analytics. É abreviação de "Unicode to Date". O inverso da DTOU( ). |