Galvanize の Unicode 製品

Galvanize 製品の Unicode エディションでは、Unicode データが含まれるファイルを表示したり操作したりできます。

Unicode とは、ほとんどの世界の言語をサポートする文字暗号化を行う業界標準の方法です。

Analytics の非 Unicode 版と Unicode 版のうち、どちらをインストールすればよいですか?

Analytics には Unicode 版と非 Unicode 版があります。いずれのエディションも同じインストール パッケージに含まれ、インストール時にインストールするエディションを指定します。

Unicode データの表示または分析のための要件がある場合を除き、非 Unicode 版をインストールする必要があります。Unicode データは、Analytics の Unicode 版でのみ開くことができます。

グローバル情報システムのある環境で作業する、または複数の言語を含むデータを分析する場合に、Unicode データを見る可能性が高くなります。

Unicode 版が必要なとき

次のデータを表示または分析するには、Unicode 版をインストールする必要があります。

  • アジア文字
  • 非 Unicode、または従来の文字エンコーディングの組み合わせ

    たとえば、次の文字エンコーディングの 2 つ以上から成る言語の組み合わせ

    • ラテン 1(英語および西欧)
    • ラテン 2(中欧)
    • キリル文字
    • ギリシャ文字
    • アラビア文字

メモ

中国語、日本語、ポーランド語の Analytics ユーザー インターフェイスを使用するための唯一の選択肢は、Unicode エディションをインストールすることです。Unicode エディションが必要な理由は、データの言語でなくユーザー インターフェイスの言語に関連しています。

一言語だけで書かれたデータ

作業するデータが英語のみである、または西欧言語の 1 つのみを使用する場合は、高い可能性で非 Unicode 版をインストールする必要があります。ただし、英語のみのファイルを Unicode とすることが可能であることを認識しておいてください。

メモ

組織のデータで作業する場合に、見る可能性のある文字暗号化について不確かである場合は、IT 部門にお問い合わせください。

Unicode データに対する非 Unicode 版 Analytics の使用

Unicode データに対して非 Unicode 版の Analytics を使用することが可能である場合と望ましい場合があります。

作業する Unicode データのすべての文字が、たとえば英語のみのデータなど、従来の文字暗号化の 1 つでサポートされている場合は、Unicode 版の Analytics を使用する必要はありません。このデータを非 Unicode 版の Analytics にインポートする場合、テキスト フィールドは、データを損傷したり破損することなく、Unicode から ASCII に自動的に変換されます。

このアプローチが望ましい理由については、Unicode 版の欠点を参照してください。

メモ

Unicode データを非 Unicode 版の Analytics にインポートし、そのデータに拡張 ASCII 文字セットでサポートされていない文字が含まれている場合は、データの破損が生じます。

重要なのはデータの言語

作業するデータの言語とは、通常、インストールすべき Analytics のエディションを指示する言語であり、Analytics のユーザー インターフェイスの言語ではありません。

たとえば、組織では Analytics のスペイン語インターフェイスを使用しているかもしれませんが、非 Unicode 版と Unicode 版のどちらをインストールするかは、データ内で見る可能性がある言語に基づいて選択します。

ただし、Analytics の中国語、日本語、ポーランド語のユーザー インターフェイスは、Analytics のエディションの選択に関する一般的なガイドラインにおける例外です。これら 3 つのインターフェイスには Unicode エディションしかありません。Analytics のローカライズされているインターフェイスと Unicode のサポートの詳細については、言語サポートを参照してください。

現在使用中の Analytics のエディションを特定するにはどうすればよいですか?

現在使用中の Analytics のエディションを特定するには、[ヘルプ > バージョン情報]を選択し、製品およびサブスクリプション情報が記載されているダイアログ ボックスを開きます。バージョン番号の後に Unicode または非 Unicode が表示されます。

ロボットまたは Analytics Exchange ユーザー

使用するロボットまたは Analytics Exchange の版と一致する Analytics の版をインストールする必要があります。版が一致しない場合、Analytics はロボットまたは Analytics Exchange と連携することができません。

Unicode 版の欠点

Unicode 版 Analytics には以下の欠点があります。

  • データ ファイルのサイズが大きい Unicode データは、非 Unicode データの約 2 倍の記憶域が必要になります。これは、各文字が 1 バイトではなく 2 バイトで表されるためです。
  • パフォーマンスが低下する可能性 データ ファイルが大きくなるため一部の Analytics コマンドは明らかに実行時間が長くなる場合があります。これは、Unicode 版では処理されるデータ量が 2 倍になるためです。

これらの欠点があるため、実際に Unicode データで作業する必要がある場合のみ Unicode 版をインストールしてください。

Analytics の 1 バイト文字と 2 バイト文字

非 Unicode 版の Analytics

データ ファイルの読み取りと書き込み時には、非 Unicode 版の Analytics は 1 バイト文字セット(SBCS)でのみ動作します。1 バイト文字セットでは、1 バイトのデータを使用して各文字を表し、最大 256 の異なる文字がサポートされます。

非 Unicode 版 Analytics で使用される 1 バイト文字セットは、コンピューターのシステム ロケール設定で指定された言語によって異なります。システム ロケールが英語または西欧言語のいずれかを指定する場合は、Windows-1252 文字セットが使用されます。Windows-1252 は「Windows Latin 1」とも呼ばれます。Windows コントロール パネルでシステム ロケールを設定できます。

1 バイト文字セットを参照する他の一般的な方法は、"ANSI"、"ANSI 文字セット"、"拡張 ASCII" です。

メモ

非 Unicode 版 Analytics がデータを処理するために使用する文字セットは、必ずしも、Analytics ユーザー インターフェイスのテキストで使用される文字セットと同じではありません。

Unicode 版 Analytics

データの読み込み

Unicode 版 Analytics は 2 バイトまたは 1 バイト文字セットを読み取ることができます。2 バイト Unicode 文字は 2 バイトのデータを使用して、各文字を表します。2 バイト(以上)のデータを使用して文字をエンコーディングすると、Unicode は、1 文字セットの世界の言語すべてを表すことができます。

データの書き込み

出力ファイルを作成する書き込み処理では、一般的に、Unicode 版 Analytics は 2 バイト UTF-16 文字エンコーディングを使用します。一部の処理については、出力ファイルはソースファイルにある 1 バイト文字エンコーディングを維持します。

型の数と文字数の比較

2 バイト Unicode データを操作しているときは、[テーブル レイアウト]ダイアログ ボックスに示されるバイト単位のフィールドの長さと、文字単位のフィールドの長さの違いに留意してください。

たとえば、Unicode フィールドの長さが[テーブル レイアウト]ダイアログボックスで 44 バイトの場合、フィールドには実際に 22 文字が含まれます。

ACLスクリプトでバイトと文字が問題になる理由

STRING( ) や SUBSTRING( ) などの、フィールド長パラメーターを持つ関数を使用する場合には、長さはバイトではなく文字で指定します。逆に、DEFINE FIELD などの一部のコマンドでは、文字ではなく、バイトでフィールド長を指定する必要があります。

非 Unicode 版 Analytics では、1 バイトが 1 文字に相当します。このため、バイトと文字の違いは問題になりません。Unicode 版 Analytics では、ダブル バイトの Unicode データを操作するときには、2 バイトが 1 バイトに相当するため、違いが問題になります。

特定のコマンドと関数で使用する単位のタイプの詳細については、ACL スクリプト ガイドを参照してください。

Unicode 版 Analytics へのテキスト ファイルのインポート

テキスト ファイルの文字エンコードは、テキスト ファイルが Unicode 版 Analytics にどのようにインポートされるかと、インポート後の Analytics テーブル内の文字フィールドで使用されるデータ型に影響します。

ASCII および EBCDIC ファイルを Unicode 版 Analytics にインポートするときには、次の 2 つのオプションがあります。

  • 文字データ型を UNICODE に変換し、Analytics データ ファイルに変換する

    後から UNICODE データ型を ASCII または EBCDIC に変更する場合、フィールドの文字が正しく表示されません。

  • ASCII または EBCDIC 文字エンコーディングを維持し、Analytics テーブル レイアウトを Analytics データ ファイルを使用せずに作成する

    Analytics テーブル レイアウトはソーステキストファイルにリンクされ続けます。

テキスト ファイル文字エンコーディング データ定義ウィザード オプション Analytics テーブルの文字データ型 文字長
UTF-16 LE (Unicode)

Unicode テキスト

UNICODE 2 バイト文字
UTF-8 (Unicode)

エンコードされたテキスト + データファイルの適切な文字セット(コード ページ)

UNICODE 2 バイト文字

拡張 ASCII (ANSI 文字セット)

ASCII > 区切り文字付きテキスト ファイル

ASCII > 印刷イメージ(レポート)ファイル

UNICODE 2 バイト文字

ASCII > その他のファイル形式

ASCII

1 バイト文字

EBCDIC

EBCDIC > 印刷イメージ(レポート)ファイル

UNICODE 2 バイト文字

EBCDIC > その他のファイル形式

EBCDIC

1 バイト文字

リトルエンディアンおよびビッグエンディアン データ

「リトルエンディアン」(LE)および「ビッグエンディアン」(BE)は、Unicode データをエンコードするための 2 つの異なる方法を示す用語です。Microsoft Windows コンピューターから作成された Unicode データは通常、リトルエンディアンとしてエンコードされます。Windows コンピューターで Analytics を使用している場合は、ビッグエンディアン データを解析できません。

非 Unicode 版 Analytics プロジェクトの Unicode への変換

Unicode 版 Analytics で非 Unicode 版 Analytics プロジェクトを開くことはできますが、その逆の、非 Unicode 版 Analytics で Unicode 版 Analytics プロジェクトを開くことはできません。

  非 Unicode 版 Analytics で開く Unicode 版 Analytics で開く
非 Unicode プロジェクト はい はい
Unicode プロジェクト いいえ はい

プロジェクトの変換

Unicode 版 Analytics で非 Unicode 版 Analytics プロジェクトを開く場合、プロジェクトと関連ログ ファイルを Unicode に自動的に変換する旨プロンプト表示されます。プロジェクトの変換を進める場合、元の非 Unicode プロジェクトとログ ファイルのコピーが .OLD というファイル拡張子を付けて保存され、それらが変更されることはありません。

メモ

非 Unicode 版 Analytics プロジェクトを Unicode に変換した場合、そのプロジェクトを非 Unicode 版 Analytics で開くことはできなくなります。そのプロジェクトを非 Unicode に再変換することはできません。必要に応じて、.OLD ファイルを使用すると、プロジェクトの非 Unicode 版を復元できます。

Analytics データ ファイル

非 Unicode 版 Analytics プロジェクトを Unicode に変換しても、関連する Analytics データファイル(.fill)は Unicode に変換されません。Unicode プロジェクトでは、1 バイトの ASCII (ANSI) データのままです。

メモ

Unicode 版 Analytics では、変換されていない 1 バイト データのフィールドのバイト位置とバイト長は、非 Unicode 版 Analytics と同じ方法で動作します。1 バイトは 1 文字に相当します。バイト位置またはバイト長を参照する変換されていないデータに対してコマンドを実行する場合は、この違いに注意してください。

Analytics の Unicode 用関数

Analytics には、データの解析および変換を支援する、6 つの Unicode 固有の関数があります。次の表ではこれらの関数の概要を説明しています。これらの関数は Unicode 版 Analytics にのみ搭載されています。

これらの関数の詳細については、『ACL のスクリプト作成ガイド』を参照してください。

関数

目的

BINTOSTR( )

ZONED または EBCDIC 文字データから変換された Unicode 文字データを返します。"Binary to String" の省略形です。

この変換により、確実に ZONED または EBCDIC でエンコードされた値を正しく表示できるようになります。

DBYTE( )

レコード内の指定されたバイト位置にある Unicode 文字を返します。

DHEX( )

Unicode 文字列を 16 進数の文字列に変換します。

HTOU( ) の逆です。

HTOU( )

16 進数の文字列を Unicode 文字列に変換します。"Hexadecimal to Unicode" の省略形です。

DHEX( ) の逆です。

DTOU( )

Analytics 日付値を指定された言語およびロケール書式の Unicode 文字列に変換します。"Date to Unicode" の省略形です。

UTOD( ) の逆です。

UTOD( )

書式設定された日付が含まれる Unicode 文字列を Analytics 日付値に変換します。"Unicode to Date" の省略形です。

DTOU( ) の逆です。

Analytics 14.1 ヘルプ