Galvanize Unicode-Produkte

Die Unicode-Versionen der Galvanize-Produkte ermöglichen Ihnen, Dateien mit Unicode-Daten anzuzeigen und mit solchen zu arbeiten.

Unicode ist ein Industriestandard für die Zeichencodierung, der von den meisten Weltsprachen unterstützt wird.

Sollte ich die Nicht-Unicode oder Unicode-Version von Analytics installieren?

Analytics ist als Unicode- und Nicht-Unicode-Edition erhältlich. Beide Editionen befinden sich in demselben Installationspaket und während der Installation legen Sie fest, welche Edition installiert werden soll.

Sie sollten die Nicht-Unicode-Version installieren, es sei denn Sie möchten Unicode-Daten anzeigen und analysieren. Unicode-Daten können nur in der Unicode-Edition von Analytics geöffnet werden.

Die Wahrscheinlichkeit für Unicode-Daten ist in Umgebungen mit globalen Informationssystemen oder bei der Analyse von Daten, die mehrere Sprachen enthalten, sehr viel wahrscheinlicher.

Wann die Unicode-Edition benötigt wird

Sie müssen die Unicode-Edition installieren, um folgende Daten anzeigen oder analysieren zu können:

asiatische Zeichen
Eine Kombination aus Nicht-Unicode oder traditionellen Zeichencodierungen
Beispielsweise einige Kombinationen von Sprachen aus mindestens zwei dieser Zeichencodierungen:
- Latin 1 (Englisch und westeuropäische Sprachen)
- Latin 2 (mitteleuropäische Sprachen)
- Kyrillisch
- Griechisch
- Arabisch

Hinweis

Wenn Sie die chinesische, japanische oder polnische Analytics-Benutzeroberfläche verwenden möchten, müssen Sie die Unicode-Edition installieren. Diese Notwendigkeit ergibt sich aus der Sprache der Benutzeroberfläche und nicht der Sprache der Daten.

Einsprachige Daten

Wenn Sie nur mit englischsprachigen Daten arbeiten oder nur eine der westeuropäischen Sprachen verwenden, sollten Sie wahrscheinlich die Nicht-Unicode-Version installieren. Sie sollten sich jedoch auch darüber im Klaren sein, dass auch eine rein englischsprachige Datei Unicode-codiert sein kann.

Hinweis

Wenden Sie sich an Ihre IT-Abteilung, wenn Sie unsicher über die Zeichencodierung der Daten sind, auf die Sie bei der Arbeit mit Ihren Organisationsdaten stoßen können.

Nicht-Unicode-AnalyticsL mit Unicode-Daten verwenden

Es gibt Situationen, in denen es möglich und sogar besser ist, die Nicht-Unicode-Version von Analytics mit Unicode-Daten zu verwenden.

Wenn alle Zeichen in den Unicode-Daten, mit denen Sie arbeiten, von einer der traditionellen Zeichencodierungen unterstützt werden –z. B. Daten ausschließlich in englischer Sprache – dann gibt es keinen Grund zur Verwendung von Unicode-Analytics. Wenn Sie diese Daten in Nicht-Unicode-ACL importieren, werden die Textfelder automatisch von Unicode in ASCII konvertiert, ohne dass es dabei zu einem Datenverlust oder einer Beschädigung der Daten kommen würde.

Die Gründe, warum dieser Ansatz besser ist, finden Sie unter Nachteile der Unicode-Version.

Hinweis

Es kommt zu einer Datenbeschädigung, wenn Sie Unicode-Daten in Nicht-Unicode-Analytics importieren und die Daten Zeichen enthalten, die von dem erweiterten ASCII-Zeichensatz nicht unterstützt werden.

Ausschlaggebend ist die Sprache der Daten

Die Sprachen der Daten mit denen Sie arbeiten, bestimmen die Analytics-Edition, die Sie installieren sollten. Die Sprache der Analytics-Benutzeroberfläche ist hierfür nicht ausschlaggebend.

Beispielsweise könnte in Ihrer Organisation die spanische Analytics-Benutzeroberfläche eingesetzt werden, aber die Entscheidung, ob die Nicht-Unicode- oder Unicode-Version installiert werden sollte, hängt davon ab, welche Sprachen Sie in den Daten vermuten.

Die chinesischen, japanischen und polnischen Analytics-Benutzeroberflächen sind bei dieser allgemeinen Regel für die Auswahl der Analytics-Edition eine Ausnahme. Diese drei Benutzeroberflächen sind nur in der Unicode-Edition verfügbar. Informationen über lokalisierte Analytics-Benutzeroberflächen und die Unicode-Unterstützung finden Sie unter Sprachunterstützung.

Welche Version von Analytics verwende ich derzeit?

Um herauszufinden, welche Edition von Analytics Sie momentan verwenden, wählen Sie Hilfe > Über. Dadurch wird ein Dialogfeld mit Informationen über das Produkt und das Abonnement geöffnet. Unicode oder Nicht-Unicode erscheint nach der Versionsnummer.

Benutzer von Robots oder Analytics Exchange

Sie müssen die Edition von Analytics installieren, die der installierten Edition von Robots oder Analytics Exchange in Ihrer Organisation entspricht. Analytics kann nicht mit Robots oder Analytics Exchange interagieren, falls die Editionen nicht übereinstimmen.

Nachteile der Unicode-Version

Die Unicode-Version von Analytics hat die folgenden Nachteile:

Größere Datendateien Unicode-Daten erfordern ca. doppelt so viel Speicherplatz wie Nicht-Unicode-Daten, weil jedes Zeichen von zwei Byte und nicht von einem Byte repräsentiert wird.
Mögliche Beeinträchtigung der Leistung Bei größeren Datendateien dauert die Verarbeitung von einigen Analytics-Befehlen deutlich länger, weil die zweifache Datenmenge von der Unicode-Version verarbeitet werden muss.

Aufgrund dieser Nachteile sollten Sie die Unicode-Version nur installieren, wenn Sie tatsächlich Unicode-Daten verarbeiten müssen.

Einzelbyte- gegenüber Doppelbyte-Daten in Analytics

Nicht-Unicode-Analytics

Beim Lesen und Schreiben von Datendateien funktioniert die Nicht-Unicode-Edition von Analytics nur mit Einzelbyte-Zeichensätzen (SBCS). In einem Einzelbyte-Zeichensatz werden Daten im Umfang eines Bytes verwendet, um ein Zeichen darzustellen. Es werden maximal 256 unterschiedliche Zeichen unterstützt.

Der von Nicht-Unicode-Analytics verwendete Einzelbyte-Zeichensatz hängt von der Sprache ab, die in der Einstellung Systemgebietsschema Ihres Computers festgelegt wurde. Wenn das Systemgebietsschema Englisch oder eine der westeuropäischen Sprachen festlegt, wird der Zeichensatz Windows-1252 verwendet. Windows-1252 wird auch als „Windows Latin 1“ bezeichnet. Ihr Systemgebietsschema können Sie in der Systemsteuerung von Windows festlegen.

Andere übliche Bezeichnungen für Einzelbyte-Zeichensätze sind „ANSI“, „ANSI-Zeichensatz“ oder „erweitertes ASCII“.

Hinweis

Der Zeichensatz, den Nicht-Unicode-Analytics für die Datenverarbeitung verwendet, ist nicht unbedingt mit dem Zeichensatz identisch, den der Text der Analytics-Benutzeroberfläche nutzt.

Unicode-Analytics

Daten lesen

Die Unicode-Edition von Analytics kann Doppelbyte- oder Singlebyte-Zeichensätze lesen. Doppelbyte-Unicode-Zeichen verwenden zur Darstellung jedes Zeichens Daten im Umfang von zwei Bytes. Indem es zwei oder mehr Bytes zur Zeichencodierung verwendet, kann Unicode die Zeichen von Sprachen der ganzen Welt in einem einzelnen Zeichensatz darstellen.

Daten schreiben

Für Schreiboperationen, die Ausgabedateien erstellen, verwendet Unicode-Analytics in der Regel die Doppelbyte-Zeichencodierung UTF-16. Bei einigen Operationen werden in der Ausgabedatei Einzelbyte-Zeichencodierungen beibehalten, die in der Quelldatei vorhanden sind.

Anzahl der Byte im Vergleich zu Anzahl der Zeichen

Beim Arbeiten mit Doppelbyte-Unicode-Daten sollten Sie sich stets den Unterschied zwischen der Feldlänge in Bytes (wird im Dialogfeld Tabellenlayout angezeigt) und der Feldlänge in Zeichen vor Augen halten.

Wenn z.B. ein Unicode-Feld im Dialogfeld Tabellenlayout die Länge von 44 Bytes hat, besteht es tatsächlich aus 22 Zeichen.

Warum Bytes und Zeichen in ACLScript wichtig sind

Wenn Sie Funktionen wie STRING( ) und SUBSTRING( ) mit einem Feldlängenparameter verwenden, geben Sie die Länge in Zeichen und nicht in Bytes ein. Im Gegensatz dazu muss bei manchen Befehlen wie DEFINE FIELD die Feldlänge in Bytes und nicht in Zeichen angegeben werden.

In Nicht-Unicode-Analytics entspricht ein Byte einem Zeichen, sodass nicht zwischen Bytes und Zeichen unterschieden werden muss. In Unicode-Analytics entsprechen bei der Arbeit mit Doppelbyte-Unicode-Daten zwei Bytes aber einem Zeichen, sodass der Unterschied eine Rolle spielt.

Informationen, welche Einheit für bestimmte Befehle und Funktionen zu verwenden sind, finden Sie im Leitfaden für die Skripterstellung in ACL.

Textdateien in Unicode-Analytics importieren

Die Zeichencodierung einer Textdatei wirkt sich darauf aus, wie sie in Unicode-Analytics importiert wird und welcher Datentyp für Zeichenfelder in der entstehenden Analytics-Tabelle verwendet wird.

Für den Import von ASCII- und EBCDIC-Dateien in Unicode-Analytics gibt es zwei Möglichkeiten:

Zeichendatentyp auf UNICODE konvertieren und eine Analytics-Datendatei erstellen
Wenn Sie später den UNICODE-Datentyp auf ASCII oder EBCDIC ändern, werden die Zeichen in den Feldern nicht korrekt angezeigt.
Die Zeichencodierungen ASCII oder EBCDIC beibehalten und nur ein Analytics-Tabellenlayout ohne ACL-Datendatei erstellen
Das Analytics-Tabellenlayout bleibt mit der Quelltextdatei verknüpft.

Zeichencodierung der Textdatei	Option im Assistent für Datendefinition	Zeichendatentyp in Analytics-Tabelle	Zeichenlänge
UTF-16 LE (Unicode)	Unicode-Text	UNICODE	Doppelbyte-Zeichen
UTF-8 (Unicode)	Codierter Text + der geeignete Zeichensatz (Codepage) für die Datendatei	UNICODE	Doppelbyte-Zeichen
erweitertes ASCII (ANSI-Zeichensatz)	ASCII > Textdatei mit Trennzeichen ASCII > Druckdatei (Bericht)	UNICODE	Doppelbyte-Zeichen
erweitertes ASCII (ANSI-Zeichensatz)	ASCII > Anderes Dateiformat	ASCII	Einzelbyte-Zeichen
EBCDIC	EBCDIC > Druckdatei (Bericht)	UNICODE	Doppelbyte-Zeichen
EBCDIC	EBCDIC > Anderes Dateiformat	EBCDIC	Einzelbyte-Zeichen

Little-Endian- und Big-Endian-Daten

„Little-Endian“ (LE) und „Big-Endian“ (BE) beziehen sich auf zwei verschiedene Methoden, Unicode-Daten zu codieren. Unicode-Daten, die von Microsoft Windows-Computern stammen, werden in der Regel als Little-Endian-Daten codiert. Wenn Sie Analytics auf einem Windows-Computer verwenden, können Sie keine Big-Endian-Daten analysieren.

Umwandeln von Nicht-Unicode-Analytics-Projekten in Unicode-Projekte

Sie können ein Nicht-Unicode-Analytics-Projekt in der Unicode-Version von Analytics öffnen, der umgekehrte Fall ist jedoch nicht möglich: Sie können kein Unicode-Analytics-Projekt in der Nicht-Unicode-Analytics-Version öffnen.

	In Nicht-Unicode-Analytics öffnen	In Unicode-Analytics öffnen
Nicht-Unicode-Projekt	Ja	Ja
Unicode-Projekt	Nein	Ja

Projektumwandlung

Wenn Sie ein Nicht-Unicode-ACL-Projekt in Unicode Analytics öffnen, werden Sie aufgefordert, dass Projekt und die dazugehörende Protokolldatei in Unicode umzuwandeln. Wenn Sie die Umwandlung durchführen, werden Kopien der ursprünglichen Nicht-Unicode-Projekte mit der Dateierweiterung ".OLD" gespeichert, Änderungen werden nicht auf die Kopien angewendet.

Hinweis

Nachdem das Nicht-Unicode-Analytics-Projekt umgewandelt wurde, können Sie es nicht mehr in der Nicht-Unicode-Version von Analytics öffnen und es ist ebenfalls nicht möglich, das Projekt wieder in Nicht-Unicode umzuwandeln. Falls erforderlich, können Sie die Nicht-Unicode-Version des Projekt mit Hilfe der .OLD-Datei wiederherstellen.

Analytics-Datendateien

Wenn Sie ein Nicht-Unicode-Projekt in Analytics auf Unicode konvertieren, werden alle zugehörigen Analytics-Datendateien (.fil) nicht in Unicode konvertiert. Sie bleiben als Einzelbyte-ASCII-Daten (ANSI) im Unicode-Projekt bestehen.

Hinweis

In Unicode-Analytics funktioniert die Byte-Position oder Byte-Länge von Feldern in nicht konvertierten Einzelbyte-Daten ebenso wie in Nicht-Unicode-Analytics. Ein Byte entspricht einem Zeichen. Denken Sie an diesen Unterschied, wenn Sie Befehle für nicht konvertierte Daten ausführen, die Byte-Positionen oder Byte-Längen referenzieren.

Unicode-spezifische Funktionen in Analytics

Analytics bietet sechs Unicode-spezifische Funktionen für die Datenanalyse und -konvertierung. Die Funktionen sind in der folgenden Tabelle zusammengefasst. Die Funktionen sind nur in der Unicode-Edition von Analytics verfügbar.

Ausführliche Informationen zu diesen Funktionen finden Sie im Leitfaden für die Skripterstellung in ACL.

Funktion	Zweck
BINTOSTR( )	Gibt Unicode-Zeichendaten zurück, die aus ZONED- oder EBCDIC-Zeichendaten konvertiert wurden. Abkürzung für „Binary to String“ (Binär in Zeichenfolge). Diese Umwandlung gewährleistet, dass in ZONED oder EBCDIC codierte Werte richtig angezeigt werden.
DBYTE( )	Gibt das Unicode-Zeichen zurück, das sich an der angegebenen Byte-Position in einem Datensatz befindet.
DHEX( )	Wandelt einen Unicode-String in einen hexadezimalen String um. Dies ist die Umkehrfunktion von HTOU( ).
HTOU( )	Wandelt eine hexadezimale Zeichenfolge in eine Unicode-Zeichenfolge um. Abkürzung für „Hexadecimal to Unicode“ (Hexadezimal in Unicode). Dies ist die Umkehrfunktion von DHEX( ).
DTOU( )	Konvertiert einen Analytics-Datumswert in eine Unicode-Zeichenfolge der angegebenen Sprache und des Gebietsschemaformats. Abkürzung für „Date to Unicode“ (Datum in Unicode). Dies ist die Umkehrfunktion von UTOD( ).
UTOD( )	Konvertiert eine Unicode-Zeichenfolge mit einem formatierten Datum in ein Analytics-Datum. Abkürzung für „Unicode to Date“ (Unicode in Datum). Dies ist die Umkehrfunktion von DTOU( ).

[ Zurück an den Anfang ]

Hilfe für Analytics 14.1