Testen Sie jetzt die neue Version des Konnektors und wechseln Sie zu dieser neuen Version, damit Sie in Analytics 18 weiter eine Verbindung mit Apache Spark herstellen können. (Voraussichtliches Erscheinen: Herbst 2024)
Siehe: Auf eine neuen ACL-Konnektorversion umstellen
Konzept-Informationen
Apache Spark ist eine Analytic Engine für die Verarbeitung großer Datenmengen. Sie können den Apache-Spark-Datenkonnektor verwenden, um die Spark-Daten Ihrer Organisation zu importieren.
Hinweis
Analytics bietet Spark als optionalen Konnektor an. Falls er in Ihrem Fenster „Datenzugriff“ nicht verfügbar ist, wurde er während der Installation wahrscheinlich nicht ausgewählt. Weitere Informationen finden Sie unter Optionale Analytics-Datenkonnektoren und Python Engine installieren.
Vorbereitungen
Für eine Verbindung mit Spark müssen Sie die folgenden Informationen einholen:
- Benutzername und Kennwort
- korrekter Verbindungsport
- verwendetes Authentifizierungsschema
- Hostname oder IP-Adresse des Servers
- Transportmodus für die Kommunikation mit dem Server
- Lesezugriff
Hilfe für die Zusammenstellung der Verbindungsvoraussetzungen erhalten Sie vom Spark-Administrator Ihrer Organisation. Falls Ihr Administrator Ihnen nicht weiterhelfen kann, sollten Sie oder Ihr Administrator den Spark-Support kontaktieren.
Spark-Verbindung erstellen
- Wählen Sie aus dem Analytics-Hauptmenü Importieren > Datenbank und Anwendung.Analytics
- Auf der Registerkarte Neue Verbindungen im Abschnitt ACL-Konnektoren wählen Sie Spark.
Tipp
Sie können die Liste verfügbarer Konnektoren filtern, indem Sie in das Feld Verbindungen filtern eine Suchzeichenfolge eingeben. Die Konnektoren sind alphabetisch aufgelistet.
- Im Bereich Datenverbindungseinstellungen rufen Sie die Verbindungseinstellungen auf und klicken unten innerhalb des Bereichs auf Speichern und verbinden.
Sie können den standardmäßigen Verbindungsnamen akzeptieren oder einen neuen Namen eingeben.
Die Verbindung für Spark wird in der Registerkarte Bestehende Verbindungen gespeichert. In Zukunft können Sie sich über die gespeicherte Verbindung erneut mit Spark verbinden.
Sobald die Verbindung hergestellt ist, wird das Fenster „Datenzugriff“ im Stagingbereich geöffnet und Sie können den Datenimport beginnen. Hilfe für den Datenimport aus Spark finden Sie unter Mit dem Fenster „Datenzugriff“ arbeiten.
Verbindungseinstellungen
Grundlegende Einstellungen
Einstellung | Beschreibung | Beispiel |
---|---|---|
Spark-Servertyp | Gibt die Spark-Serverinstanz an, mit der eine Verbindung hergestellt werden soll. | SharkServer2 |
Host(s) | Die IP-Adresse oder der Hostname des Spark-Servers. | |
Port | Der Port für die Verbindung mit der Spark-Serverinstanz. | 10000 |
Datenbank | Name des zu verwendenden Datenbankschemas, falls in der Abfrage kein Schema explizit angegeben wird. | Standard |
Authentifizierungsmechanismus |
Gibt den zu verwendenden Authentifizierungsmechanismus an. Verfügbare Optionen sind:
|
Keine Authentifizierung |
Bereich | Der Bereich des Spark-Thrift-Server-Hosts. | |
Host-FQDN | Vollqualifizierter Domänenname des Spark-Thrift-Server-Hosts. | _HOST |
Dienstname | Der Kerberos-Dienstprinzipalname des Spark-Servers. | |
Benutzername | Benutzername zur Authentifizierung am Spark-Server. | |
Kennwort | Kennwort des Benutzernamens zur Authentifizierung am Spark-Server. | |
Delegierungs-UID | Benutzer-ID des delegierten Benutzers, an den der Treiber alle Spark-Operationen delegieren muss (statt an den für die Verbindung authentifizierten Benutzer). | |
Thrift-Transport |
Gibt das in der Thrift-Schicht zu verwendende Transportprotokoll an. Verfügbare Optionen sind:
|
Binär |
Erweiterte Einstellungen
Einstellung | Beschreibung | Beispiel |
---|---|---|
SSL aktivieren | Legt fest, ob der Client eine SSL-verschlüsselte Verbindung zur Kommunikation mit dem Spark-Server verwendet. | |
Fehlende Übereinstimmung von allgemeinem Namen und Hostname zulassen | Gibt an, ob ein SSL-Zertifikatsname einer Zertifizierungsstelle dem Hostnamen des Spark-Servers entsprechen muss. | |
Selbstsigniertes Serverzertifikat erlauben | Spezifiziert, ob der Treiber eine Verbindung zum Spark-Server mit einem selbstsignierten Zertifikat auch dann gestattet, wenn sich das Zertifikat nicht in der Liste vertrauenswürdiger Zertifikate befindet. | |
Vertrauenswürdige Zertifikate | Der vollständige Pfad der .pem-Datei, die vertrauenswürdige Zertifizierungsstellenzertifikate zur Verifizierung des Servers mit SSL enthält. | |
Bidirektionales SSL | Legt fest, ob bidirektionales SSL aktiviert ist. | |
Client-Zertifikatsdatei | Der vollständige Pfad der .pem-Datei, die das SSL-Zertifikat des Clients enthält. | |
Datei für privaten Client-Schlüssel | Der vollständige Pfad der .pem-Datei, die den privaten SSL-Schlüssel des Clients enthält. | |
Kennwort für privaten Client-Schlüssel | Das Kennwort für die private Schlüsseldatei, die im Feld Datei für privaten Client-Schlüssel festgelegt wurde. | |
Systemeigene Abfrage verwenden | Gibt an, ob der Treiber systemeigene HiveQL-Abfragen verwendet. Wenn diese Option nicht ausgewählt ist, wandelt der Treiber durch eine Anwendung übermittelte Anfragen in HiveQL in eine äquivalente Form um. | |
Schnelles SQLPrepare | Gibt an, ob der Treiber die Abfrageausführung an SQLExecute zurückstellt. | |
Treiberkonfiguration hat Vorrang | Legt fest, ob treiberweite Konfigurationseinstellungen Vorrang vor Verbindungs- und DSN-Einstellungen haben. | |
Asynchrones Exec verwenden | Spezifiziert, ob Abfragen synchron oder asynchron ausgeführt werden sollen. | |
Abrufintervall für asynchrones Exec | Die Zeit zwischen jedem Abruf des Status der Abfrageausführung (in Millisekunden). | 100 |
Tabellen mit Abfrage abholen | Gibt an, ob der Treiber die Abfrage SHOW TABLES verwendet, um Tabellennamen aus der Datenbank abzurufen. Bei einer Deaktivierung verwendet der Treiber den Thrift-API-Aufruf „GetTables“. | 1 |
Unicode-SQL-Zeichentypen | Legt fest, welche SQL-Typen für Zeichenfolgendatentypen zurückgegeben werden. Bei einer Aktivierung gibt der Treiber SQL_WVARCHAR für STRING- und VARCHAR-Spalten sowie SQL_WCHAR für CHAR-Spalten zurück. | |
Systemtabelle anzeigen | Gibt an, ob der Treiber die Tabelle „spark_system“ für Katalogfunktionsaufrufe wie SQLTables und SQLColumns zurückgibt. | |
Nur SSPI verwenden | Spezifiziert, ob der Treiber die Kerberos-Authentifizierung mit dem SSPI-Plugin oder mit MIT Kerberos durchführt. | |
Automatisches Wiederherstellen ungültiger Sitzungen | Legt fest, ob der Treiber automatisch eine neue Sitzung öffnet, sobald die bestehende Sitzung nicht mehr gültig ist. | |
Abgerufene Zeilen pro Block | Maximale Zeilenanzahl, die eine Abfrage auf einmal zurückgibt. | 10000 |
Standardlänge von Zeichenfolgenspalte | Maximale Zeichenanzahl, die STRING-Spalten enthalten dürfen. | 255 |
Länge binärer Spalte | Maximale Datenlänge für BINARY-Spalten. | 32767 |
Skalierung von Dezimalspalte | Maximale Ziffernanzahl numerischer Datentypen nach dem Dezimalkomma. | 10 |
Socket-Zeitüberschreitung | Anzahl von Sekunden, die eine Operation inaktiv sein kann, bevor sie geschlossen wird. | 60 |
HTTP-Pfad | Die Teil-URL, die dem Spark-Server entspricht. | /spark |
Spark-Verbindungsfelder
Spalte, eindeutige Namen
Spark-Verbindungen über das Fenster „Datenzugriff“ verwenden einen Parameter mit einer Verbindungszeichenfolge namens EnableUniqueColumnName, der standardmäßig auf „0“ eingestellt ist. Dieser Parameter muss den Wert „0“ haben, damit sichergestellt ist, dass bei der Verbindung die korrekten Spaltennamen abgerufen werden.
Wenn Sie eine Spark-Verbindung mit DSN statt dem Fenster „Datenzugriff“ erstellen, ist dieser Wert standardmäßig auf „1“ eingestellt. Sie müssen ihn in der Windows-Registrierung auf „0“ ändern, damit Ihre Verbindung funktioniert.
Hinweis
Skripts, die DSN-Verbindungen aus älteren ACL-Versionen als 13.1 verwenden, funktionieren nach einer Aktualisierung auf Version 13.1 nicht mehr.