Se connecter à Apache Spark
Essayez la nouvelle version du connecteur et faites la transition dès maintenant pour pouvoir continuer de vous connecter à Spark dans Analytics 18. (Publication prévue à l'automne 2024)
Voir Passer à une nouvelle version des connecteurs ACL
Concept Information
Apache Spark est un moteur d'analyses destiné au traitement des données à grande échelle. Vous pouvez utiliser le connecteur de données d'Apache Spark afin d'importer les données Spark de votre organisation.
Remarque
Analytics fournit Spark comme connecteur optionnel. S'il n'est pas disponible dans votre fenêtre Accès aux données, il est probable que le connecteur n'ait pas été sélectionné lors de l'installation. Pour plus d'informations, consultez la rubrique Installer des connecteurs de données Analytics et un moteur Python optionnels.
Avant de commencer
Pour vous connecter à Spark, munissez-vous des éléments suivants :
- le nom d'utilisateur et le mot de passe ;
- le port de connexion qui convient ;
- le schéma d'authentification utilisé ;
- le nom d'hôte du serveur ou l'adresse IP ;
- le mode de transport pour communiquer avec le serveur
- Accès en lecture
Pour obtenir de l'aide concernant la réunion des conditions préalables à la connexion, contactez l'administrateur Spark de votre organisation. Si votre administrateur ne peut pas vous aider, vous ou votre administrateur devez contacter le support Spark.
Créer une connexion Spark
- Dans le menu principal Analytics, sélectionnez Importer > Base de données et application.Analytics
- Depuis l'onglet Nouvelles connexions, sous la section Connecteurs ACL, sélectionnez Spark.
Astuce
Vous pouvez filtrer la liste des connecteurs disponibles en indiquant une chaîne de recherche dans la zone Filtrer les connexions. Les connecteurs sont indiqués par ordre alphabétique.
- Dans le panneau Paramètres de connexion aux données entrez les paramètres de connexion, et en bas du panneau, cliquez sur Enregistrer et connecter.
Vous pouvez accepter le nom de connexion proposé par défaut ou en saisir un nouveau.
La connexion correspondant à Spark est enregistrée dans l'onglet Connexions existantes. À l'avenir, vous pourrez vous reconnecter à Spark à partir de la connexion enregistrée.
Une fois la connexion établie, la fenêtre Accès aux données s'ouvre sur la Zone de transit et vous pouvez commencer l'importation des données. Pour obtenir de l'aide concernant l'importation de données à partir de Spark, consultez la rubrique Utilisation de la fenêtre Accès aux données.
Paramètres de connexion
Paramètres de base
Paramètre | Description | Exemple |
---|---|---|
Type de serveur Spark | Spark | SharkServer2 |
Hôte(s) | Adresse IP ou nom d'hôte du serveur Spark. | |
Port | Port pour la connexion à l'instance du serveur Spark. | 10000 |
Base de données | Nom du schéma de la base de données à utiliser lorsqu'un schéma n'est pas explicitement spécifié dans une requête. | par défaut |
Mécanisme d'authentification |
Indique le mécanisme d'authentification à utiliser. Les options disponibles sont :
|
Aucune authentification |
Domaine | Domaine de l'hôte du Spark Thrift Server. | |
Nom de domaine complet de l'hôte | Nom de domaine complet de l'hôte Spark Thrift Server. | _HOST |
Nom du service | Nom principal du serveur Spark du service Kerberos. | |
Nom d'utilisateur | Nom d'utilisateur pour s'authentifier auprès du serveur Spark. | |
Mot de passe | Mot de passe du nom d'utilisateur pour qu'il puisse s'authentifier auprès du serveur Spark. | |
UID de délégation | ID de l'utilisateur délégué à qui le pilote doit déléguer toutes les opérations Spark, plutôt qu'à l'utilisateur authentifié pour la connexion. | |
Transport Thrift |
Spécifie le protocole de transport à utiliser dans la couche Thrift. Les options disponibles sont :
|
Binaire |
Paramètres avancés
Paramètre | Description | Exemple |
---|---|---|
Activer SSL | Indique si le client utilise une connexion cryptée SSL pour communiquer avec le serveur Spark. | |
Autoriser l'incompatibilité nom commun-nom d'hôte | Spécifie si le nom d'un certificat SSL émis par une AC doit correspondre au nom d'hôte du serveur Spark. | |
Activer un certificat de serveur auto-signé | Indique si le pilote autorise une connexion au serveur Spark qui utilise un certificat auto-signé, même si ce certificat ne figure pas dans la liste des certificats de confiance. | |
Certificats approuvés | Chemin d'accès complet du fichier .pem contenant les certificats des AC de confiance, pour vérifier le serveur lors de l'utilisation du protocole SSL. | |
SSL bidirectionnel | Indique si le protocole SSL bidirectionnel est activé. | |
Fichier de certificat client | Chemin d'accès complet au fichier .pem contenant le certificat SSL du client. | |
Fichier de clé privée client | Chemin d'accès complet au fichier .pem contenant la clé privée SSL du client. | |
Mot de passe de clé privée client | Mot de passe du fichier de clés privées spécifié dans le champ Fichier de clés privées du client. | |
Utiliser une requête native | Spécifie si le pilote utilise des requêtes HiveQL natives. Si cette option n'est pas sélectionnée, le pilote convertit les requêtes émises par une application en une forme équivalente dans HiveQL. | |
SQLPrepare rapide | Spécifie si le pilote reporte l'exécution de la requête à SQLExecute. | |
La configuration du pilote est prioritaire | Spécifie si les paramètres de configuration du pilote ont la priorité sur les paramètres de connexion et de DSN. | |
Utiliser Async Exec | Spécifie s'il faut exécuter les requêtes de manière synchrone ou asynchrone. | |
Intervalle d'interrogation Async Exec | Temps en millisecondes entre chaque sondage pour l'état d'exécution de la requête. | 100 |
Obtenir des tables avec une requête | Indique si le pilote utilise la requête SHOW TABLES pour récupérer les noms des tables dans la base de données. Si elle est désactivée, le pilote utilise l'appel API GetTables Thrift. | 1 |
Types de caractères Unicode SQL | Spécifie les types SQL à renvoyer pour les types de données de type chaîne. Lorsque cela est activé, le pilote renvoie SQL_WVARCHAR pour les colonnes STRING et VARCHAR, et renvoie SQL_WCHAR pour les colonnes CHAR. | |
Afficher la table système | Indique si le pilote renvoie la table spark_system pour les appels de fonctions de catalogue telles que SQLTables et SQLColumns. | |
Utiliser SSPI uniquement | Spécifie si le pilote gère l'authentification Kerberos avec le plugin SSPI ou avec MIT Kerberos. | |
Récupération automatiquement d'une session non valide | Indique si le pilote ouvre automatiquement une nouvelle session lorsque la session existante n'est plus valide. | |
Nombre de lignes extraites par bloc | Nombre maximum de lignes qu'une requête renvoie à la fois. | 10000 |
Longueur des colonnes des chaînes de caractères par défaut | Nombre maximum de caractères pouvant être contenus dans les colonnes STRING. | 255 |
Longueur des colonnes binaires | Longueur maximale des données pour les colonnes BINARY. | 32767 |
Échelle de la colonne décimale | Nombre maximum de chiffres à droite de la virgule pour les types de données numériques. | 10 |
Délai d'attente du socket | Nombre de secondes pendant lesquelles une opération peut rester inactive avant d'être fermée. | 60 |
Chemin HTTP | URL partielle correspondant au serveur Spark. | /spark |
Champs de connexion Spark
Noms uniques des colonnes
Les Sparkconnexions effectuées par le biais de la fenêtre Accès aux données utilisent un paramètre de chaîne de connexion EnableUniqueColumnName défini par défaut sur 0. Ce paramètre doit avoir la valeur 0 pour s'assurer que les bons noms de colonnes sont récupérés au moment de la connexion.
Si vous créez une connexion Spark à l'aide d'un DSN plutôt qu'à partir de la fenêtre Accès aux données, cette valeur est définie sur 1 par défaut. Pour que votre connexion fonctionne, vous devez remplacer cette valeur par 0 dans le registre Windows.
Remarque
Les scripts utilisant les connexions DSN définies dans les versions d'ACL antérieures à 13.1 continuent de fonctionner après la mise à niveau vers la version 13.1.