Se connecter à Apache Spark

Cette version du connecteur de données Apache Spark ne sera plus disponible après Analytics 17.x.
Essayez la nouvelle version du connecteur et faites la transition dès maintenant pour pouvoir continuer de vous connecter à Spark dans Analytics 18. (Publication prévue à l'automne 2024)
Voir Passer à une nouvelle version des connecteurs ACL

Concept Information

Commande ACCESSDATA

Apache Spark est un moteur d'analyses destiné au traitement des données à grande échelle. Vous pouvez utiliser le connecteur de données d'Apache Spark afin d'importer les données Spark de votre organisation.

Remarque

Analytics fournit Spark comme connecteur optionnel. S'il n'est pas disponible dans votre fenêtre Accès aux données, il est probable que le connecteur n'ait pas été sélectionné lors de l'installation. Pour plus d'informations, consultez la rubrique Installer des connecteurs de données Analytics et un moteur Python optionnels.

Avant de commencer

Pour vous connecter à Spark, munissez-vous des éléments suivants :

  • le nom d'utilisateur et le mot de passe ;
  • le port de connexion qui convient ;
  • le schéma d'authentification utilisé ;
  • le nom d'hôte du serveur ou l'adresse IP ;
  • le mode de transport pour communiquer avec le serveur
  • Accès en lecture

Pour obtenir de l'aide concernant la réunion des conditions préalables à la connexion, contactez l'administrateur Spark de votre organisation. Si votre administrateur ne peut pas vous aider, vous ou votre administrateur devez contacter le support Spark.

Créer une connexion Spark

  1. Dans le menu principal Analytics, sélectionnez Importer > Base de données et application.Analytics
  2. Depuis l'onglet Nouvelles connexions, sous la section Connecteurs ACL, sélectionnez Spark.

    Astuce

    Vous pouvez filtrer la liste des connecteurs disponibles en indiquant une chaîne de recherche dans la zone Filtrer les connexions. Les connecteurs sont indiqués par ordre alphabétique.

  3. Dans le panneau Paramètres de connexion aux données entrez les paramètres de connexion, et en bas du panneau, cliquez sur Enregistrer et connecter.

    Vous pouvez accepter le nom de connexion proposé par défaut ou en saisir un nouveau.

La connexion correspondant à Spark est enregistrée dans l'onglet Connexions existantes. À l'avenir, vous pourrez vous reconnecter à Spark à partir de la connexion enregistrée.

Une fois la connexion établie, la fenêtre Accès aux données s'ouvre sur la Zone de transit et vous pouvez commencer l'importation des données. Pour obtenir de l'aide concernant l'importation de données à partir de Spark, consultez la rubrique Utilisation de la fenêtre Accès aux données.

Paramètres de connexion

Paramètres de base

Paramètre Description Exemple
Type de serveur Spark Spark SharkServer2
Hôte(s) Adresse IP ou nom d'hôte du serveur Spark.  
Port Port pour la connexion à l'instance du serveur Spark. 10000
Base de données Nom du schéma de la base de données à utiliser lorsqu'un schéma n'est pas explicitement spécifié dans une requête. par défaut
Mécanisme d'authentification

Indique le mécanisme d'authentification à utiliser. Les options disponibles sont :

  • Aucune authentification
  • Kerberos
  • Nom d'utilisateur
  • Nom d'utilisateur et mot de passe
  • Émulateur Windows Azure HDInsight
  • Service Windows Azure HDInsight
Aucune authentification
Domaine Domaine de l'hôte du Spark Thrift Server.  
Nom de domaine complet de l'hôte Nom de domaine complet de l'hôte Spark Thrift Server. _HOST
Nom du service Nom principal du serveur Spark du service Kerberos.  
Nom d'utilisateur Nom d'utilisateur pour s'authentifier auprès du serveur Spark.  
Mot de passe Mot de passe du nom d'utilisateur pour qu'il puisse s'authentifier auprès du serveur Spark.  
UID de délégation ID de l'utilisateur délégué à qui le pilote doit déléguer toutes les opérations Spark, plutôt qu'à l'utilisateur authentifié pour la connexion.  
Transport Thrift

Spécifie le protocole de transport à utiliser dans la couche Thrift. Les options disponibles sont :

  • Binaire
  • SASL
  • HTTP
Binaire

Paramètres avancés

Paramètre Description Exemple
Activer SSL Indique si le client utilise une connexion cryptée SSL pour communiquer avec le serveur Spark.  
Autoriser l'incompatibilité nom commun-nom d'hôte Spécifie si le nom d'un certificat SSL émis par une AC doit correspondre au nom d'hôte du serveur Spark.  
Activer un certificat de serveur auto-signé Indique si le pilote autorise une connexion au serveur Spark qui utilise un certificat auto-signé, même si ce certificat ne figure pas dans la liste des certificats de confiance.  
Certificats approuvés Chemin d'accès complet du fichier .pem contenant les certificats des AC de confiance, pour vérifier le serveur lors de l'utilisation du protocole SSL.  
SSL bidirectionnel Indique si le protocole SSL bidirectionnel est activé.  
Fichier de certificat client Chemin d'accès complet au fichier .pem contenant le certificat SSL du client.  
Fichier de clé privée client Chemin d'accès complet au fichier .pem contenant la clé privée SSL du client.  
Mot de passe de clé privée client Mot de passe du fichier de clés privées spécifié dans le champ Fichier de clés privées du client.  
Utiliser une requête native Spécifie si le pilote utilise des requêtes HiveQL natives. Si cette option n'est pas sélectionnée, le pilote convertit les requêtes émises par une application en une forme équivalente dans HiveQL.  
SQLPrepare rapide Spécifie si le pilote reporte l'exécution de la requête à SQLExecute.  
La configuration du pilote est prioritaire Spécifie si les paramètres de configuration du pilote ont la priorité sur les paramètres de connexion et de DSN.  
Utiliser Async Exec Spécifie s'il faut exécuter les requêtes de manière synchrone ou asynchrone.  
Intervalle d'interrogation Async Exec Temps en millisecondes entre chaque sondage pour l'état d'exécution de la requête. 100
Obtenir des tables avec une requête Indique si le pilote utilise la requête SHOW TABLES pour récupérer les noms des tables dans la base de données. Si elle est désactivée, le pilote utilise l'appel API GetTables Thrift. 1
Types de caractères Unicode SQL Spécifie les types SQL à renvoyer pour les types de données de type chaîne. Lorsque cela est activé, le pilote renvoie SQL_WVARCHAR pour les colonnes STRING et VARCHAR, et renvoie SQL_WCHAR pour les colonnes CHAR.  
Afficher la table système Indique si le pilote renvoie la table spark_system pour les appels de fonctions de catalogue telles que SQLTables et SQLColumns.  
Utiliser SSPI uniquement Spécifie si le pilote gère l'authentification Kerberos avec le plugin SSPI ou avec MIT Kerberos.  
Récupération automatiquement d'une session non valide Indique si le pilote ouvre automatiquement une nouvelle session lorsque la session existante n'est plus valide.  
Nombre de lignes extraites par bloc Nombre maximum de lignes qu'une requête renvoie à la fois. 10000
Longueur des colonnes des chaînes de caractères par défaut Nombre maximum de caractères pouvant être contenus dans les colonnes STRING. 255
Longueur des colonnes binaires Longueur maximale des données pour les colonnes BINARY. 32767
Échelle de la colonne décimale Nombre maximum de chiffres à droite de la virgule pour les types de données numériques. 10
Délai d'attente du socket Nombre de secondes pendant lesquelles une opération peut rester inactive avant d'être fermée. 60
Chemin HTTP URL partielle correspondant au serveur Spark. /spark

Champs de connexion Spark

Noms uniques des colonnes

Les Sparkconnexions effectuées par le biais de la fenêtre Accès aux données utilisent un paramètre de chaîne de connexion EnableUniqueColumnName défini par défaut sur 0. Ce paramètre doit avoir la valeur 0 pour s'assurer que les bons noms de colonnes sont récupérés au moment de la connexion.

Si vous créez une connexion Spark à l'aide d'un DSN plutôt qu'à partir de la fenêtre Accès aux données, cette valeur est définie sur 1 par défaut. Pour que votre connexion fonctionne, vous devez remplacer cette valeur par 0 dans le registre Windows.

Remarque

Les scripts utilisant les connexions DSN définies dans les versions d'ACL antérieures à 13.1 continuent de fonctionner après la mise à niveau vers la version 13.1.