Se connecter à Apache Spark

Cette version du connecteur de données Apache Spark ne sera plus disponible après Analytics 17.x.
Essayez la nouvelle version du connecteur et faites la transition dès maintenant pour pouvoir continuer de vous connecter à Spark dans Analytics 18. (Publication prévue à l'automne 2024)
Voir Passer à une nouvelle version des connecteurs ACL

Concept Information

Commande ACCESSDATA

Apache Spark est un moteur d'analyses destiné au traitement des données à grande échelle. Vous pouvez utiliser le connecteur de données d'Apache Spark afin d'importer les données Spark de votre organisation.

Remarque

Analytics fournit Spark comme connecteur optionnel. S'il n'est pas disponible dans votre fenêtre Accès aux données, il est probable que le connecteur n'ait pas été sélectionné lors de l'installation. Pour plus d'informations, consultez la rubrique Installer des connecteurs de données Analytics et un moteur Python optionnels.

Avant de commencer

Pour vous connecter à Spark, munissez-vous des éléments suivants :

le nom d'utilisateur et le mot de passe ;
le port de connexion qui convient ;
le schéma d'authentification utilisé ;
le nom d'hôte du serveur ou l'adresse IP ;
le mode de transport pour communiquer avec le serveur
Accès en lecture

Pour obtenir de l'aide concernant la réunion des conditions préalables à la connexion, contactez l'administrateur Spark de votre organisation. Si votre administrateur ne peut pas vous aider, vous ou votre administrateur devez contacter le support Spark.

Créer une connexion Spark

Dans le menu principal Analytics, sélectionnez Importer > Base de données et application.Analytics
Depuis l'onglet Nouvelles connexions, sous la section Connecteurs ACL, sélectionnez Spark.
Astuce
Vous pouvez filtrer la liste des connecteurs disponibles en indiquant une chaîne de recherche dans la zone Filtrer les connexions. Les connecteurs sont indiqués par ordre alphabétique.
Dans le panneau Paramètres de connexion aux données entrez les paramètres de connexion, et en bas du panneau, cliquez sur Enregistrer et connecter.
Vous pouvez accepter le nom de connexion proposé par défaut ou en saisir un nouveau.

La connexion correspondant à Spark est enregistrée dans l'onglet Connexions existantes. À l'avenir, vous pourrez vous reconnecter à Spark à partir de la connexion enregistrée.

Une fois la connexion établie, la fenêtre Accès aux données s'ouvre sur la Zone de transit et vous pouvez commencer l'importation des données. Pour obtenir de l'aide concernant l'importation de données à partir de Spark, consultez la rubrique Utilisation de la fenêtre Accès aux données.

Paramètres de connexion

Paramètres de base

Paramètre	Description	Exemple
Type de serveur Spark	Spark	SharkServer2
Hôte(s)	Adresse IP ou nom d'hôte du serveur Spark.
Port	Port pour la connexion à l'instance du serveur Spark.	10000
Base de données	Nom du schéma de la base de données à utiliser lorsqu'un schéma n'est pas explicitement spécifié dans une requête.	par défaut
Mécanisme d'authentification	Indique le mécanisme d'authentification à utiliser. Les options disponibles sont : Aucune authentification Kerberos Nom d'utilisateur Nom d'utilisateur et mot de passe Émulateur Windows Azure HDInsight Service Windows Azure HDInsight	Aucune authentification
Domaine	Domaine de l'hôte du Spark Thrift Server.
Nom de domaine complet de l'hôte	Nom de domaine complet de l'hôte Spark Thrift Server.	_HOST
Nom du service	Nom principal du serveur Spark du service Kerberos.
Nom d'utilisateur	Nom d'utilisateur pour s'authentifier auprès du serveur Spark.
Mot de passe	Mot de passe du nom d'utilisateur pour qu'il puisse s'authentifier auprès du serveur Spark.
UID de délégation	ID de l'utilisateur délégué à qui le pilote doit déléguer toutes les opérations Spark, plutôt qu'à l'utilisateur authentifié pour la connexion.
Transport Thrift	Spécifie le protocole de transport à utiliser dans la couche Thrift. Les options disponibles sont : Binaire SASL HTTP	Binaire

Paramètres avancés

Paramètre	Description	Exemple
Activer SSL	Indique si le client utilise une connexion cryptée SSL pour communiquer avec le serveur Spark.
Autoriser l'incompatibilité nom commun-nom d'hôte	Spécifie si le nom d'un certificat SSL émis par une AC doit correspondre au nom d'hôte du serveur Spark.
Activer un certificat de serveur auto-signé	Indique si le pilote autorise une connexion au serveur Spark qui utilise un certificat auto-signé, même si ce certificat ne figure pas dans la liste des certificats de confiance.
Certificats approuvés	Chemin d'accès complet du fichier .pem contenant les certificats des AC de confiance, pour vérifier le serveur lors de l'utilisation du protocole SSL.
SSL bidirectionnel	Indique si le protocole SSL bidirectionnel est activé.
Fichier de certificat client	Chemin d'accès complet au fichier .pem contenant le certificat SSL du client.
Fichier de clé privée client	Chemin d'accès complet au fichier .pem contenant la clé privée SSL du client.
Mot de passe de clé privée client	Mot de passe du fichier de clés privées spécifié dans le champ Fichier de clés privées du client.
Utiliser une requête native	Spécifie si le pilote utilise des requêtes HiveQL natives. Si cette option n'est pas sélectionnée, le pilote convertit les requêtes émises par une application en une forme équivalente dans HiveQL.
SQLPrepare rapide	Spécifie si le pilote reporte l'exécution de la requête à SQLExecute.
La configuration du pilote est prioritaire	Spécifie si les paramètres de configuration du pilote ont la priorité sur les paramètres de connexion et de DSN.
Utiliser Async Exec	Spécifie s'il faut exécuter les requêtes de manière synchrone ou asynchrone.
Intervalle d'interrogation Async Exec	Temps en millisecondes entre chaque sondage pour l'état d'exécution de la requête.	100
Obtenir des tables avec une requête	Indique si le pilote utilise la requête SHOW TABLES pour récupérer les noms des tables dans la base de données. Si elle est désactivée, le pilote utilise l'appel API GetTables Thrift.	1
Types de caractères Unicode SQL	Spécifie les types SQL à renvoyer pour les types de données de type chaîne. Lorsque cela est activé, le pilote renvoie SQL_WVARCHAR pour les colonnes STRING et VARCHAR, et renvoie SQL_WCHAR pour les colonnes CHAR.
Afficher la table système	Indique si le pilote renvoie la table spark_system pour les appels de fonctions de catalogue telles que SQLTables et SQLColumns.
Utiliser SSPI uniquement	Spécifie si le pilote gère l'authentification Kerberos avec le plugin SSPI ou avec MIT Kerberos.
Récupération automatiquement d'une session non valide	Indique si le pilote ouvre automatiquement une nouvelle session lorsque la session existante n'est plus valide.
Nombre de lignes extraites par bloc	Nombre maximum de lignes qu'une requête renvoie à la fois.	10000
Longueur des colonnes des chaînes de caractères par défaut	Nombre maximum de caractères pouvant être contenus dans les colonnes STRING.	255
Longueur des colonnes binaires	Longueur maximale des données pour les colonnes BINARY.	32767
Échelle de la colonne décimale	Nombre maximum de chiffres à droite de la virgule pour les types de données numériques.	10
Délai d'attente du socket	Nombre de secondes pendant lesquelles une opération peut rester inactive avant d'être fermée.	60
Chemin HTTP	URL partielle correspondant au serveur Spark.	/spark

Champs de connexion Spark

Noms uniques des colonnes

Les Sparkconnexions effectuées par le biais de la fenêtre Accès aux données utilisent un paramètre de chaîne de connexion EnableUniqueColumnName défini par défaut sur 0. Ce paramètre doit avoir la valeur 0 pour s'assurer que les bons noms de colonnes sont récupérés au moment de la connexion.

Si vous créez une connexion Spark à l'aide d'un DSN plutôt qu'à partir de la fenêtre Accès aux données, cette valeur est définie sur 1 par défaut. Pour que votre connexion fonctionne, vous devez remplacer cette valeur par 0 dans le registre Windows.