Se connecter à Apache Cassandra (v.1)
Les scripts utilisant cette version du connecteur Cassandra ne pourront pas s’exécuter dans Analytics 18.x et doivent être mis à jour pour que la nouvelle version du connecteur soit utilisable.
Cette version du connecteur continuera à fonctionner dans Analytics 17.x, ainsi que dans toute version antérieure, tant que le connecteur et la source de données resteront compatibles.
Voir Passer à une nouvelle version des connecteurs ACL
Information de concept
Apache Cassandra est un système de gestion de bases de données NoSQL. Utilisez le connecteur de données d'Apache Cassandra afin d'importer les données Cassandra de votre organisation.
Avant de commencer
Pour vous connecter à Cassandra, munissez-vous des éléments suivants :
- le nom d'hôte du serveur de bases de données ou l'adresse IP
- le port de connexion qui convient ;
- votre nom d'utilisateur et votre mot de passe si vous utilisez l'authentification.
Pour obtenir de l'aide concernant la réunion des conditions préalables à la connexionCassandra, contactez l'administrateur de votre organisation. Si votre administrateur ne peut pas vous aider, vous ou votre administrateur devez contacter le support Cassandra.
Créer une connexion Cassandra
- Dans le menu principal Analytics, sélectionnez Importer > Base de données et application.Analytics
- Depuis l'onglet Nouvelles connexions, sous la section Connecteurs ACL, sélectionnez Cassandra.
Astuce
Vous pouvez filtrer la liste des connecteurs disponibles en indiquant une chaîne de recherche dans la zone Filtrer les connexions. Les connecteurs sont indiqués par ordre alphabétique.
- Dans le panneau Paramètres de connexion aux données entrez les paramètres de connexion, et en bas du panneau, cliquez sur Enregistrer et connecter.
Vous pouvez accepter le nom de connexion proposé par défaut ou en saisir un nouveau.
La connexion correspondant à Cassandra est enregistrée dans l'onglet Connexions existantes. À l'avenir, vous pourrez vous reconnecter à Cassandra à partir de la connexion enregistrée.
Une fois la connexion établie, la fenêtre Accès aux données s'ouvre sur la Zone de transit et vous pouvez commencer l'importation des données. Pour obtenir de l'aide concernant l'importation de données à partir de Cassandra, consultez la rubrique Utilisation de la fenêtre Accès aux données.
Paramètres de connexion
Paramètres de base
Paramètre | Description | Exemple |
---|---|---|
Hôte |
Adresse IP ou nom d'hôte du serveur Cassandra. |
|
Port | Port TCP de la base de données Cassandra. | 9042 |
Espace de clés par défaut | Espace de clés par défaut (schéma) pour se connecter à Cassandra. | |
Mécanisme d'authentification |
Mécanisme d'authentification à utiliser lors de la connexion au serveur Cassandra. Les options disponibles sont les suivantes :
|
Aucune authentification |
Nom d'utilisateur | Nom d'utilisateur à utiliser pour se connecter au serveur Cassandra. | |
Mot de passe | Mot de passe correspondant au nom d'utilisateur donné. |
Paramètres avancés
Paramètre | Description | Exemple |
---|---|---|
Mode de requête |
Indique le mode de requête à utiliser lors de l'envoi de requêtes vers Cassandra. Les options disponibles sont :
|
SQL avec CQL Fallback |
Cohérence analysable | Réplique spécifique de Cassandre ou nombre de répliques de Cassandre qui doivent traiter une requête pour que celle-ci aboutisse. | ONE |
Paramètres d'équilibrage de la charge | Précise la politique d'équilibrage des charges à utiliser. | |
Longueur des colonnes binaires | Longueur par défaut des colonnes à rapporter pour les colonnes BLOB. | 4000 |
Longueur des colonnes des chaînes | La longueur de colonne par défaut à rapporter pour les colonnes ASCII, TEXTE et VARCHAR. | 4000 |
Séparateur de nom de table virtuelle | Séparateur pour nommer une table virtuelle construite à partir d'une collection. Le nom d'une table virtuelle se compose du nom de la table originale, puis du séparateur, et enfin du nom de la collection. |
_vt_ |
Activer la reconnaissance des jetons | Précise s'il convient d'utiliser une politique de reconnaissance des jetons pour améliorer l'équilibrage de la charge et la latence. | |
Activer la reconnaissance de la latence | Spécifie si le pilote doit utiliser un algorithme de prise de conscience de la latence pour répartir la charge à l'écart des nœuds les plus lents. | |
Activer l'insertion de valeurs nulles | Précise si le pilote doit insérer toutes les valeurs NULL comme indiqué dans les déclarations INSERT. | |
Activer la sensibilité à la casse |
Indique si le pilote explique la différence entre les majuscules et les minuscules dans les noms de schémas, de tableaux et de colonnes. Si cette option est activée, tous les schémas, tableaux et colonnes doivent être entre guillemets ("). |
|
Utiliser SQL_WVARCHAR pour le type de données chaîne | Spécifie s'il faut utiliser SQL_WVARCHAR pour les types texte et varchar. | |
Activer la pagination | Indique s'il faut diviser les grands ensembles de résultats en pages. | |
Nombre de lignes par page | Lorsque l'option Activer la pagination est activée, utilisez cette option pour spécifier le nombre maximum de lignes à afficher sur chaque page. | 10000 |
Options SSL |
Spécifie comment le pilote utilise le protocole SSL pour se connecter au serveur Cassandra. Les options disponibles sont :
|
Pas de SSL |
Activer la vérification du nom d'hôte du serveur | Indique si le pilote oblige le nom d'hôte du serveur à correspondre au nom d'hôte du certificat SSL. | |
Ssltrustedcertspath | Chemin d'accès complet au fichier .pem contenant le certificat de vérification du serveur. | |
Certificat côté client | Chemin d'accès complet au fichier .pem contenant le certificat de vérification du client. | |
Clé privée côté client | Chemin d'accès complet au fichier contenant la clé privée utilisée pour vérifier le client. | |
Mot de passe du fichier de clés | Mot de passe pour le fichier de clé privée qui est spécifié dans le champ Clé privée côté client. |
Interroger Cassandra
Un avantage de la conception Apache Cassandra est la capacité à stocker des données qui sont dénormalisées dans moins de tables. En profitant des structures de données imbriquées comme les jeux, les listes et les mappages, les transactions peuvent être simplifiées. Toutefois, Analytics ne prend pas en charge l'accès à ce type de données. En renormalisant les données contenues à l'intérieur des collections (jeux, listes et mappages) dans des tables virtuelles, le connecteur autorise les utilisateurs à interagir directement avec les données, mais laisse le stockage des données sous sa forme dénormalisée dans Cassandra.
Si une table contient des colonnes de collection, lorsque la table est interrogée pour la première fois, le connecteur crée les tables virtuelles suivantes :
- Une table de « base », qui contient les mêmes données que la vraie table à l'exception des colonnes collection.
- Une table virtuelle pour chaque colonne collection, qui développe les données imbriquées.
Les tables virtuelles font référence aux données dans la table réelle, permettant au connecteur d'accéder aux données dénormalisées. En interrogeant les tables virtuelles, vous pouvez avoir accès au contenu des collections Cassandra via ODBC.
La table de base et les tables virtuelles apparaissent sous forme de tables supplémentaires dans la liste des tables existantes dans la base de données. La table de base utilise le même nom que la table réelle qu'elle représente. Les tables virtuelles qui représentent les collections sont nommées à l'aide du nom de la table réelle, d'un séparateur (_vt_ par défaut) et du nom de la colonne.
Exemple
TableExemple est une table de base de données Cassandra contenant une colonne de clé primaire nombre entier pk_int, une colonne de liste, une colonne de mappage et une colonne définie (nommée StringSet).
Table source avec des collections
pk_int | Liste | Map | StringSet |
---|---|---|---|
1 | ["1","2","3"] | {"S1" : "a", "S2" : "b"} | {"a", "b", "c"} |
3 | ["100","101","102","105"] | {"S1" : "t"} | {"a","e"} |
Le connecteur génère plusieurs tables virtuelles pour représenter cette table unique. La première table virtuelle est la table de base :
Table de base
pk_int |
---|
1 |
3 |
La table de base contient les mêmes données que la table de la base de données d'origine à l'exception des collections, qui sont omises de cette table et qui sont développées dans d'autres tables virtuelles.
Les tables suivantes affichent les tables virtuelles qui re-normalisent les données des colonnes Liste, Mappage et StringSet :
Liste
pk_int | List#index | List#value |
---|---|---|
1 | 0 | 1 |
1 | 1 | 2 |
1 | 2 | 3 |
3 | 0 | 100 |
3 | 1 | 101 |
3 | 2 | 102 |
3 | 3 | 105 |
Map
pk_int | Map#key | Map#value |
---|---|---|
1 | S1 | a |
1 | S2 | Md(s) |
3 | S1 | T |
StringSet
pk_int | StringSet#value |
---|---|
1 | a |
1 | Md(s) |
1 | c |
3 | a |
3 | e |
Les colonnes de clé étrangère dans les tables virtuelles référencent les colonnes de clé primaires dans la table réelle, et indiquent à quelle ligne de la table réelle correspond la table virtuelle. Les colonnes portant des noms se terminant par #index ou #key indiquent la position des données dans la liste ou dans le mappage d'origine. Les colonnes portant des noms se terminant par #value contiennent les données développées de la collection.
Mises à jour du connecteur de données
Lorsque vous mettez à niveau Analytics ou Agent Robots, vous devez tester tous vos scripts qui importent des données à l'aide de l'un des connecteurs de données Analytics (commande ACCESSDATA).
Il est possible que des modifications apportées par des sources de données tierces ou des fournisseurs de pilotes ODBC aient nécessité la mise à jour d'un ou plusieurs connecteurs de données. Les connexions de données écrites sous forme de scripts peuvent avoir besoin d'être mises à jour afin de continuer à fonctionner correctement.
- Ré-exécuter l'importation La façon la plus simple de mettre à jour une connexion est d'effectuer manuellement une importation à l'aide de la fenêtre Accès aux données de la version mise à niveau d'Analytics. Copiez la commande ACCESSDATA du journal et utilisez-la pour mettre à jour votre script.
Remarque
Avant de vous connecter à une source de données et de réexécuter l'importation, effacez le cache du connecteur pour vider le jeu existant de noms de tables.
Dans l'onglet Connexions existantes de la fenêtre Accès aux données, à côté du nom du connecteur, sélectionnez
> Effacer le cache.
- Mettre à jour les spécifications des champs Vous pouvez également avoir besoin de mettre à jour les spécifications des champs dans le corps du script pour les aligner avec les modifications du schéma de table dans la source de données ou le pilote ODBC. Les modifications possibles comprennent les noms des champs, les types de données des champs et les longueurs de champ et d'enregistrement.
- Vérifier les résultats des filtrages Vous devez également vérifier les résultats des filtrages que vous appliquez dans le cadre de l'importation de données. Confirmez que le filtrage des importations inclut et exclut correctement les enregistrements.
Modifications apportées au connecteur de données Apache Cassandra
Les modifications spécifiques apportées au connecteur de données Apache Cassandra sont énumérées ci-dessous.
Analytics Version | Modification |
---|---|
14.2 |
Le connecteur ne prend plus en charge la connexion avec Apache Cassandra 2.0. Les connexions peuvent être effectuées avec Apache Cassandra 2.1, 2.2, et 3.0. |