Tri et indexation
Le tri et l'indexation sont deux méthodes différentes de classement séquentiel des données dans les tables. Certaines commandes Analytics nécessitent que l'entrée soit d'abord triée ou indexée. Le classement des données peut aussi s'avérer être une opération analytique utile en elle-même, en faisant ressortir des modèles et des anomalies.
| Opération | Description |
|---|---|
| Tri |
Le tri physique d'une table reclasse les données par ordre séquentiel et envoie les résultats dans une nouvelle table Analytics. |
| Indexation |
L'indexation n'a aucune influence sur l'ordre physique sous-jacent des données. En revanche, elle génère un fichier d'index distinct qui référence les enregistrements dans une table, ce qui permet d'accéder aux enregistrements dans un ordre séquentiel plutôt que physique. Les données d'une vue sont réorganisées en fonction d'un index uniquement lorsque ce dernier est actif. |
Le classement des données est une condition préalable pour les autres opérations.
Comme les ordinateurs traitent des fichiers par séquence en commençant par le premier enregistrement, le classement séquentiel des données est une condition préalable à plusieurs tests analytiques et à d'autres opérations dans Analytics. Les opérations de table multiple, comme les jonctions ou les relations, peuvent exiger le tri ou l'indexation de champs clés.
D'autres opérations et tests Analytics n'exigent pas un classement des données mais elles s'exécutent plus rapidement si elles sont triées ou indexées dans un premier temps.
Dois-je trier ou indexer ?
La décision de tri ou d'indexation peut dépendre de la tâche que vous souhaitez réaliser. Par exemple :
- Le tri peut constituer un meilleur choix pour un travail de recherche, car ce processus génère une nouvelle table pouvant servir de base à de prochaines analyses.
- L'indexation peut constituer la meilleure option pour une tâche informationnelle ou préliminaire car ce processus vous permet de basculer rapidement entre différentes représentations des données dans la table active.
Avantages et inconvénients du tri et de l'indexation
Le tableau ci-dessous compare les avantages et inconvénients du tri et de l'indexation et répertorie les opérations requérant l'un ou l'autre de ces processus comme condition préalable.
|
|
Tri |
Indexation |
|---|---|---|
|
Envoie les résultats dans une nouvelle table Analytics physiquement distincte |
Oui |
Non |
|
Réordonne physiquement les données |
Oui |
Non |
|
Vitesse de traitement |
Plus lente |
Plus rapide |
|
Espace disque requis pour le traitement |
Plus |
Moins |
|
Taille du fichier résultant |
Plus grand |
Plus petit |
|
Traitement ultérieur du fichier trié ou indexé |
Plus rapide |
Plus lente |
|
Recherche dans les champs caractère |
Plus lente |
Plus rapide |
|
Condition préalable |
|
|
L'option Ordre de tri et les séquences de tri
L'option Ordre de tri (Outils > Options > Table) indique la séquence de tri (classement) des caractères. L'option que vous indiquez définit la séquence de tri qui est utilisée lorsque vous triez ou indexez des enregistrements ou bien lorsque vous testez l'ordre séquentiel en utilisant un champ caractère.
Définition de la séquence de tri
La séquence de tri est semblable à un modèle selon lequel Analytics compare le ou les premiers caractères de chaque valeur d'un champ caractère lorsque vous triez, indexez, testez l'ordre séquentiel ou effectuez un tri express.
Le tableau ci-dessous affiche le paramètre par défaut Ordre de tri Analytics et la séquence de tri correspondante.
|
Édition Analytics |
Ordre de tri par défaut |
Séquence de tri associée |
|---|---|---|
|
Non Unicode |
Système par défaut (ASCII) |
|
|
Unicode |
Mélanger les langages (UCA) (algorithme de classement Unicode) |
|
Modification de l'ordre de tri
Vous pouvez modifier l'Ordre de tri et le définir sur un langage différent s'il correspond mieux aux données que vous analysez. Dans l'édition Unicode d'Analytics, vous pouvez également apporter cette modification commande par commande en utilisant le paramètre ISOLOCALE dans la ligne de commande ou dans un script.
Modification d'une séquence de tri
Dans l'édition non Unicode d'Analytics, si vous sélectionnez un autre langage, vous avez la possibilité de modifier la séquence de tri associée en changeant l'ordre des caractères dans la zone de texte Ordre de tri.
Vous pouvez également créer une séquence de tri personnalisée en sélectionnant Personnalisé dans le champ Ordre de tri et en spécifiant une séquence, ou en entrant SET ORDER <TO> valeurs dans la ligne de commande ou dans un script et en spécifiant une séquence. Quels que soient les caractères que vous spécifiez, ils seront triés avant tous les autres caractères et dans la séquence indiquée. Par exemple, vous pouvez préciser que les minuscules et les majuscules sont mélangées en entrant les valeurs aAbBcC.... Indiquer le paramètre SET ORDER rétablit le paramètre par défaut de la séquence de tri.
Séquence de tri par défaut en fonction de l'ordre d'octets
La séquence de tri par défaut des langages individuels est dérivée de l'ordre d'octet de chaque caractère dans son jeu de caractères. Pour afficher l'ordre d'octet des caractères dans les jeux de caractères, utilisez la table des caractères de Windows.