Mise en cluster des données

La mise en cluster regroupe les enregistrements dans une table selon des valeurs similaires dans un ou plusieurs champs clés numériques. Des valeurs similaires sont des valeurs qui sont proches ou proches les unes des autres dans le contexte de l'ensemble du jeu de données. Ces valeurs similaires représentent des clusters qui, une fois identifiés, révèlent des tendances dans les données.

En quoi la mise en cluster diffère-t-elle des autres commandes de regroupement Analytics ?

La mise en cluster diffère des autres commandes de regroupement Analytics dû aux éléments suivants :

  • La mise en cluster ne nécessite pas de regroupement sur des valeurs exactes ou des couches prédéfinies avec des limites numériques dures. Au lieu de cela, la mise en cluster regroupe des données basées sur des valeurs numériques similaires, c'est-à-dire des valeurs proches les unes des autres.
  • La mise en cluster ne nécessite pas de catégories de données préexistantes.
  • La mise en cluster basée sur plusieurs champs produit des résultats qui ne sont pas imbriqués (non hiérarchiques).

Fonctionnement de l'algorithme de mise en cluster

Dans Analytics, la mise en cluster utilise l'algorithme de partitionnement de k-moyennes, qui est un algorithme de Machine Learning répandu. Vous pouvez trouver des descriptions détaillées du partitionnement en k-moyennes sur Internet.

Un résumé de l'algorithme est présenté ci-dessous.

Choix du nombre de clusters (valeur K)

Déterminer le nombre optimal de clusters à utiliser lors de la mise en cluster des données peut nécessiter des tests et des expériences pratiques. Pour un jeu de données donné, il n'y a pas de réponse exacte.

Choix des champs sur lesquels porte la mise en cluster

La mise en cluster vous permet de découvrir des regroupements organiques dans des données dont vous ne connaissez peut-être pas l'existence. Vous êtes libre de créer des clusters basés sur plusieurs champs numériques. En ce sens, la mise en clusters est exploratoire et constitue un exemple de Machine Learning non supervisé.

Toutefois, pour comprendre les clusters de sortie, vous devez comprendre la relation entre les champs que vous sélectionnez pour la mise en cluster.

Puis-je effectuer un cluster sur des champs de caractères ou DateHeure ?

En règle générale, vous ne pouvez pas former de cluster sur des champs caractère ou DateHeure. L'algorithme de mise en cluster n'accepte que les nombres, et il effectue des calculs avec les nombres (distance euclidienne, moyenne).

Évaluation des clusters de sortie

L'algorithme de mise en cluster produira toujours un tableau avec le nombre spécifié de clusters. Chaque enregistrement de la table de sortie se trouvera dans un cluster.

À ce stade, vous devez évaluer si l'un ou l'autre de ces clusters a une importance ou une signification analytique. Ce n'est pas parce que l'algorithme regroupe les enregistrements dans un cluster que le regroupement est significatif.

Deux caractéristiques que vous pouvez évaluer sont la cohérence et la taille des grappes.

Astuce

La représentation graphique de la table de sortie du cluster sous la forme d'un graphique en nuage de points dans un outil de création de rapports, avec une couleur différente pour chaque cluster, est le moyen le plus simple d'évaluer rapidement la nature des clusters de sortie.

Étapes

Spécifier les paramètres de l'algorithme de mise en cluster

  1. Ouvrez la table contenant les données que vous souhaitez mettre en cluster.
  2. Dans le menu principal Analytics, sélectionnez Machine Learning > Cluster.
  3. Dans Nombre de clusters (valeur K), spécifiez le nombre de clusters à utiliser pour regrouper les données.
  4. Dans Nombre maximum d'itérations, spécifiez une limite supérieure pour le nombre d'itérations effectuées par l'algorithme de mise en cluster.
  5. Dans Nombre d'initialisations, spécifiez le nombre de fois que vous souhaitez générer un ensemble initial de centroïdes aléatoires.
  6. Facultatif. Sélectionnez Valeur de départ, puis saisissez un nombre.

Spécifier une méthode de prétraitement des données

Dans la liste déroulante Prétraitement, sélectionnez la méthode de prétraitement des données avant de les mettre en cluster :

Standardiser Centrer les valeurs des champs clés autour de zéro (0) et les mettre à l'échelle en fonction de l'écart en unité lors du calcul des clusters
Mettre à l'échelle de l'écart en unité Mettre à l'échelle les valeurs des champs clés en fonction de l'écart en unité lors du calcul des clusters, mais ne pas centrer les valeurs autour de zéro (0)
Aucun Utiliser les valeurs brutes des champs clés, non mises à l'échelle, lors du calcul des clusters

Sélectionner les champs

  1. Dans la liste Cluster sur, sélectionnez un ou plusieurs champs clés à utiliser pour mettre en cluster les enregistrements dans la table.

    Les champs clés doivent être de type numérique

  2. Facultatif. Dans la liste Autres champs, sélectionnez un ou plusieurs champs à inclure dans la table de sortie.

Astuce

Vous pouvez appuyer sur Ctrl tout en cliquant pour sélectionner plusieurs champs non adjacents et sur Maj tout en cliquant pour sélectionner plusieurs champs adjacents.

Finaliser les entrées des commandes

  1. Si vous souhaitez exclure du traitement certains enregistrements de la vue en cours, saisissez une condition dans la zone de texte Si, ou cliquez sur Si pour créer une instruction IF à l'aide du Générateur d'expression.

    Remarque

    La condition Si est évaluée uniquement par rapport aux enregistrements restant dans une table après application des options relevant du champ d'application (Premier, Suivant, Tant que).

    L'instruction IF prend en compte tous les enregistrements de la vue et exclue ceux qui ne correspondent pas à la condition spécifiée.

  2. Dans la zone de texte À, indiquez le nom de la table de sortie.
  3. Facultatif. Sur l'onglet Plus :
    1. Pour indiquer que seul un sous-ensemble d'enregistrements est traité, sélectionnez une des options dans le panneau Étendue.
    2. Sélectionnez Utiliser la table de sortie pour que la table de sortie s'ouvre automatiquement.
  4. Cliquez sur OK.
Aide d'Analytics 14.1