Agrupación de registros en clústeres

La agrupación de registros en clústeres agrupa los registros de una tabla según los valores similares en uno o más campos numéricos. Los valores similares son aquellos que son cercanos entre sí en el contexto del conjunto de datos completo. Estos valores similares representan clústeres que, una vez identificados, revelan patrones en los datos.

Diferencia entre la agrupación en clústeres y otros comandos de agrupación de Analytics

La agrupación en clústeres se diferencia de otros comandos de agrupación de Analytics:

La agrupación en clústeres no requiere la agrupación por valores exactos ni estrados predefinidos con límites numéricos estrictos. Por el contrario, la agrupación en clústeres agrupa los datos según los valores numéricos similares; es decir, valores cercanos entre sí.
La agrupación en clústeres no requiere categorías de datos preexistentes.
La agrupación en clústeres por más de un campo envía resultados que no están anidados (no son jerárquicos).

Cómo funciona el algoritmo de agrupación en clústeres

La agrupación en clústeres de Analytics utiliza el algoritmo de Agrupamiento con K-Means, que es un algoritmo de aprendizaje automático muy conocido. Puede encontrar una descripción detallada de Agrupamiento con K-means en Internet.

A continuación, se incluye un resumen del algoritmo.

El algoritmo de Agrupamiento con K-Means utiliza un proceso de repetición para optimizar los clústeres:

1	Especifique la cantidad de clústeres	Decida cuántos clústeres o grupos se deben utilizar para agrupar un conjunto de datos. "K" representa la cantidad de clústeres que usted especifica. Los puntos de datos del conjunto de datos pueden ser valores de un campo numérico único o una combinación de valores que el algoritmo calcula en base a varios campos numéricos.
2	Inicialice los centroides del clúster	Genere un conjunto de puntos de datos aleatorios para usarlos como centroides iniciales, o puntos centrales, en el cálculo de clústeres. La cantidad de centroides que se generen equivale a la cantidad de clústeres que especificó.
3	Asigne cada punto de datos al centroide más cercano	Encuentre la distancia menor desde cada punto de datos a un centroide. Las comparaciones de distancia utilizan la distancia euclídea al cuadrado. Asigne cada punto de datos al centroide más cercano. Todos los puntos de datos asignados a un centroide específico se convierten en un clúster.
4	Vuelva a calcular los centroides	Calcule el promedio o la media de todos los puntos de datos de un clúster. La media se transforma en el nuevo centroide de ese clúster.
5	Repita	Repita los pasos 3 y 4: Vuelva a calcular la distancia menor desde cada punto de datos a un centroide. Asigne cada punto de datos al centroide más cercano, en algunos casos esto obligará a reasignar puntos de datos a otros clústeres. Vuelva a calcular los centroides. Continúe repitiendo el proceso hasta que no se reasignen más puntos de datos o hasta llegar a una cantidad máxima determinada de repeticiones. Con cada repetición, la conformación de los clústeres se vuelve más coherente. Es decir, los puntos de datos de un clúster están más cercanos.

Elección de la cantidad de clústeres (Valor K)

Determinar la cantidad óptima de clústeres que se deben utilizar al agrupar datos en clústeres puede llevar un poco de tiempo y experimentación. No existe una respuesta exacta para un conjunto de datos determinado.

Elección de los campos para hacer clústeres

La agrupación en clústeres le permite descubrir agrupamientos orgánicos en los datos que tal vez no sepa que existen. Puede crear clústeres de varios campos numéricos. En este sentido, la agrupación en clústeres es exploratoria, y es un ejemplo de aprendizaje automático sin supervisión.

Sin embargo, para que los clústeres de salida tengan sentido, es necesario que comprenda la relación que existe entre los campos que selecciona para la agrupación en clústeres.

¿Puede utilizar la agrupación en clústeres en campos de caracteres o de fechahora?

En general, no se puede usar la agrupación en clústeres en campos de caracteres o de fechahora. El algoritmo de agrupación en clústeres acepta únicamente números y realiza cálculos con los números (distancia euclídea, media).

Datos de caracteres categóricos

Es posible que tenga datos de caracteres categóricos, como ID de ubicación, que son números. O podría usar un campo calculado para asignar categorías de caracteres a un conjunto de códigos numéricos que usted crea. Podría convertir estos datos en tipos de datos numéricos y usarlos para una agrupación en clústeres. Sin embargo, los clústeres que obtenga no serían válidos porque usted estaría haciendo cálculos matemáticos en números que representan algo que no es numérico.

Por ejemplo, si calcula una posición centroide sobre la base del promedio de una lista de ID de ubicación, obtendrá un número sin ningún significado. El cálculo se basa en la suposición no válida de que la distancia matemática entre los números de ubicación equivale a alguna distancia mensurable del mundo real.

Si consideramos la distancia física, no tiene sentido decir que la distancia entre la ubicación 1 y la 9 es el doble que la distancia entre la ubicación 1 y la 5. Las ubicaciones 1 y 9 podrían estar una junto a la otra, y la ubicación 5 podría estar a kilómetros de distancia.

Para un análisis de agrupación en clústeres de ubicaciones y distancias físicas, los datos válidos que se deben usar son las coordenadas geográficas.

Datos categóricos que representan una escala

Puede agrupar en clústeres los datos categóricos que representan una escala; por ejemplo, una calificación de Mal a Excelente, con códigos numéricos correspondientes de 1 a 5. En este caso, el promedio de los códigos numéricos tendrá sentido.

Datos de fechahora

Puede utilizar las funciones de Analytics para convertir datos de fechahora en datos numéricos. Sin embargo, los datos numéricos que obtenga no son continuos y esto es un problema para el análisis por agrupación en clústeres, que asume que los conjuntos de números son continuos.

Por ejemplo, los siguientes tres números, como fechas, solo tienen una diferencia de un día. Sin embargo, como números, existe una separación o distancia considerable entre el primer número y el segundo.

20181130
20181201
20181202

Podría usar valores de fecha de serie en el análisis por agrupación en clústeres. Las fechas de serie son un conjunto continuo de números enteros que representan la cantidad de días que han transcurrido desde el 01 de enero de 1900.

Evaluación de los clústeres de salida

El algoritmo de agrupación en clústers siempre generará una tabla con la cantidad específica de clústeres. Cada registro de la tabla de salida se encontrará en un clúster.

En este punto, necesita evaluar si alguno de los clústeres tiene significado o sentido para el análisis. Solo porque el algoritmo agrupe registros en un clúster, no necesariamente significa que la agrupación es significativa.

Dos características que puede evaluar son la coherencia del clúster y el tamaño del clúster.

Consejo

La manera más sencilla de evaluar rápidamente la naturaleza de los clústeres de la salida consiste en graficar la tabla de salida de clústeres como un diagrama de dispersión con una herramienta de generación de reportes, que asigne un color a cada clúster.

Pasos

Especificar ajustes para el algoritmo de agrupación en clústeres

Abra la tabla con los datos que desea agrupar en clústeres.
Desde el menú principal de Analytics, seleccione Aprendizaje automático > Agrupamiento.
En Cantidad de clústeres (Valor K), especifique la cantidad de clústeres que desea utilizar para agrupar los datos.
En Cantidad máxima de iteraciones, especifique el límite superior para la cantidad de iteraciones que realiza el algoritmo de agrupación en clústeres.
En Cantidad de inicializaciones, especifique la cantidad de veces que se debe generar un conjunto inicial de centroides aleatorios.
Opcional. Seleccione Semilla e introduzca un número.

Especificar un método de preprocesamiento de los datos

En la lista desplegable Preprocesamiento, seleccione el método para preprocesar los datos antes de agruparlos en clústeres:

Estandarizar	Centre los valores de campos clave alrededor del cero (0) y escale los valores a la varianza de unidad al calcular los clústeres
Escalar a la varianza de la unidad	Escale los valores de campo clave a la varianza de unidad al calcular los clústeres, pero sin centrar los valores alrededor del cero (0)
Ninguno	Use los valores de campo clave sin procesar, sin escalar, al calcular los clústeres

Seleccionar campos

Desde la lista Agrupar por, seleccione uno o más campos clave a fin de usarlos para agrupar los registros de la tabla en clústeres.
Los campos clave deben ser numéricos.
Opcional. Desde la lista Otros campos, seleccione uno o más campos adicionales para incluirlos en la tabla de salida.