Agrupación de registros en clústeres

La agrupación de registros en clústeres agrupa los registros de una tabla según los valores similares en uno o más campos numéricos. Los valores similares son aquellos que son cercanos entre sí en el contexto del conjunto de datos completo. Estos valores similares representan clústeres que, una vez identificados, revelan patrones en los datos.

Diferencia entre la agrupación en clústeres y otros comandos de agrupación de Analytics

La agrupación en clústeres se diferencia de otros comandos de agrupación de Analytics:

  • La agrupación en clústeres no requiere la agrupación por valores exactos ni estrados predefinidos con límites numéricos estrictos. Por el contrario, la agrupación en clústeres agrupa los datos según los valores numéricos similares; es decir, valores cercanos entre sí.
  • La agrupación en clústeres no requiere categorías de datos preexistentes.
  • La agrupación en clústeres por más de un campo envía resultados que no están anidados (no son jerárquicos).

Cómo funciona el algoritmo de agrupación en clústeres

La agrupación en clústeres de Analytics utiliza el algoritmo de Agrupamiento con K-Means, que es un algoritmo de aprendizaje automático muy conocido. Puede encontrar una descripción detallada de Agrupamiento con K-means en Internet.

A continuación, se incluye un resumen del algoritmo.

Elección de la cantidad de clústeres (Valor K)

Determinar la cantidad óptima de clústeres que se deben utilizar al agrupar datos en clústeres puede llevar un poco de tiempo y experimentación. No existe una respuesta exacta para un conjunto de datos determinado.

Elección de los campos para hacer clústeres

La agrupación en clústeres le permite descubrir agrupamientos orgánicos en los datos que tal vez no sepa que existen. Puede crear clústeres de varios campos numéricos. En este sentido, la agrupación en clústeres es exploratoria, y es un ejemplo de aprendizaje automático sin supervisión.

Sin embargo, para que los clústeres de salida tengan sentido, es necesario que comprenda la relación que existe entre los campos que selecciona para la agrupación en clústeres.

¿Puede utilizar la agrupación en clústeres en campos de caracteres o de fechahora?

En general, no se puede usar la agrupación en clústeres en campos de caracteres o de fechahora. El algoritmo de agrupación en clústeres acepta únicamente números y realiza cálculos con los números (distancia euclídea, media).

Evaluación de los clústeres de salida

El algoritmo de agrupación en clústers siempre generará una tabla con la cantidad específica de clústeres. Cada registro de la tabla de salida se encontrará en un clúster.

En este punto, necesita evaluar si alguno de los clústeres tiene significado o sentido para el análisis. Solo porque el algoritmo agrupe registros en un clúster, no necesariamente significa que la agrupación es significativa.

Dos características que puede evaluar son la coherencia del clúster y el tamaño del clúster.

Consejo

La manera más sencilla de evaluar rápidamente la naturaleza de los clústeres de la salida consiste en graficar la tabla de salida de clústeres como un diagrama de dispersión con una herramienta de generación de reportes, que asigne un color a cada clúster.

Pasos

Especificar ajustes para el algoritmo de agrupación en clústeres

  1. Abra la tabla con los datos que desea agrupar en clústeres.
  2. Desde el menú principal de Analytics, seleccione Aprendizaje automático > Agrupamiento.
  3. En Cantidad de clústeres (Valor K), especifique la cantidad de clústeres que desea utilizar para agrupar los datos.
  4. En Cantidad máxima de iteraciones, especifique el límite superior para la cantidad de iteraciones que realiza el algoritmo de agrupación en clústeres.
  5. En Cantidad de inicializaciones, especifique la cantidad de veces que se debe generar un conjunto inicial de centroides aleatorios.
  6. Opcional. Seleccione Semilla e introduzca un número.

Especificar un método de preprocesamiento de los datos

En la lista desplegable Preprocesamiento, seleccione el método para preprocesar los datos antes de agruparlos en clústeres:

Estandarizar Centre los valores de campos clave alrededor del cero (0) y escale los valores a la varianza de unidad al calcular los clústeres
Escalar a la varianza de la unidad Escale los valores de campo clave a la varianza de unidad al calcular los clústeres, pero sin centrar los valores alrededor del cero (0)
Ninguno Use los valores de campo clave sin procesar, sin escalar, al calcular los clústeres

Seleccionar campos

  1. Desde la lista Agrupar por, seleccione uno o más campos clave a fin de usarlos para agrupar los registros de la tabla en clústeres.

    Los campos clave deben ser numéricos.

  2. Opcional. Desde la lista Otros campos, seleccione uno o más campos adicionales para incluirlos en la tabla de salida.

Consejo

Puede presionar Ctrl+clic para seleccionar varios campos no adyacentes, y Mayús+clic para seleccionar varios campos adyacentes.

Finalizar la entrada de comandos

  1. Si hay registros en la vista principal que desee excluir del procesamiento, introduzca una condición en el cuadro de texto Si, o haga clic en Si para crear un enunciado IF usando Generador de expresiones.

    Nota

    La condición IF se evalúa únicamente con los registros que quedan en una tabla después de aplicar las opciones de alcance (First, Next y While).

    El enunciado IF considera todos los registros en la vista principal y filtra los que no cumplan la condición especificada.

  2. En el cuadro de texto En, especifique el nombre de la tabla de salida.
  3. Opcional. En la ficha Más:
    1. Para especificar que se procese solo un subconjunto de registros, seleccione una de las opciones del panel Alcance.
    2. Seleccione Utilizar la tabla de salida si desea que la tabla de salida se abra automáticamente.
  4. Haga clic en Aceptar.
Ayuda de Analytics 14.1