Identificación de los valores atípicos

Utilice la función valores atípicos de Analytics para identificar los registros que se encuentran fuera de lo habitual y podrían requerir mayor escrutinio.

¿Qué son los valores atípicos?

Los valores atípicos son registros con importes numéricos que difieren de manera significativa de los importes numéricos de los registros con los cuales están agrupados.

Ejemplo de un valor atípico en un grupo

En un archivo de cuentas por pagar, las facturas de una compañía en particular suelen ir de $500 a $1.000. Sin embargo, hay una factura por $8.500.

Nota

Un registro puede ser un valor atípico debido a una razón legítima. En general, es necesario examinar de modo más exhaustivo los valores atípicos que Analytics identifica para determinar si realmente existe algún problema.

La agrupación de registros es opcional

Al examinar los datos de los valores atípicos, no es necesario agrupar los registros. Es posible que esté interesado en encontrar valores atípicos en una tabla completa en lugar de hacerlo solo en grupos específicos.

Ejemplo de valores atípicos en un conjunto completo de registros

En un archivo de cuentas por pagar, todo el conjunto de facturas va de $40 a $5.000. Sin embargo, hay tres facturas que superan el valor de $20.000.

¿Cómo se identifican los valores atípicos?

Para cada grupo de registros, o para un conjunto completo de registros, Analytics utiliza la desviación estándar de un campo numérico específico o un múltiplo de la desviación estándar para establecer los límites superior e inferior de los valores atípicos.

Todos los registros con un valor en el campo numérico que sea superior al límite superior, o inferior al límite inferior, se consideran valores atípicos y se incluyen en los resultados de la salida.

La desviación estándar es una medida de la dispersión de un conjunto de datos; es decir, cuán dispersos están los valores. El cálculo de valores atípicos utiliza la desviación estándar de la población.

Identificación de los valores atípicos para un conjunto de números

Usted desea identificar todos los valores atípicos del siguiente conjunto de números:

-3,  -3,  -1,  2,  3,  5,  6,  6,  8,  11

El promedio (media) de los números es 3,40. El promedio se usa para calcular la desviación estándar del conjunto: 4,45.

El promedio ±1 desviación estándar

En el primer ejemplo, utiliza el promedio ±1 desviación estándar para establecer los límites superior e inferior del valor atípico. Se identifican cuatro valores como valores atípicos.

Promedio ±1,5 desviación estándar

En el segundo ejemplo, utiliza el promedio ±1,5 desviación estándar para establecer los límites superior e inferior del valor atípico. Ahora, solo se identifica un valor como atípico.

Posicionamiento de los límites de los valores atípicos

Puede colocar los límites de los valores atípicos donde considere que es adecuado o puede probar diferentes posiciones y comparar los resultados.

Para ubicar los límites, especifica un múltiplo positivo de la desviación estándar del campo de valor atípico: 0,5; 1; 1,5; etc. Por ejemplo, si especifica un múltiplo de 1,5, los límites de valor atípico son 1,5 desviaciones estándar por encima o por debajo de la media o mediana de los valores del campo de valores atípicos.

Para el mismo conjunto de datos, a medida que incrementa el múltiplo de la desviación estándar, reduce la cantidad de valores atípicos en los resultados que se obtienen.

La distribución de los datos

Los valores de un conjunto de datos numéricos se suelen distribuir a lo largo de un rango del más pequeño al más elevado. En una distribución normal, los valores se distribuyen de manera uniforme alrededor del punto central de los datos, lo que se grafica con una curva en forma de campana. A menudo, el punto central se define como el promedio o la media de los valores, pero también podría ser la mediana o la moda.

Pautas

Al especificar los valores de la función de valores atípicos, debe tener en cuenta la naturaleza de los datos que se están analizando:

Naturaleza de los datos Orientación para el ajuste
Los valores están agrupados, con un rango pequeño Utilice un múltiplo de desviación estándar menor. Pruebe comenzar con 1. Utilice múltiplos decimales, como 1,25, para realizar ajustes precisos.
Los valores están dispersos, con un rango más amplio Utilice un múltiplo de desviación estándar mayor. Pruebe comenzar con 3.
Los datos están sesgados, con un pequeño porcentaje de valores grandes o pequeños si se los compara con el resto de los datos Utilice Mediana, en lugar de Promedio, como el método para calcular el punto central de los valores que está examinando.

Ajustes según los resultados de la salida

  • Demasiados resultados aumente el múltiplo de las desviaciones estándar
  • Muy pocos resultados o ningún resultado reduzca el múltiplo de las desviaciones estándar

Recuerde que puede utilizar múltiplos decimales y múltiplos inferiores a 1. Por ejemplo: 0,75.

Pasos

  1. Abra la tabla que desea poner a prueba para determinar los valores atípicos.
  2. Desde el menú principal de Analytics, seleccione Analizar > Valores atípicos.
  3. En Método, seleccione el método para calcular el punto central de los valores del campo numérico que está examinando:
    • Promedio
    • Mediana
  4. En Cantidad de veces de desviación estándar, especifique un múltiplo de la desviación estándar para usarlo para los límites de los valores atípicos.

    Puede especificar un decimal o entero positivo (0,5; 1; 1,5; 2 . . . )

  5. Realice una de las siguientes acciones:
    • Desde la lista de Claves primarias, seleccione uno o más campos clave a fin de usarlos para agrupar los registros de la tabla.

      Consejo

      Puede presionar Ctrl+clic para seleccionar varios campos no adyacentes y Mayús+clic para seleccionar varios campos adyacentes.

    • Seleccione Sin clave para identificar los valores atípicos de toda la tabla en lugar de hacerlo dentro de grupos específicos.
  6. Desde la lista En el campo, seleccione el campo numérico que se debe examinar para buscar los valores atípicos ("el campo de valor atípico").
  7. Opcional. Desde la lista Otros campos, seleccione uno o más campos adicionales para incluirlos en la tabla de salida.

    Nota

    Los campos clave y el campo de valores atípicos se incluyen automáticamente en la tabla de salida y no es necesario seleccionarlos.

  8. Si hay registros en la vista principal que desee excluir del procesamiento, introduzca una condición en el cuadro de texto Si, o haga clic en Si para crear un enunciado IF usando Generador de expresiones.

    Nota

    La condición IF se evalúa únicamente con los registros que quedan en una tabla después de aplicar las opciones de alcance (First, Next y While).

    El enunciado IF considera todos los registros en la vista principal y filtra los que no cumplan la condición especificada.

  9. Realice una de las siguientes acciones:
    1. En el cuadro de texto En, especifique el nombre de la tabla de salida.
    2. Seleccione Pantalla para enviar los resultados al área de visualización de Analytics.
  10. Si corresponde, quite la selección de Preordenar.

    Nota

    A continuación, encontrará las indicaciones.

  11. En la ficha Más:
    1. Opcional. Para especificar que solo un subconjunto de registros sean procesados, seleccione una de las opciones del panel Alcance.
    2. Opcional. Seleccione Utilizar la tabla de salida si desea que la tabla de salida se abra automáticamente.
    3. Haga clic en Aceptar.

Opciones del cuadro de diálogo Valores atípicos

Las tablas que figuran a continuación proporcionan información detallada acerca de las opciones del cuadro de diálogo Valores atípicos.

Ficha Principal

Opciones: Cuadro de diálogo Valores atípicos Descripción
Promedio

Mediana

El método que se utiliza para calcular el punto central de los valores del campo de valor atípico.
  • Promedio use el promedio (media) de los valores del campo
  • Mediana use la mediana de los valores del campo

El punto central se utiliza para calcular la desviación estándar de los valores del campo de valor atípico.

Nota

Si selecciona Mediana, el campo de valor atípico debe estar ordenado. Seleccione Preordenar si el campo de valor atípico aún no está ordenado.

Consejo

Si los datos que usted está examinando en busca de valores atípicos están significativamente sesgados, Mediana puede generar resultados más representativos del conjunto de los datos.

Cantidad de veces de desviación estándar En el campo de valor atípico, la cantidad de desviaciones estándar que hay entre la media o la mediana y los límites de valores atípicos superior e inferior. Puede especificar un decimal o entero positivo (0,5; 1; 1,5; 2 . . . )

Por ejemplo, si especifica 2 establece lo siguiente para cada grupo de campo clave o para el campo en su conjunto:

  • un límite de valor atípico superior 2 desviaciones estándar más elevado que la media o la mediana
  • un límite inferior de valor atípico equivalente a 2 desviaciones estándar menos que la media o la mediana

Todos los valores del campo de valor atípico que superen un límite superior o sean inferiores a un límite inferior se incluyen en los resultados de la salida como valores atípicos.

Nota

Para el mismo conjunto de datos, a medida que incrementa la cantidad de desviaciones estándar, reduce la cantidad de valores atípicos en los resultados que se obtienen.

Claves primarias

opcional

El o los campos que se deben usar para agrupar los datos de la tabla.

Para cada grupo de campo clave, se calcula una desviación estándar de los valores numéricos del grupo del campo de valor atípico. La desviación estándar del grupo se utiliza como la base para identificar los valores atípicos del grupo.

Los campos clave pueden ser de caracteres, numéricos o de fechahora. Los campos pueden ser cualquier combinación de tipos de datos.

Si selecciona más de un campo, creó grupos anidados. El anidamiento respeta el orden en el que usted selecciona los campos.

Nota

El o los campos clave deben estar ordenados. Utilice Preordenar si uno o más campos aún no están ordenados.

Sin clave

opcional

No agrupe los datos de la tabla.

Se calcula una desviación estándar para el campo de valor atípico en su conjunto. La desviación estándar del campo se utiliza como la base para identificar los valores atípicos.

En el campo

("el campo de valor atípico")

El campo numérico que se debe examinar para encontrar los valores atípicos. Usted puede examinar solo un campo por vez.

Si selecciona un campo clave, los valores atípicos se identifican a nivel del grupo. Si especifica Sin clave, los valores atípicos se identifican a nivel del campo.

Otros campos

opcional

Uno o más campos adicionales para incluir en la salida.

Nota

Los campos clave y el campo de valores atípicos se incluyen automáticamente en la tabla de salida y no es necesario seleccionarlos.

Si

opcional

Le permite crear una condición para excluir registros del procesamiento.

Puede introducir una condición en el cuadro de texto Si o hacer clic en Si para crear un enunciado IF utilizando el Generador de expresiones.

En

opcional

Especifica el nombre y la ubicación de la tabla de salida.
  • Para guardar la tabla de salida en la carpeta del proyecto de Analytics, ingrese solo el nombre de la tabla.
  • Para guardar la tabla de salida en una ubicación diferente a la carpeta del proyecto, especifique una ruta de acceso absoluta o relativa, o haga clic en En y navegue a una carpeta diferente.

    Por ejemplo: C:\Resultados\Salida.fil o Resultados\Salida.fil.

Independientemente del lugar en que guarde la tabla de salida, esta se agrega al proyecto abierto si ya no está en el proyecto.

Si Analytics pre-completa un nombre de tabla, puede aceptar el nombre pre-completado o cambiarlo.

Pantalla

opcional

Muestra los resultados en el área de visualización de Analytics en lugar de crear una tabla de salida.

Preordenar

opcional

Realiza una operación de ordenamiento antes de ejecutar el comando.

Si especifica PRESORT y: Ordena por:
  • Uno o más campos clave
  • Promedio
  • campo o campos clave
  • campo o campos clave, después por el campo de valores atípicos (si el campo de valores atípicos es calculado)

    Nota

    El ordenamiento de un campo de valores atípicos calculado es un requisito técnico interno de Analytics.

  • Uno o más campos clave
  • Mediana

campo o campos clave, después por el campo de valores atípicos

  • Sin clave
  • Promedio

sin ordenamiento

  • Sin clave
  • Mediana
el campo de valor atípico

Consejo

Si el o los campos adecuados de la tabla de entrada ya están ordenados, puede ahorrar tiempo de procesamiento si no selecciona Preordenar.

Ficha Más

Opciones: Cuadro de diálogo Valores atípicos Descripción
Panel de alcance Especifica qué registros se procesan:
  • Todos (predeterminado) se procesan todos los registros de la tabla de origen.
  • Primero seleccione esta opción e introduzca un número en el cuadro de texto para comenzar el procesamiento en el primer registro de la tabla principal e incluir solo el número especificado de registros.
  • Siguiente seleccione esta opción e introduzca un número en el cuadro de texto para comenzar el procesamiento en el registro actualmente seleccionado de la vista de la tabla e incluir solo el número especificado de registros.

    El número de registro real en la columna más a la izquierda debe ser seleccionado, no datos en la fila.

  • Mientras seleccione esta opción para usar un enunciado WHILE a fin de limitar el procesamiento de registros de la tabla basándose en criterios.
    • Usted puede introducir una condición en el cuadro de texto Mientras, o hacer clic en Mientras para crear un enunciado WHILE utilizando Generador de expresiones.
    • Un enunciado WHILE permite que los registros principal sean procesados solo mientras la condición especificada se evalúe como verdadera.
    • Puede utilizar la opción Mientras junto con las opciones Todos, Primero o Siguiente.

Nota

El número de registros especificados en las opciones Primero o Siguiente hace referencia tanto al orden físico como al orden indexado de los registros de una tabla y hace caso omiso de cualquier filtrado u ordenación rápida aplicados a la vista. Sin embargo, los resultados de las operaciones analíticas respetan cualquier filtrado.

Si a una vista se aplica ordenación rápida, Siguiente se comporta como Primero.

Utilizar la tabla de salida Especifica si una tabla de Analytics que contiene resultados de salida se abre automáticamente al finalizar la operación
Aceptar Ejecuta la operación.

Si aparece el mensaje de sobrescritura, seleccione la opción adecuada.

Ayuda de Analytics 14.1