Identificación de los valores atípicos
Utilice la función valores atípicos de Analytics para identificar los registros que se encuentran fuera de lo habitual y podrían requerir mayor escrutinio.
¿Qué son los valores atípicos?
Los valores atípicos son registros con importes numéricos que difieren de manera significativa de los importes numéricos de los registros con los cuales están agrupados.
Ejemplo de un valor atípico en un grupo
En un archivo de cuentas por pagar, las facturas de una compañía en particular suelen ir de $500 a $1.000. Sin embargo, hay una factura por $8.500.
Nota
Un registro puede ser un valor atípico debido a una razón legítima. En general, es necesario examinar de modo más exhaustivo los valores atípicos que Analytics identifica para determinar si realmente existe algún problema.
La agrupación de registros es opcional
Al examinar los datos de los valores atípicos, no es necesario agrupar los registros. Es posible que esté interesado en encontrar valores atípicos en una tabla completa en lugar de hacerlo solo en grupos específicos.
Ejemplo de valores atípicos en un conjunto completo de registros
En un archivo de cuentas por pagar, todo el conjunto de facturas va de $40 a $5.000. Sin embargo, hay tres facturas que superan el valor de $20.000.
¿Cómo se identifican los valores atípicos?
Para cada grupo de registros, o para un conjunto completo de registros, Analytics utiliza la desviación estándar de un campo numérico específico o un múltiplo de la desviación estándar para establecer los límites superior e inferior de los valores atípicos.
Todos los registros con un valor en el campo numérico que sea superior al límite superior, o inferior al límite inferior, se consideran valores atípicos y se incluyen en los resultados de la salida.
La desviación estándar es una medida de la dispersión de un conjunto de datos; es decir, cuán dispersos están los valores. El cálculo de valores atípicos utiliza la desviación estándar de la población.
Identificación de los valores atípicos para un conjunto de números
Usted desea identificar todos los valores atípicos del siguiente conjunto de números:
-3, -3, -1, 2, 3, 5, 6, 6, 8, 11
El promedio (media) de los números es 3,40. El promedio se usa para calcular la desviación estándar del conjunto: 4,45.
El promedio ±1 desviación estándar
En el primer ejemplo, utiliza el promedio ±1 desviación estándar para establecer los límites superior e inferior del valor atípico. Se identifican cuatro valores como valores atípicos.
Promedio ±1,5 desviación estándar
En el segundo ejemplo, utiliza el promedio ±1,5 desviación estándar para establecer los límites superior e inferior del valor atípico. Ahora, solo se identifica un valor como atípico.
Posicionamiento de los límites de los valores atípicos
Puede colocar los límites de los valores atípicos donde considere que es adecuado o puede probar diferentes posiciones y comparar los resultados.
Para ubicar los límites, especifica un múltiplo positivo de la desviación estándar del campo de valor atípico: 0,5; 1; 1,5; etc. Por ejemplo, si especifica un múltiplo de 1,5, los límites de valor atípico son 1,5 desviaciones estándar por encima o por debajo de la media o mediana de los valores del campo de valores atípicos.
Para el mismo conjunto de datos, a medida que incrementa el múltiplo de la desviación estándar, reduce la cantidad de valores atípicos en los resultados que se obtienen.
La distribución de los datos
Los valores de un conjunto de datos numéricos se suelen distribuir a lo largo de un rango del más pequeño al más elevado. En una distribución normal, los valores se distribuyen de manera uniforme alrededor del punto central de los datos, lo que se grafica con una curva en forma de campana. A menudo, el punto central se define como el promedio o la media de los valores, pero también podría ser la mediana o la moda.
Desviación estándar de una distribución normal
Si calcula la desviación estándar para un conjunto de valores normalmente distribuidos, el 68 % de los valores caen dentro de una desviación estándar de la media (±) y el 99,7 % de los valores caen dentro de tres desviaciones estándar de la media (±). Solo unos muy pocos valores superan las tres desviaciones estándar respecto de la media.
La distribución de los valores en los conjuntos de datos que analiza en Analytics con frecuencia puede estar sesgada en lugar de tener valores distribuidos normalmente. Por ejemplo, un archivo de transacciones puede tener miles de transacciones relativamente pequeñas y unas pocas transacciones grandes. Sin embargo, es posible usar una distribución normal para una simple ilustración de la forma en la que funcionan los límites de los valores atípicos en Analytics.
Tal como lo muestran los ejemplos a continuación, incrementar el múltiplo de la desviación estándar mueve los límites superior e inferior de los valores atípicos más cerca de los extremos de la curva de distribución. A medida que los límites se acercan más a los extremos, son cada vez menos los valores que caen fuera de los límites.
Límites de valores atípicos de ±2,5 desviaciones estándar respecto de la media
Los valores que superan las +2,5 desviaciones estándar respecto de la media, o son inferiores a -2,5 desviaciones estándar, se incluyen como valores atípicos en los resultados de la salida.
Límites de valores atípicos de ±3 desviaciones estándar respecto de la media
Los valores que superan las +3 desviaciones estándar respecto de la media, o son inferiores a -3 desviaciones estándar, se incluyen como valores atípicos en los resultados de la salida.
Pautas
Al especificar los valores de la función de valores atípicos, debe tener en cuenta la naturaleza de los datos que se están analizando:
Naturaleza de los datos | Orientación para el ajuste |
---|---|
Los valores están agrupados, con un rango pequeño | Utilice un múltiplo de desviación estándar menor. Pruebe comenzar con 1. Utilice múltiplos decimales, como 1,25, para realizar ajustes precisos. |
Los valores están dispersos, con un rango más amplio | Utilice un múltiplo de desviación estándar mayor. Pruebe comenzar con 3. |
Los datos están sesgados, con un pequeño porcentaje de valores grandes o pequeños si se los compara con el resto de los datos | Utilice Mediana, en lugar de Promedio, como el método para calcular el punto central de los valores que está examinando. |
Ajustes según los resultados de la salida
- Demasiados resultados aumente el múltiplo de las desviaciones estándar
- Muy pocos resultados o ningún resultado reduzca el múltiplo de las desviaciones estándar
Recuerde que puede utilizar múltiplos decimales y múltiplos inferiores a 1. Por ejemplo: 0,75.
Pasos
- Abra la tabla que desea poner a prueba para determinar los valores atípicos.
- Desde el menú principal de Analytics, seleccione Analizar > Valores atípicos.
- En Método, seleccione el método para calcular el punto central de los valores del campo numérico que está examinando:
- Promedio
- Mediana
- En Cantidad de veces de desviación estándar, especifique un múltiplo de la desviación estándar para usarlo para los límites de los valores atípicos.
Puede especificar un decimal o entero positivo (0,5; 1; 1,5; 2 . . . )
- Realice una de las siguientes acciones:
- Desde la lista de Claves primarias, seleccione uno o más campos clave a fin de usarlos para agrupar los registros de la tabla.
Consejo
Puede presionar Ctrl+clic para seleccionar varios campos no adyacentes y Mayús+clic para seleccionar varios campos adyacentes.
- Seleccione Sin clave para identificar los valores atípicos de toda la tabla en lugar de hacerlo dentro de grupos específicos.
- Desde la lista de Claves primarias, seleccione uno o más campos clave a fin de usarlos para agrupar los registros de la tabla.
- Desde la lista En el campo, seleccione el campo numérico que se debe examinar para buscar los valores atípicos ("el campo de valor atípico").
- Opcional. Desde la lista Otros campos, seleccione uno o más campos adicionales para incluirlos en la tabla de salida.
Nota
Los campos clave y el campo de valores atípicos se incluyen automáticamente en la tabla de salida y no es necesario seleccionarlos.
-
Si hay registros en la vista principal que desee excluir del procesamiento, introduzca una condición en el cuadro de texto Si, o haga clic en Si para crear un enunciado IF usando Generador de expresiones.
Nota
La condición IF se evalúa únicamente con los registros que quedan en una tabla después de aplicar las opciones de alcance (First, Next y While).
El enunciado IF considera todos los registros en la vista principal y filtra los que no cumplan la condición especificada.
- Realice una de las siguientes acciones:
- En el cuadro de texto En, especifique el nombre de la tabla de salida.
- Seleccione Pantalla para enviar los resultados al área de visualización de Analytics.
- Si corresponde, quite la selección de Preordenar.
Nota
A continuación, encontrará las indicaciones.
- En la ficha Más:
- Opcional. Para especificar que solo un subconjunto de registros sean procesados, seleccione una de las opciones del panel Alcance.
- Opcional. Seleccione Utilizar la tabla de salida si desea que la tabla de salida se abra automáticamente.
- Haga clic en Aceptar.
Opciones del cuadro de diálogo Valores atípicos
Las tablas que figuran a continuación proporcionan información detallada acerca de las opciones del cuadro de diálogo Valores atípicos.
Ficha Principal
Opciones: Cuadro de diálogo Valores atípicos | Descripción | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Promedio Mediana |
El método que se utiliza para calcular el punto central de los valores del campo de valor atípico.
El punto central se utiliza para calcular la desviación estándar de los valores del campo de valor atípico. Nota Si selecciona Mediana, el campo de valor atípico debe estar ordenado. Seleccione Preordenar si el campo de valor atípico aún no está ordenado. Consejo Si los datos que usted está examinando en busca de valores atípicos están significativamente sesgados, Mediana puede generar resultados más representativos del conjunto de los datos. |
||||||||||
Cantidad de veces de desviación estándar | En el campo de valor atípico, la cantidad de desviaciones estándar que hay entre la media o la mediana y los límites de valores atípicos superior e inferior. Puede especificar un decimal o entero positivo (0,5; 1; 1,5; 2 . . . ) Por ejemplo, si especifica 2 establece lo siguiente para cada grupo de campo clave o para el campo en su conjunto:
Todos los valores del campo de valor atípico que superen un límite superior o sean inferiores a un límite inferior se incluyen en los resultados de la salida como valores atípicos. Nota Para el mismo conjunto de datos, a medida que incrementa la cantidad de desviaciones estándar, reduce la cantidad de valores atípicos en los resultados que se obtienen. |
||||||||||
Claves primarias opcional |
El o los campos que se deben usar para agrupar los datos de la tabla. Para cada grupo de campo clave, se calcula una desviación estándar de los valores numéricos del grupo del campo de valor atípico. La desviación estándar del grupo se utiliza como la base para identificar los valores atípicos del grupo. Los campos clave pueden ser de caracteres, numéricos o de fechahora. Los campos pueden ser cualquier combinación de tipos de datos. Si selecciona más de un campo, creó grupos anidados. El anidamiento respeta el orden en el que usted selecciona los campos. Nota El o los campos clave deben estar ordenados. Utilice Preordenar si uno o más campos aún no están ordenados. |
||||||||||
Sin clave opcional |
No agrupe los datos de la tabla. Se calcula una desviación estándar para el campo de valor atípico en su conjunto. La desviación estándar del campo se utiliza como la base para identificar los valores atípicos. |
||||||||||
En el campo ("el campo de valor atípico") |
El campo numérico que se debe examinar para encontrar los valores atípicos. Usted puede examinar solo un campo por vez. Si selecciona un campo clave, los valores atípicos se identifican a nivel del grupo. Si especifica Sin clave, los valores atípicos se identifican a nivel del campo. |
||||||||||
Otros campos opcional |
Uno o más campos adicionales para incluir en la salida. Nota Los campos clave y el campo de valores atípicos se incluyen automáticamente en la tabla de salida y no es necesario seleccionarlos. |
||||||||||
Si opcional |
Le permite crear una condición para excluir registros del procesamiento. Puede introducir una condición en el cuadro de texto Si o hacer clic en Si para crear un enunciado IF utilizando el Generador de expresiones. |
||||||||||
En opcional |
Especifica el nombre y la ubicación de la tabla de salida.
Independientemente del lugar en que guarde la tabla de salida, esta se agrega al proyecto abierto si ya no está en el proyecto. Si Analytics pre-completa un nombre de tabla, puede aceptar el nombre pre-completado o cambiarlo. |
||||||||||
Pantalla opcional |
Muestra los resultados en el área de visualización de Analytics en lugar de crear una tabla de salida. | ||||||||||
Preordenar opcional |
Realiza una operación de ordenamiento antes de ejecutar el comando.
Consejo Si el o los campos adecuados de la tabla de entrada ya están ordenados, puede ahorrar tiempo de procesamiento si no selecciona Preordenar. |
Ficha Más
Opciones: Cuadro de diálogo Valores atípicos | Descripción |
---|---|
Panel de alcance | Especifica qué registros se procesan:
Nota El número de registros especificados en las opciones Primero o Siguiente hace referencia tanto al orden físico como al orden indexado de los registros de una tabla y hace caso omiso de cualquier filtrado u ordenación rápida aplicados a la vista. Sin embargo, los resultados de las operaciones analíticas respetan cualquier filtrado. Si a una vista se aplica ordenación rápida, Siguiente se comporta como Primero. |
Utilizar la tabla de salida | Especifica si una tabla de Analytics que contiene resultados de salida se abre automáticamente al finalizar la operación |
Aceptar | Ejecuta la operación. Si aparece el mensaje de sobrescritura, seleccione la opción adecuada. |