Comando OUTLIERS

Identifica valores atípicos estadísticos en un campo numérico. Es posible identificar los valores atípicos para el campo en su totalidad o para grupos independientes en función de los valores idénticos de uno o más campos clave de caracteres, numéricos o de fechahora.

Sintaxis

OUTLIERS {AVERAGE|MEDIAN} {PKEY campo_clave <...n>|NOKEY} ON campo_numérico <OTHER campo <...n>> NUMSTDEV número_de_desv_est <IF prueba> <TO {SCREEN|nombre_tabla}> <PRESORT> <WHILE prueba> <FIRST rango|NEXT rango> <OPEN>

Nota

No puede ejecutar el comando OUTLIERS de forma local en una tabla de servidor.

Debe especificar el nombre del comando OUTLIERS completo. No puede abreviarlo

Parámetros

Nombre Descripción
AVERAGE | MEDIAN

El método para calcular el punto central de los valores del campo_numérico (el campo valor atípico).

  • AVERAGE calcula el promedio (media) de los valores
  • MEDIAN calcula la mediana de los valores

El punto central se calcula para cualquiera de los siguientes:

  • el campo numérico en su conjunto
  • los valores numéricos de cada grupo de campo clave

Después, el punto central se utiliza para calcular la desviación estándar del campo numérico o de cada grupo.

Nota

Si usted especifica MEDIAN, campo_numérico debe estar ordenado. Utilice PRESORT si campo_numérico no está ordenado.

Consejo

Si los datos que usted está examinando en busca de valores atípicos están significativamente sesgados, MEDIAN puede generar resultados más representativos del conjunto de los datos.

PKEY campo_clave <...n> | NOKEY

Si especifica PKEY, los valores atípicos se identifican a nivel del grupo. Si usted especifica NOKEY, los valores atípicos se identifican a nivel del campo.

  • PKEY campo_clave el o los campos que se deben utilizar para agrupar los datos de la tabla

    Los campos de clave primaria pueden ser de caracteres, numéricos o de fechahora. Los diferentes campos se deben separar con espacios y pueden ser distintos tipos de datos.

    Si usted especifica más de un campo, creó grupos anidados. El anidamiento respeta el orden en el que usted especifica los campos.

    Para cada grupo de campo clave, se calcula una desviación estándar de los valores numéricos del grupo del campo_numérico. La desviación estándar del grupo se utiliza como la base para identificar los valores atípicos del grupo.

    Nota

    El o los campos clave deben estar ordenados. Utilice PRESORT si uno o más campos aún no están ordenados.

  • NOKEY no agrupe los datos de la tabla

    Se calcula una desviación estándar para el campo_numérico en su conjunto. La desviación estándar del campo se utiliza como la base para identificar los valores atípicos.

ON campo_numérico

El campo numérico que se debe examinar para encontrar los valores atípicos. Usted puede examinar solo un campo por vez.

Los valores atípicos son valores que caen fuera de los límites superior e inferior establecidos por la desviación estándar del grupo o el campo, o por un múltiplo específico de la desviación estándar.

OTHER campo <...n>

opcional

Uno o más campos adicionales para incluir en la salida.

Nota

Los campos clave y el campo de valores atípicos se incluyen automáticamente en la tabla de salida y no es necesario especificarlos usando OTHER.

NUMSTDEV número_de_desv_est

En campo_numérico, la cantidad de desviaciones estándar desde la media o la mediana hasta los límites de valores atípicos superior e inferior. Usted puede especificar un decimal o entero positivo (0,5; 1; 1,5; 2 . . . )

La fórmula para crear los límites de los valores atípicos es la siguiente:

media/mediana ± (cantidad_de_desv_est * desviación estándar)

Nota

La desviación estándar es una medida de la dispersión de un conjunto de datos; es decir, cuán dispersos están los valores. El cálculo de valores atípicos utiliza la desviación estándar de la población.

Ejemplo de límites de valores atípicos

NUMSTDEV 2

establece, para el campo_numérico en su conjunto o para cada grupo de campo clave:

  • un límite de valor atípico superior equivalente a 2 desviaciones estándar por encima de la media o la mediana

    media/mediana + (2 * DE)

  • un límite de valor atípico inferior equivalente a 2 desviaciones estándar por debajo de la media o la mediana

    media/mediana - (2 * DE)

Todos los valores que sean superiores al límite superior o inferiores al límite inferior se incluyen como valores atípicos en los resultados de la salida.

Nota

Para el mismo conjunto de datos, a medida que incrementa el valor de número_de_desv_est, probablemente se reduce la cantidad de valores atípicos que se obtienen.

IF prueba

opcional

Una expresión condicional que debe ser verdadera para procesar cada registro. El comando se ejecuta únicamente en los registros que cumplen la condición.

Nota

El parámetro IF se evalúa únicamente con los registros que quedan en la tabla después de aplicar los parámetros de alcance (WHILE, FIRST, NEXT).

TO SCREEN | nombre_tabla

opcional

El lugar al que se deben enviar los resultados del comando:

  • SCREEN muestra los resultados en el área de visualización de Analytics
  • nombre_tabla guarda los resultados en una tabla de Analytics

    Especifique el nombre_tabla como una cadena entre comillas con la extensión de archivo .FIL. Por ejemplo: TO "Salida.FIL"

    Por valor predeterminado, el archivo de datos de la tabla (.FIL) se guarda en la carpeta que contiene el proyecto de Analytics.

    Utilice una ruta de archivo absoluta o relativa para guardar el archivo de datos en una carpeta existente o una diferente:

    • TO "C:\Salida.FIL"
    • TO "Resultados\Salida.FIL"

    Nota

    Los nombres de las tablas tienen un límite de 64 caracteres alfanuméricos, sin incluir la extensión .FIL. El nombre puede incluir un guión bajo ( _ ), pero no puede incluir ningún otro carácter especial ni espacios. El nombre no puede comenzar con un número.

PRESORT

opcional

Realiza una operación de ordenamiento antes de ejecutar el comando.

Si especifica PRESORT y: Ordena por:
PKEY, AVERAGE
  • campo o campos clave
  • campo o campos clave, después por campo_numérico (si campo_numérico es calculado)

    Nota

    El ordenamiento de un campo_numérico calculado es un requisito técnico interno de Analytics

    .
PKEY, MEDIAN

campo o campos clave, después por campo_numérico

NOKEY, AVERAGE

sin ordenamiento

NOKEY, MEDIAN campo_numérico

Consejo

Si el o los campos adecuados de la tabla de entrada ya están ordenados, puede ahorrar tiempo de procesamiento si no especifica PRESORT.

Nota

No puede utilizar PRESORT dentro del comando GROUP.

WHILE prueba

opcional

Una expresión condicional que debe ser verdadera para procesar cada registro. El comando se ejecuta hasta que la condición se evalúa como falsa o hasta que se llega al final de la tabla.

Nota

Si usa WHILE junto con FIRST o NEXT, el procesamiento de registros se detiene al llegar a un límite.

FIRST rango | NEXT rango

opcional

La cantidad de registros que se procesarán:

  • FIRST comienza a procesar desde el primer registro hasta que se llega al número de registros especificado
  • NEXT comienza a procesar desde el registro seleccionado actualmente hasta que se llega al número de registros especificado

Utilice intervalo para especificar la cantidad de registros que se deben procesar.

Si omite FIRST y NEXT, se procesan todos los registros de forma predeterminada.

OPEN

opcional

Abre la tabla creada por el comando después de la ejecución del comando. Solo es válido si el comando crea una tabla de salida.

Ejemplos

Identificación de importes de transacciones que se encuentran fuera de lo habitual

Usted desea identificar importes de transacciones que se encuentran fuera de lo habitual en toda la tabla Ar de Sample Project.acl.

Decide establecer los límites de los valores atípicos en 3 veces la desviación estándar del campo Importe. La prueba devuelve 16 valores atípicos en la tabla de 772 registros.

OPEN Cuentas_por_cobrar
OUTLIERS AVERAGE NOKEY ON Importe NUMSTDEV 3 PRESORT TO "Valores_atípicos_AR.fil" OPEN

Repite la prueba, pero incrementa el múltiplo de la desviación estándar a 3,5. La prueba devuelve únicamente 6 valores atípicos porque los límites de los valores atípicos están más alejados del punto central de los valores del campo Importe.

OPEN Cuentas_por_cobrar
OUTLIERS AVERAGE NOKEY ON Importe NUMSTDEV 3,5 PRESORT TO "Valores_atípicos_AR.fil" OPEN

Identificación de importes de transacciones que se encuentran fuera de lo habitual para cada cliente

Usted desea identificar, para cada cliente de la tabla Ar de Sample Project.acl, los importes de transacciones que se encuentran fuera de lo habitual.

Decide establecer los límites de los valores atípicos en 3 veces la desviación estándar del grupo de transacciones de cada cliente.

OPEN Cuentas_por_cobrar
OUTLIERS AVERAGE PKEY Núm ON Importe NUMSTDEV 3 PRESORT TO "Valores_atípicos_cliente_AR.fil" OPEN

La prueba devuelve 7 valores atípicos. Se reporta la desviación estándar y el promedio informado para el grupo de transacciones de cada cliente:

  Número cliente (Núm) Importe trans STDEV AVERAGE Número de grupo
1 065003 4.954,64 1015,58 833,83 1
2 262001 3.567,34 772,44 438,81 2
3 262001 (2.044,82) 772,44 438,81 2
4 376005 (931,55) 411,18 484,57 3
5 501657 5.549,19 1332,80 441,14 4
6 811002 3.409,82 634,20 672,10 5
7 925007 3.393,87 736,48 906,16 6

Cómo se identifican los valores atípicos para el cliente 262001

El cliente 262001 tiene 101 transacciones en la tabla Ar y dos de ellas se reportan como valores atípicos porque superan los límites de valores atípicos de ese cliente:

Valor atípico Límite inferior Límite superior Valor atípico
(2.044,82) (1.878,51) 2.756,13 3.567,34

Cómo se calculan los límites de los valores atípicos para el cliente 262001

Los límites de los valores atípicos son el promedio de todas las transacciones del cliente 262001, más o menos el múltiplo especificado de la desviación estándar de las transacciones:

Promedio de todas las transacciones del cliente 262001 438,81
Múltiplo especificado de la desviación estándar 3
Desviación estándar de las transacciones 772,44

438,81 ± (3 * 772,44)

= 438,81 ± 2.317,32

= (1.878,51) (límite inferior)

= 2.756,13 (límite superior)

Uso de MEDIAN para identificar importes de transacciones que se encuentran fuera de lo habitual para cada cliente

Usted usa MEDIAN, en lugar de AVERAGE, para realizar la misma prueba de valores atípicos que realizó en el ejemplo anterior.

OPEN Cuentas_por_cobrar
OUTLIERS MEDIAN PKEY Núm ON Importe NUMSTDEV 3 PRESORT TO "Valores_atípicos_cliente_AR_Mediana.fil" OPEN

La prueba devuelve 10 valores atípicos en lugar de los 7 que devuelve la prueba anterior. Según la naturaleza de los datos, MEDIAN y AVERAGE pueden devolver resultados algo diferentes:

  Número cliente (Núm) Importe trans STDEV Mediana Número de grupo
1 065003 4.954,64 1015,58 663,68 1
2 262001 (2.044,82) 772,44 450,67 2
3 262001 3.567,34 772,44 450,67 2
4 376005 (931,55) 411,18 517,16 3
5 501657 4.426,14 1332,80 146,80 4
6 501657 5.549,19 1332,80 146,80 4
7 811002 3.409,82 634,20 624,53 5
8 925007 2.972,78 736,48 717,88 6
9 925007 3.030,71 736,48 717,88 6
10 925007 3.393,87 736,48 717,88 6

Cómo se calculan los límites de los valores atípicos para cada cliente

Los límites de los valores atípicos son el valor de la mediana de todas las transacciones del cliente, más o menos el múltiplo especificado de la desviación estándar de las transacciones.

Por ejemplo, para el cliente 262001: 450,67 ± (3 * 772,44)

Observaciones

Nota

Si desea obtener más información sobre la forma en la que funciona este comando, consulte Guía de ayuda.

Agregar campos de límites de valores atípicos a la tabla de resultados

Analytics agrega automáticamente los campos calculados STDEV y AVERAGE o MEDIAN a la tabla de resultados de valores atípicos. Puede resultar útil agregar también dos campos calculados que muestran los límites de los valores atípicos que se utilizan para identificar los valores atípicos en la tabla de resultados.

  1. Abrir la tabla de resultados de valores atípicos.
  2. Pegue esta expresión en la línea de comandos de Analytics, edítela según sea necesario y pulse Intro:
    DEFINE FIELD Límite_inferior COMPUTED AVERAGE - (número_de_desv_est * STDEV)
    • En número_de_desv_est, utilice el múltiplo de desviación estándar real que utilizó.
    • Si utilizó la mediana como el punto central en lugar de utilizar el promedio, reemplace AVERAGE con MEDIAN.
  3. Pegue esta expresión en la línea de comandos de Analytics, edítela según sea necesario y pulse Intro:
    DEFINE FIELD Límite_superior COMPUTED AVERAGE + (número_de_desv_est * STDEV)
    • En número_de_desv_est, utilice el múltiplo de desviación estándar real que utilizó.
    • Si utilizó la mediana como el punto central en lugar de utilizar el promedio, reemplace AVERAGE con MEDIAN.
  4. Haga clic derecho en la vista y seleccione Agregar columnas.
  5. Desde la lista Campos disponibles, haga doble clic en Límite_inferior y en Límite_Superior para agregarlos a la lista de Campos seleccionados.
  6. Haga clic en Aceptar.
  7. Opcional. Vuelva a ubicar los campos agregados arrastrando los encabezados de las columnas.
Guía de creación de scripts de ACL 14.1