Comando OUTLIERS

Identifica valores discrepantes estatísticos em um campo numérico. Os valores discrepantes podem ser identificados para o campo como um todo ou para grupos separados baseados em valores idênticos de um ou mais campos-chave de caracteres, numéricos ou datahora.

Sintaxe

OUTLIERS {AVERAGE|MEDIAN} {PKEY campo_chave <...n>|NOKEY} ON campo_numérico <OTHER campo <...n>> NUMSTDEV número_desvios_padrão <IF teste> <TO {SCREEN|nome_tabela}> <PRESORT> <WHILE teste> <FIRST intervalo|NEXT intervalo> <OPEN>

Nota

Não é possível executar o comando OUTLIERS localmente em uma tabela de servidor.

Você deve especificar o nome do comando OUTLIERS com todas as letras. Esse comando não deve ser abreviado.

Parâmetros

Nome Descrição
AVERAGE | MEDIAN

O método para calcular o ponto central dos valores em campo_numérico (o campo de valor discrepante).

  • AVERAGE calcule a média dos valores
  • MEDIAN calcule a mediana dos valores

O ponto central é calculado para:

  • o campo numérico como um todo, ou
  • os valores numéricos para cada grupo de campos-chave

O ponto central é usado subsequentemente para calcular o desvio padrão do campo numérico ou de cada grupo.

Nota

Se você especificar MEDIAN, campo_numérico deve estar ordenado. Use PRESORT se campo_numérico ainda não estiver ordenado.

Dica

Se os dados onde você está procurando valores discrepantes estiverem consideravelmente distorcidos, MEDIAN poderá gerar resultados mais representativos da maior parte dos dados.

PKEY campo_chave <...n> | NOKEY

Se você especificar PKEY, os valores discrepantes serão identificados por grupo. Se você especificar NOKEY, os valores discrepantes serão identificados por campo.

  • PKEY campo-chave o campo ou os campos a usar para agrupar os dados na tabela

    Os campos-chave podem ser de caracteres, numéricos ou datahora. Se houver mais de um campo, eles devem ser separados por espaços e podem ser de tipos de dados diferentes.

    Se você especificar mais de um campo, criará grupos aninhados. O aninhamento seguirá a ordem em que os campos são especificados.

    Para cada grupo de campos-chave, é calculado o desvio padrão dos valores numéricos do grupo em campo_numérico. O desvio padrão do grupo é usado como base para identificar valores discrepantes do grupo.

    Nota

    O campo-chave ou os campos-chave devem ser ordenados. Use PRESORT se um ou mais campos ainda não estiverem ordenados.

  • NOKEY não agrupe os dados na tabela

    Será calculado um desvio padrão de campo_numérico como um todo. O desvio padrão do campo é usado como base para identificar valores discrepantes do campo.

ON campo_numérico

O campo numérico onde serão procurados valores discrepantes. Você pode examinar apenas um campo por vez.

Os valores discrepantes são os que ficam fora dos limites superiores e inferiores estabelecidos pelo desvio padrão do campo ou do grupo, ou por um múltiplo de desvio padrão especificado.

OTHER campo <...n>

opcional

Um ou mais campos adicionais a serem incluídos na saída.

Nota

Os campos-chave e o campo de valor discrepante são incluídos automaticamente na tabela de saída e não precisam ser especificados usando OTHER.

NUMSTDEV número_desvios_padrão

Em campo_numérico, o número de desvios padrão da média ou da mediana para os limites superior e inferior de valores discrepantes. Você pode especificar qualquer número inteiro ou decimal (0,5, 1, 1,5, 2... )

A fórmula para criar limites de valores discrepantes é:

média/mediana ± (número_desvios_padrão * desvio padrão)

Nota

O desvio padrão é uma medida da dispersão de um conjunto de dados. Ou seja, o quanto os valores estão dispersos. O cálculo de valores discrepantes usa desvio padrão da população.

Exemplo de limites de valores discrepantes

NUMSTDEV 2

estabelece, para campo_numérico como um todo, ou para cada grupo de campos-chave:

  • um limite superior de valor discrepante de dois desvios padrão acima da média ou mediana

    média/mediana + (2 * DP)

  • um limite inferior de valor discrepante de dois desvios padrão abaixo da média ou mediana

    média/mediana – (2 * DP)

Qualquer valor acima do limite superior ou abaixo do limite inferior será incluído como valor discrepante nos resultados de saída.

Nota

Para o mesmo conjunto de dados, à medida que o valor de número_desvios_padrão é aumentado, diminui potencialmente o número de valores discrepantes retornados.

IF teste

opcional

Uma expressão condicional que deve ser verdadeira para processar cada registro. O comando é executado apenas nos registros que atendem à condição.

Nota

O parâmetro IF é avaliado apenas em relação aos registros restantes em uma tabela depois da aplicação dos parâmetros de escopo (WHILE, FIRST, NEXT).

TO SCREEN | nome_tabela

opcional

A localização para onde enviar os resultados do comando:

  • SCREEN exibe os resultados na área de exibição do Analytics
  • nome_tabela salva os resultados em uma tabela do Analytics

    Especifique nome_tabela como uma cadeia entre aspas com uma extensão de arquivo .FIL. For exemplo: TO "Saída.FIL"

    Por padrão, o arquivo de dados da tabela (.fil) é salvo na pasta que contém o projeto do Analytics.

    Use um caminho de arquivo absoluto ou relativo para salvar o arquivo de dados em uma pasta diferente já existente:

    • TO "C:\Saída.FIL"
    • TO "Resultados\Saída.FIL"

    Nota

    Os nomes de tabela são limitados a 64 caracteres alfanuméricos, sem contar a extensão .FIL. O nome pode incluir o caractere de sublinhado ( _ ) mas nenhum outro caractere especial e nenhum espaço. O nome não pode começar com um número.

PRESORT

opcional

Executa uma operação de classificação antes de executar o comando.

Se você especificar PRESORT e: Ordena por:
PKEY, AVERAGE
  • campo-chave ou campos-chave
  • campo-chave ou campos-chave, e por campo_numérico (se campo_numérico é calculado)

    Nota

    A classificação de um campo_numérico calculado é um requisito técnico interno do Analytics.

PKEY, MEDIAN

campo-chave ou campos-chave, e por campo

NOKEY, AVERAGE

sem classificação

NOKEY, MEDIAN campo_numérico

Dica

Se o campo ou os campos da tabela de entrada já estiverem ordenados, você poderá economizar tempo de processamento não especificando o parâmetro PRESORT.

Nota

Você não pode usar PRESORT dentro do comando GROUP.

WHILE teste

opcional

Uma expressão condicional que deve ser verdadeira para processar cada registro. O comando é executado até que a condição seja avaliada como falsa ou o fim da tabela seja alcançado.

Nota

Se você usar WHILE juntamente com FIRST ou NEXT, o processamento de registros será interrompido assim que um limite for alcançado.

FIRST intervalo | NEXT intervalo

opcional

O número de registros a ser processado:

  • FIRST iniciar o processamento a partir do primeiro registro até alcançar o número de registros especificado
  • NEXT iniciar o processamento a partir do registro selecionado no momento até alcançar o número de registros especificado

Use intervalo para especificar o número de registros a serem processados.

Se você omitir FIRST e NEXT, todos os registros serão processados por padrão.

OPEN

opcional

Abre a tabela criada pelo comando após a execução do comando. Válido apenas se o comando criar uma tabela de saída.

Exemplos

Identificação de valores de transação anormais

Você quer identificar valores de transação anormais em toda a tabela Ar no projeto Sample Project.acl.

Você decide definir os limites de valores discrepantes como 3 vezes o desvio padrão do campo Valor. O teste retorna 16 valores discrepantes na tabela de 772 registros.

OPEN Ar
OUTLIERS AVERAGE NOKEY ON Valor NUMSTDEV 3 PRESORT TO "Valores_discrepantes_AR.fil" OPEN

Você repete o teste, mas aumenta o múltiplo de desvio padrão para 3,5. Agora, o teste retorna apenas 6 valores discrepantes porque os limites dos valores discrepantes estão mais afastados do ponto central dos valores no campo Valor.

OPEN Ar
OUTLIERS AVERAGE NOKEY ON Valor NUMSTDEV 3,5 PRESORT TO "Valores_discrepantes_AR.fil" OPEN

Identificação de valores de transação anormais para cada cliente

Para cada cliente na tabela Ar no projeto Sample Project.acl, você quer identificar valores de transação anormais.

Você decide definir os limites de valores discrepantes como 3 vezes o desvio padrão do grupo de transações de cada cliente.

OPEN Ar
OUTLIERS AVERAGE PKEY Número ON Valor NUMSTDEV 3 PRESORT TO "Valores_discrepantes_Cliente_AR.fil" OPEN

O teste retorna 7 valores discrepantes. O desvio padrão e a média de cada grupo de transações de cliente são relatados:

  Número do cliente (Número) Valor da transação STDEV AVERAGE Número do grupo
1 065003 4.954,64 1015,58 833,83 1
2 262001 3.567,34 772,44 438,81 2
3 262001 (2.044,82) 772,44 438,81 2
4 376005 (931,55) 411,18 484,57 3
5 501657 5.549,19 1332,80 441,14 4
6 811002 3.409,82 634,20 672,10 5
7 925007 3.393,87 736,48 906,16 6

Como os valores discrepantes são identificados para o cliente 262001

O cliente 262001 tem 101 transações na tabela Ar, das quais duas são relatadas como valores discrepantes porque excedem os limites de valores discrepantes desse cliente:

Valor discrepante Limite inferior Limite superior Valor discrepante
(2.044,82) (1.878,51) 2.756,13 3.567,34

Como os limites de valores discrepantes são calculados para o cliente 262001

Os limites de valores discrepantes são a média de todas as transações 262001 do cliente, mais ou menos o múltiplo de desvio padrão das transações especificado:

Média de todas as transações do cliente 262001 438,81
O múltiplo de desvio padrão especificado 3
O desvio padrão das transações 772,44

438.81 ± (3 * 772.44)

= 438.81 ± 2,317.32

= (1.878,51) (limite inferior)

= 2.756,13 (limite superior)

Uso de MEDIAN para identificar valores de transação anormais para cada cliente

Use MEDIAN em vez de AVERAGE para executar o mesmo teste de valor discrepante do exemplo acima.

OPEN Ar
OUTLIERS MEDIAN PKEY Número ON Valor NUMSTDEV 3 PRESORT TO "Valores_discrepantes_Cliente_AR_Median.fil" OPEN

O teste retorna 10 valores discrepantes, em vez dos 7 retornados no teste anterior. Dependendo da natureza dos dados MEDIAN e AVERAGE podem retornar resultados diferentes:

  Número do cliente (Número) Valor da transação STDEV MEDIAN Número do grupo
1 065003 4.954,64 1015,58 663,68 1
2 262001 (2.044,82) 772,44 450,67 2
3 262001 3.567,34 772,44 450,67 2
4 376005 (931,55) 411,18 517,16 3
5 501657 4.426,14 1332,80 146,80 4
6 501657 5.549,19 1332,80 146,80 4
7 811002 3.409,82 634,20 624,53 5
8 925007 2.972,78 736,48 717,88 6
9 925007 3.030,71 736,48 717,88 6
10 925007 3.393,87 736,48 717,88 6

Como os limites de valores discrepantes são calculados para cada cliente

Os limites de valores discrepantes são a mediana das transações de cada cliente, mais ou menos o múltiplo de desvio padrão das transações especificado.

Por exemplo, para o cliente 262001: 450,67 ± (3 * 772,44)

Observações

Nota

Para obter mais informações sobre o funcionamento desse comando, consulte a Ajuda do Analytics.

Adicionar campos de limite de valores discrepantes à tabela de resultados

O Analytics adiciona automaticamente os campos calculados STDEV e AVERAGE ou MEDIAN à tabela de resultados de valores discrepantes. Também pode ser útil adicionar à tabela de resultados dois campos calculados que mostram os limites de valores discrepantes usados para identificar esses valores.

  1. Abra a tabela de resultados de valores discrepantes.
  2. Cole esta expressão na linha de comando do Analytics, edite-a conforme a necessidade e pressione Enter:
    DEFINE FIELD Limite_inferior COMPUTED AVERAGE - (número_desvios_padrão * STDEV)
    • Substitua número_desvios_padrão pelo múltiplo real de desvios padrão que você usou.
    • Se você precisar da mediana como ponto central em vez da média, substitua AVERAGE para MEDIAN.
  3. Cole esta expressão na linha de comando do Analytics, edite-a conforme a necessidade e pressione Enter:
    DEFINE FIELD Limite_superior COMPUTED AVERAGE + (número_desvios_padrão * STDEV)
    • Substitua número_desvios_padrão pelo múltiplo real de desvios padrão que você usou.
    • Se você precisar da mediana como ponto central em vez da média, substitua AVERAGE para MEDIAN.
  4. Clique com o botão direito do mouse na exibição e selecione Adicionar colunas.
  5. Na lista Campos disponíveis clique duas vezes em Limite_inferior e em Limite_superior para adicioná-los à lista Campos selecionados.
  6. Clique em OK.
  7. Opcional. Reposicione os campos adicionados arrastando os cabeçalhos das colunas.
Guia de scripting do ACL 14.1