Comando OUTLIERS
Identifica valores discrepantes estatísticos em um campo numérico. Os valores discrepantes podem ser identificados para o campo como um todo ou para grupos separados baseados em valores idênticos de um ou mais campos-chave de caracteres, numéricos ou datahora.
Sintaxe
OUTLIERS {AVERAGE|MEDIAN} {PKEY campo_chave <...n>|NOKEY} ON campo_numérico <OTHER campo <...n>> NUMSTDEV número_desvios_padrão <IF teste> <TO {SCREEN|nome_tabela}> <PRESORT> <WHILE teste> <FIRST intervalo|NEXT intervalo> <OPEN>
Nota
Não é possível executar o comando OUTLIERS localmente em uma tabela de servidor.
Você deve especificar o nome do comando OUTLIERS com todas as letras. Esse comando não deve ser abreviado.
Parâmetros
Nome | Descrição | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
AVERAGE | MEDIAN |
O método para calcular o ponto central dos valores em campo_numérico (o campo de valor discrepante).
O ponto central é calculado para:
O ponto central é usado subsequentemente para calcular o desvio padrão do campo numérico ou de cada grupo. Nota Se você especificar MEDIAN, campo_numérico deve estar ordenado. Use PRESORT se campo_numérico ainda não estiver ordenado. Dica Se os dados onde você está procurando valores discrepantes estiverem consideravelmente distorcidos, MEDIAN poderá gerar resultados mais representativos da maior parte dos dados. |
||||||||||
PKEY campo_chave <...n> | NOKEY |
Se você especificar PKEY, os valores discrepantes serão identificados por grupo. Se você especificar NOKEY, os valores discrepantes serão identificados por campo.
|
||||||||||
ON campo_numérico |
O campo numérico onde serão procurados valores discrepantes. Você pode examinar apenas um campo por vez. Os valores discrepantes são os que ficam fora dos limites superiores e inferiores estabelecidos pelo desvio padrão do campo ou do grupo, ou por um múltiplo de desvio padrão especificado. |
||||||||||
OTHER campo <...n> opcional |
Um ou mais campos adicionais a serem incluídos na saída. Nota Os campos-chave e o campo de valor discrepante são incluídos automaticamente na tabela de saída e não precisam ser especificados usando OTHER. |
||||||||||
NUMSTDEV número_desvios_padrão |
Em campo_numérico, o número de desvios padrão da média ou da mediana para os limites superior e inferior de valores discrepantes. Você pode especificar qualquer número inteiro ou decimal (0,5, 1, 1,5, 2... ) A fórmula para criar limites de valores discrepantes é: média/mediana ± (número_desvios_padrão * desvio padrão) Nota O desvio padrão é uma medida da dispersão de um conjunto de dados. Ou seja, o quanto os valores estão dispersos. O cálculo de valores discrepantes usa desvio padrão da população. Exemplo de limites de valores discrepantesNUMSTDEV 2 estabelece, para campo_numérico como um todo, ou para cada grupo de campos-chave:
Qualquer valor acima do limite superior ou abaixo do limite inferior será incluído como valor discrepante nos resultados de saída. Nota Para o mesmo conjunto de dados, à medida que o valor de número_desvios_padrão é aumentado, diminui potencialmente o número de valores discrepantes retornados. |
||||||||||
IF teste opcional |
Uma expressão condicional que deve ser verdadeira para processar cada registro. O comando é executado apenas nos registros que atendem à condição. Nota O parâmetro IF é avaliado apenas em relação aos registros restantes em uma tabela depois da aplicação dos parâmetros de escopo (WHILE, FIRST, NEXT). |
||||||||||
TO SCREEN | nome_tabela opcional |
A localização para onde enviar os resultados do comando:
|
||||||||||
PRESORT opcional |
Executa uma operação de classificação antes de executar o comando.
Dica Se o campo ou os campos da tabela de entrada já estiverem ordenados, você poderá economizar tempo de processamento não especificando o parâmetro PRESORT. Nota Você não pode usar PRESORT dentro do comando GROUP. |
||||||||||
WHILE teste opcional |
Uma expressão condicional que deve ser verdadeira para processar cada registro. O comando é executado até que a condição seja avaliada como falsa ou o fim da tabela seja alcançado. Nota Se você usar WHILE juntamente com FIRST ou NEXT, o processamento de registros será interrompido assim que um limite for alcançado. |
||||||||||
FIRST intervalo | NEXT intervalo opcional |
O número de registros a ser processado:
Use intervalo para especificar o número de registros a serem processados. Se você omitir FIRST e NEXT, todos os registros serão processados por padrão. |
||||||||||
OPEN opcional |
Abre a tabela criada pelo comando após a execução do comando. Válido apenas se o comando criar uma tabela de saída. |
Exemplos
Identificação de valores de transação anormais
Você quer identificar valores de transação anormais em toda a tabela Ar no projeto Sample Project.acl.
Você decide definir os limites de valores discrepantes como 3 vezes o desvio padrão do campo Valor. O teste retorna 16 valores discrepantes na tabela de 772 registros.
OPEN Ar OUTLIERS AVERAGE NOKEY ON Valor NUMSTDEV 3 PRESORT TO "Valores_discrepantes_AR.fil" OPEN
Você repete o teste, mas aumenta o múltiplo de desvio padrão para 3,5. Agora, o teste retorna apenas 6 valores discrepantes porque os limites dos valores discrepantes estão mais afastados do ponto central dos valores no campo Valor.
OPEN Ar OUTLIERS AVERAGE NOKEY ON Valor NUMSTDEV 3,5 PRESORT TO "Valores_discrepantes_AR.fil" OPEN
Identificação de valores de transação anormais para cada cliente
Para cada cliente na tabela Ar no projeto Sample Project.acl, você quer identificar valores de transação anormais.
Você decide definir os limites de valores discrepantes como 3 vezes o desvio padrão do grupo de transações de cada cliente.
OPEN Ar OUTLIERS AVERAGE PKEY Número ON Valor NUMSTDEV 3 PRESORT TO "Valores_discrepantes_Cliente_AR.fil" OPEN
O teste retorna 7 valores discrepantes. O desvio padrão e a média de cada grupo de transações de cliente são relatados:
Número do cliente (Número) | Valor da transação | STDEV | AVERAGE | Número do grupo | |
---|---|---|---|---|---|
1 | 065003 | 4.954,64 | 1015,58 | 833,83 | 1 |
2 | 262001 | 3.567,34 | 772,44 | 438,81 | 2 |
3 | 262001 | (2.044,82) | 772,44 | 438,81 | 2 |
4 | 376005 | (931,55) | 411,18 | 484,57 | 3 |
5 | 501657 | 5.549,19 | 1332,80 | 441,14 | 4 |
6 | 811002 | 3.409,82 | 634,20 | 672,10 | 5 |
7 | 925007 | 3.393,87 | 736,48 | 906,16 | 6 |
Como os valores discrepantes são identificados para o cliente 262001
O cliente 262001 tem 101 transações na tabela Ar, das quais duas são relatadas como valores discrepantes porque excedem os limites de valores discrepantes desse cliente:
Valor discrepante | Limite inferior | Limite superior | Valor discrepante |
---|---|---|---|
(2.044,82) | (1.878,51) | 2.756,13 | 3.567,34 |
Como os limites de valores discrepantes são calculados para o cliente 262001
Os limites de valores discrepantes são a média de todas as transações 262001 do cliente, mais ou menos o múltiplo de desvio padrão das transações especificado:
Média de todas as transações do cliente 262001 | 438,81 |
O múltiplo de desvio padrão especificado | 3 |
O desvio padrão das transações | 772,44 |
438.81 ± (3 * 772.44) = 438.81 ± 2,317.32 = (1.878,51) (limite inferior) = 2.756,13 (limite superior) |
Uso de MEDIAN para identificar valores de transação anormais para cada cliente
Use MEDIAN em vez de AVERAGE para executar o mesmo teste de valor discrepante do exemplo acima.
OPEN Ar OUTLIERS MEDIAN PKEY Número ON Valor NUMSTDEV 3 PRESORT TO "Valores_discrepantes_Cliente_AR_Median.fil" OPEN
O teste retorna 10 valores discrepantes, em vez dos 7 retornados no teste anterior. Dependendo da natureza dos dados MEDIAN e AVERAGE podem retornar resultados diferentes:
Número do cliente (Número) | Valor da transação | STDEV | MEDIAN | Número do grupo | |
---|---|---|---|---|---|
1 | 065003 | 4.954,64 | 1015,58 | 663,68 | 1 |
2 | 262001 | (2.044,82) | 772,44 | 450,67 | 2 |
3 | 262001 | 3.567,34 | 772,44 | 450,67 | 2 |
4 | 376005 | (931,55) | 411,18 | 517,16 | 3 |
5 | 501657 | 4.426,14 | 1332,80 | 146,80 | 4 |
6 | 501657 | 5.549,19 | 1332,80 | 146,80 | 4 |
7 | 811002 | 3.409,82 | 634,20 | 624,53 | 5 |
8 | 925007 | 2.972,78 | 736,48 | 717,88 | 6 |
9 | 925007 | 3.030,71 | 736,48 | 717,88 | 6 |
10 | 925007 | 3.393,87 | 736,48 | 717,88 | 6 |
Como os limites de valores discrepantes são calculados para cada cliente
Os limites de valores discrepantes são a mediana das transações de cada cliente, mais ou menos o múltiplo de desvio padrão das transações especificado.
Por exemplo, para o cliente 262001: 450,67 ± (3 * 772,44)
Observações
Nota
Para obter mais informações sobre o funcionamento desse comando, consulte a Ajuda do Analytics.
Adicionar campos de limite de valores discrepantes à tabela de resultados
O Analytics adiciona automaticamente os campos calculados STDEV e AVERAGE ou MEDIAN à tabela de resultados de valores discrepantes. Também pode ser útil adicionar à tabela de resultados dois campos calculados que mostram os limites de valores discrepantes usados para identificar esses valores.
- Abra a tabela de resultados de valores discrepantes.
- Cole esta expressão na linha de comando do Analytics, edite-a conforme a necessidade e pressione Enter:
DEFINE FIELD Limite_inferior COMPUTED AVERAGE - (número_desvios_padrão * STDEV)
- Substitua número_desvios_padrão pelo múltiplo real de desvios padrão que você usou.
- Se você precisar da mediana como ponto central em vez da média, substitua AVERAGE para MEDIAN.
- Cole esta expressão na linha de comando do Analytics, edite-a conforme a necessidade e pressione Enter:
DEFINE FIELD Limite_superior COMPUTED AVERAGE + (número_desvios_padrão * STDEV)
- Substitua número_desvios_padrão pelo múltiplo real de desvios padrão que você usou.
- Se você precisar da mediana como ponto central em vez da média, substitua AVERAGE para MEDIAN.
- Clique com o botão direito do mouse na exibição e selecione Adicionar colunas.
- Na lista Campos disponíveis clique duas vezes em Limite_inferior e em Limite_superior para adicioná-los à lista Campos selecionados.
- Clique em OK.
- Opcional. Reposicione os campos adicionados arrastando os cabeçalhos das colunas.