Identificação de valores discrepantes

Use o recurso de valor discrepante no Analytics para identificar registros fora do normal e que podem exigir um exame mais detalhado.

O que são valores discrepantes?

Valores discrepantes são registros com quantidades numéricas que diferem consideravelmente dos valores numéricos nos registros em que estão agrupados.

Exemplo de um valor discrepante em um grupo

Em um arquivo de contas a pagar, as faturas de uma determinada empresa variam normalmente entre US$ 500 e US$ 1.000. No entanto, uma fatura tem o valor de US$ 8.500.

Nota

Um registro pode ser um valor discrepante por um motivo válido. Normalmente, é preciso examinar mais detalhadamente os valores discrepantes identificados pelo Analytics para determinar se realmente existem problemas.

O agrupamento de registros é opcional

Ao examinar os dados para procurar valores discrepantes, não é necessário agrupar os registros. Você pode estar interessado em encontrar valores discrepantes em toda uma tabela, em vez de em grupos específicos.

Exemplo de valores discrepantes em um conjunto inteiro de registros

Em um arquivo de contas a pagar, todas as faturas variam normalmente entre US$ 40 e US$ 5.000. No entanto, três faturas têm valor superior a US$ 20.000.

Como os valores discrepantes são identificados?

Para cada grupo de registros, ou para um conjunto inteiro de registros, o Analytics usa o desvio padrão de um campo numérico especificado, ou um múltiplo do desvio padrão, para estabelecer os limites superior e inferior dos valores discrepantes.

Qualquer registro com um valor no campo numérico acima de um limite superior ou abaixo de um limite inferior é um valor discrepante e será incluído nos resultados de saída.

O desvio padrão é uma medida da dispersão de um conjunto de dados. Ou seja, o quanto os valores estão dispersos. O cálculo de valores discrepantes usa desvio padrão da população.

Identificação de valores discrepantes para um conjunto de números

Você quer identificar valores discrepantes no seguinte conjunto de números:

-3,  -3,  -1,  2,  3,  5,  6,  6,  8,  11

A média dos números é 3,40. A média é usada para calcular o desvio padrão (DP) do conjunto: 4,45.

± 1 desvio padrão da média

No primeiro exemplo, você usa ± 1 desvio padrão da média para estabelecer os limites superior e inferior dos valores discrepantes. Quatro valores são identificados como valores discrepantes.

± 1,5 desvio padrão da média

No segundo exemplo, você usa ± 1,5 desvio padrão da média para estabelecer os limites superior e inferior dos valores discrepantes. Agora, apenas um valor é identificado como valor discrepante.

Posicionamento dos limites dos valores discrepantes

Você pode posicionar os limites dos valores discrepantes da forma que julgar adequada, ou pode testar posições diferentes e comparar os resultados.

Para posicionar os limites, especifique qualquer múltiplo positivo do desvio padrão do campo de valores discrepantes: 0,5, 1, 1,5 e assim por diante. Por exemplo, se você especificar um múltiplo de 1,5, os limites dos valores discrepantes serão 1,5 desvio padrão acima e abaixo da média ou mediana dos valores no campo de valores discrepantes.

Para o mesmo conjunto de dados, à medida que o múltiplo do desvio padrão aumenta, diminui potencialmente o número de valores discrepantes nos resultados de saída.

A distribuição de dados

Os valores em um conjunto de dados numéricos são normalmente distribuídos em um intervalo do menor para o maior. Em uma distribuição normal, os valores são distribuídos uniformemente em volta do ponto central dos dados, formando uma curva em formato de sino. Muitas vezes, o ponto central é definido como a média dos valores, mas também pode ser a mediana ou o modo.

Diretrizes

Quando você especificar configurações no recurso de valores discrepantes, considere a natureza dos dados sendo analisados:

Natureza dos dados Orientação para definição
Valores clusterizados, com um intervalo pequeno Use um múltiplo de desvio padrão menor. Experimente começar com 1. Use múltiplos decimais como 1,25 para fazer ajustes precisos.
Valores dispersos, com um intervalo grande Use um múltiplo de desvio padrão maior. Experimente começar com 3.
Os dados são distorcidos, com uma pequena porcentagem dos valores sendo grandes (ou pequenos) em comparação ao resto dos dados Use Mediana, em vez de Média, como método para calcular o ponto central dos valores sendo examinados.

Ajustes baseados nos resultados de saída

  • Muitos resultados aumente o múltiplo de desvios padrão
  • Poucos ou nenhum resultado reduza o múltiplo de desvios padrão

Lembre-se de que você pode usar múltiplos decimais e múltiplos inferiores a 1. Por exemplo: 0,75.

Etapas

  1. Abra a tabela na qual você quer testar a existência de valores discrepantes.
  2. No menu principal do Analytics, selecione Analisar > Valores discrepantes.
  3. Em Método, selecione o método para calcular o ponto central dos valores no campo numérico sendo examinado:
    • Média
    • Mediana
  4. Em Número de vezes do desvio padrão, especifique um múltiplo do desvio padrão a ser usado para os limites dos valores discrepantes.

    Você pode especificar qualquer número inteiro ou decimal (0,5, 1, 1,5, 2...).

  5. Execute uma das seguintes ações:
    • Na lista Chaves primárias, selecione um ou mais campos-chave para agrupar os registros na tabela.

      Dica

      Você pode usar Ctrl+clique para selecionar vários campos não adjacentes e Shift+clique para selecionar vários campos adjacentes.

    • Selecione Sem chave para identificar valores discrepantes em toda a tabela, em vez de em alguns grupos específicos.
  6. Na lista No campo, selecione o campo numérico onde serão procurados os valores discrepantes ("o campo de valores discrepantes").
  7. Opcional. Na lista Outros campos, selecione um ou mais campos adicionais a incluir na tabela de saída.

    Nota

    Os campos-chave e o campo de valor discrepante são incluídos automaticamente na tabela de saída e não precisam ser selecionados.

  8. Se existirem registros na exibição atual que você desejar excluir do processamento, insira uma condição na caixa de texto Se ou clique em Se para criar uma instrução IF usando o Construtor de expressões.

    Nota

    A condição If é avaliada apenas em relação aos registros restantes em uma tabela depois da aplicação das opções de escopo (Primeiros, Próximos, Enquanto).

    A instrução IF considera todos os registros na exibição e filtra aqueles que não atendem à condição especificada.

  9. Execute uma das seguintes ações:
    1. Na caixa de texto Para, especifique o nome da tabela de saída.
    2. Selecione Tela para gerar os resultados na área de exibição do Analytics.
  10. Cancele a seleção de Pré-ordenar, se adequado.

    Nota

    Veja as orientações a seguir.

  11. Na guia Mais:
    1. Opcional. Para especificar o processamento de apenas um subconjunto de registros, selecione uma das opções no painel Escopo.
    2. Opcional. Selecione Usar tabela de saída se você quiser que a tabela de saída seja aberta automaticamente.
    3. Clique em OK.

Opções da caixa de diálogo Valores discrepantes

As tabelas a seguir oferecem informações detalhadas sobre as opções da caixa de diálogo Valores discrepantes.

Guia Principal

Opções – Caixa de diálogo Valores discrepantes Descrição
Média

Mediana

O método usado para calcular o ponto central dos valores no campo de valores discrepantes.
  • Média use a média dos valores no campo
  • Mediana use a mediana dos valores no campo

O ponto central é usado para calcular o desvio padrão dos valores no campo de valores discrepantes.

Nota

Se você selecionar Mediana, o campo de valores discrepantes deverá estar ordenado. Selecione Pré-ordenar se o campo de valores discrepantes ainda não estiver ordenado.

Dica

Se os dados onde você está procurando valores discrepantes estiverem consideravelmente distorcidos, Mediana poderá gerar resultados mais representativos da maior parte dos dados.

Número de vezes do desvio padrão No campo de valores discrepantes, o número de desvios padrão da média ou da mediana para os limites superior e inferior de valores discrepantes. Você pode especificar qualquer número inteiro ou decimal (0,5, 1, 1,5, 2...)

Por exemplo, especifique 2 para estabelecer, para cada grupo de campos-chave, ou para o campo como um todo:

  • um limite superior de valor discrepante de dois desvios padrão acima da média ou mediana
  • um limite inferior de valor discrepante de 2 desvios padrão abaixo da média ou da mediana

Qualquer valor no campo de valores discrepantes acima de um limite superior ou abaixo de um limite inferior será incluído como valor discrepante nos resultados de saída.

Nota

Para o mesmo conjunto de dados, à medida que o número de desvios padrão aumenta, diminui potencialmente o número de valores discrepantes nos resultados de saída.

Chaves primárias

opcional

O campo ou os campos a serem usados para agrupar os dados na tabela.

Para cada grupo de campos-chave, é calculado o desvio padrão dos valores numéricos do grupo no campo de valores discrepantes. O desvio padrão do grupo é usado como base para identificar valores discrepantes do grupo.

Os campos-chave podem ser de caracteres, numéricos ou datahora. Vários campos podem conter qualquer combinação de tipos de dados.

Se você selecionar mais de um campo, criará grupos aninhados. O aninhamento seguirá a ordem em que os campos são selecionados.

Nota

O campo-chave ou os campos-chave devem ser ordenados. Use Pré-ordenar se um ou mais campos ainda não estiverem ordenados.

Sem chave

opcional

Não agrupe os dados na tabela.

Um desvio padrão é calculado para o campo de valores discrepantes como um todo. O desvio padrão do campo é usado como base para identificar valores discrepantes do campo.

No campo

("o campo de valores discrepantes")

O campo numérico onde serão procurados valores discrepantes. Você pode examinar apenas um campo por vez.

Se você selecionar um campo-chave, os valores discrepantes serão identificados por grupo. Se você selecionar Sem chave, os valores discrepantes serão identificados por campo.

Outros campos

opcional

Um ou mais campos adicionais a serem incluídos na saída.

Nota

Os campos-chave e o campo de valor discrepante são incluídos automaticamente na tabela de saída e não precisam ser selecionados.

Se

opcional

Permite criar uma condição para excluir registros do processamento.

Você pode inserir uma condição na caixa de texto Se ou clicar em Se para criar uma instrução IF usando o Construtor de Expressões.

Para

opcional

Especifique o nome e o local da tabela resultante.
  • Para salvar a tabela resultante na pasta de projeto do Analytics, insira somente o nome da tabela.
  • Para salvar a tabela resultante em um local que não seja a pasta do projeto, especifique um caminho de arquivo absoluto ou relativo, ou clique em Parar e navegue até uma pasta diferente.

    Por exemplo: C:\Resultados\Saída.fil ou Resultados\Saída.fil.

Independentemente de onde a tabela resultante for salva, ela será adicionada ao projeto aberto caso ainda não esteja no projeto.

Se o Analytics preencher um nome de tabela, você poderá aceitar o nome preenchido ou alterá-lo.

Tela

opcional

Exibe os resultados na área de exibição do Analytics em vez de criar uma tabela de saída.

Pré-ordenar

opcional

Executa uma operação de classificação antes de executar o comando.

Se você selecionou Pré-ordenar e: Ordena por:
  • Um ou mais campos-chave
  • Média
  • campo-chave ou campos-chave
  • um ou mais campos-chave, e pelo campo de valores discrepantes (se calculado)

    Nota

    A classificação de um campo de valores discrepantes calculado é um requisito técnico interno do Analytics.

  • Um ou mais campos-chave
  • Mediana

um ou mais campos-chave, e pelo campo de valores discrepantes

  • Sem chave
  • Média

sem classificação

  • Sem chave
  • Mediana
o campo de valores discrepantes

Dica

Se o campo ou os campos da tabela de entrada já estiverem ordenados, você poderá economizar tempo de processamento não selecionando Pré-ordenar.

Guia Mais

Opções – Caixa de diálogo Valores discrepantes Descrição
Painel Escopo Especifica quais registros serão processados:
  • Todos (padrão) todos os registros da tabela são processados.
  • Primeiro selecione essa opção e insira um número na caixa de texto para começar a processar no primeiro registro da tabela e incluir somente o número especificado de registros.
  • Avançar selecione essa opção e insira um número na caixa de texto para começar a processar no registro selecionado no momento na exibição da tabela e incluir somente o número especificado de registros.

    Deve ser selecionado o número do registro real na coluna mais à esquerda, não os dados na linha.

  • Enquanto selecione essa opção para usar a instrução WHILE para limitar o processamento de registros da tabela com base em critérios.
    • Você pode inserir uma condição na caixa de texto Enquanto ou clicar em Enquanto para criar uma instrução WHILE usando o Construtor de Expressões.
    • Uma instrução WHILE permite que os registros sejam processados somente enquanto a condição especificada for avaliada como verdadeira.
    • A opção Enquanto pode ser usada em conjunto com as opções Todos, Primeiro ou Avançar.

Nota

O número de registros especificados nas opções Primeiro ou Avançar faz referência à ordem física ou indexada de registros em uma tabela e desconsidera qualquer filtragem ou classificação rápida aplicada à exibição. Entretanto, resultados de operações analíticas respeitam qualquer filtro.

Se uma exibição for ordenada rapidamente, Avançar se comporta como Primeiro.

Usar tabela de saída Especifica que a tabela do Analytics contendo os resultados de saída deve ser aberta automaticamente ao completar a operação.
OK Executa a operação.

Se o prompt de substituição aparecer, selecione a opção adequada.

Ajuda do Analytics 14.1