Métodos de seleção de amostra
Métodos de seleção de amostra são os métodos específicos usados para selecionar os registros contidos em uma amostra.
Para amostragem por registro e unidades monetárias, o Analytics oferece suporte a três métodos de seleção de amostra:
- intervalo fixo
- célula
- aleatório
Para a amostragem clássica de variáveis, a única possibilidade é o método de seleção aleatório.
Método de seleção de amostra vs. tipo de amostragem
É importante compreender a diferença entre o método de seleção de amostras e o tipo de amostragem.
O tipo de amostragem é o método estatístico geral usado para chegar a uma estimativa sobre uma população.
O método de seleção de amostra é a forma como os registros são obtidos de uma população para inclusão em uma amostra.
Tipo de amostragem | Métodos de seleção de amostra disponíveis | Detalhes |
---|---|---|
Amostragem por registro |
|
Os registros contidos na amostra são selecionados diretamente |
Amostragem por unidades monetárias |
|
Os registros contidos na amostra são os correspondentes às unidades monetárias selecionadas |
Amostragem clássica de variáveis |
|
Os registros contidos na amostra são selecionados diretamente |
Método de seleção de intervalo fixo
Com o método de seleção de intervalo fixo, uma unidade monetária ou registro inicial é selecionado e todas as seleções subsequentes estarão em um intervalo fixo ou a uma determinada distância entre si. Por exemplo, cada 5.000ª unidade monetária, ou cada 20º registro, após a seleção inicial.

Para usar o método de seleção de intervalo fixo, especifique:
- O valor do intervalo gerado pelo Analytics quando o tamanho da amostra foi calculado
- Um número inicial maior que zero e menor ou igual ao valor do intervalo
O número inicial e o valor do intervalo são usados para selecionar quais registros serão incluídos na amostra.
Nota
Se você quiser que o Analytics selecione aleatoriamente um número inicial, insira o número inicial "0" ou deixe o número inicial em branco.
Exemplo
Se o intervalo gerado pelo Analytics for 62 e você escolher 17 como o número inicial, as unidades monetárias ou os registros a seguir serão selecionados:
- 17
- 79 (17+62)
- 141 (79+62)
- 203 (141+62)
- e assim por diante
Cada seleção está à mesma distância, ou intervalo fixo, da anterior.
Para a amostragem por unidades monetárias, os números de registro realmente selecionados são os correspondentes às unidades monetárias selecionadas. Para obter mais informações, consulte Como a amostragem por unidades monetárias seleciona registros.
Considerações
Para usar o método de seleção de intervalo fixo, você precisa ficar atento a padrões nos dados. Uma vez que um intervalo fixo é usado para selecionar a amostra, o resultado poderá ser uma amostra não representativa se os dados tiverem um padrão que coincida com o intervalo especificado.
Por exemplo, as despesas são amostradas usando um intervalo de US$ 10.000 e a mesma categoria de despesas aparece em intervalos de 10 mil dólares no arquivo. O resultado é que todos os registros selecionados vêm de uma única categoria de despesas. Este tipo de situação é incomum, mas lembre-se de que ele é possível.
Método de seleção por célula
Com o método de seleção por célula, o conjunto de dados é dividido em várias células ou grupos do mesmo tamanho e uma unidade monetária ou um registro é selecionado aleatoriamente em cada célula.

Para usar o método de seleção por célula, especifique:
- O valor do intervalo gerado pelo Analytics quando o tamanho da amostra foi calculado
- Um valor de origem usado para inicializar o gerador de números aleatórios no Analytics
O valor do intervalo determina o tamanho de cada célula. O gerador de números aleatórios especifica qual unidade monetária ou número de registro é selecionado em cada célula.
Nota
Se você quiser que o Analytics selecione aleatoriamente um valor de origem, insira o valor de origem "0" ou deixe o valor de origem em branco.
Exemplo
Se o intervalo gerado pelo Analytics for 62, uma unidade monetária ou um número de registro será selecionado aleatoriamente em cada uma das seguintes células:
- célula 1 (1 a 62)
- célula 2 (63 a 124)
- célula 3 (125 a 186)
- e assim por diante
Cada seleção estará a uma distância aleatória da anterior, mas restrita à sua célula.
Para a amostragem por unidades monetárias, os números de registro realmente selecionados são os correspondentes às unidades monetárias selecionadas. Para obter mais informações, consulte Como a amostragem por unidades monetárias seleciona registros.
O valor de origem
Se você especificar um valor de origem, ele poderá ser qualquer número. Cada valor único de origem resulta em um conjunto diferente de números aleatórios. Se você especificar novamente o mesmo valor de origem, será gerado o mesmo conjunto de números aleatórios. Para replicar uma determinada seleção de amostra, especifique explicitamente um valor de origem e salve-o.
Considerações
A principal vantagem do método de seleção por célula em relação ao intervalo fixo é que problemas relacionados aos padrões dos dados são evitados.
A amostragem por unidades monetárias apresenta duas desvantagens:
- Os valores podem abranger o ponto de divisão entre duas células. Isso significa que elas podem ser selecionadas duas vezes, gerando uma amostra menos consistente que a gerada pelo método de intervalo fixo.
- Valores maiores inferiores ao limite do estrato superior terão uma chance ligeiramente reduzida de serem selecionados.
Método de seleção aleatório
Com o método de seleção aleatório, todas as unidades monetárias ou registros serão selecionados aleatoriamente em todo o conjunto de dados ou de cada estrato, se você estiver usando a amostragem clássica de variáveis.

Nota
Não use o método de seleção aleatória com amostragem por unidades monetárias se quiser usar o Analytics para avaliar qualquer afirmação incorreta detectada na amostra resultante. A avaliação de amostras de unidades monetárias exige o uso dos métodos de seleção por intervalo fixo ou por célula.
Para usar o método de seleção aleatório, especifique:
- O tamanho da amostra, como calculado pelo Analytics, ou seja, o número de amostras a selecionar
- Um valor de origem usado para inicializar o gerador de números aleatórios no Analytics
- O tamanho da população, ou seja, o valor absoluto do campo da amostra ou o número total de registros no conjunto de dados
Para a amostragem clássica de variáveis, o tamanho da amostra e o tamanho da população podem ser automaticamente preenchidos pelo Analytics.
O gerador de números aleatórios especifica quais unidades monetárias ou números de registro são selecionados no conjunto de dados. Cada seleção estará a uma distância aleatória da anterior.
Nota
Se você quiser que o Analytics selecione aleatoriamente um valor de origem, insira o valor de origem "0" ou deixe o valor de origem em branco.
O valor de origem
Se você especificar um valor de origem, ele poderá ser qualquer número. Para a amostragem clássica de variáveis, o valor de origem deve ser um número positivo não superior a 2.147.483.647.
Cada valor único de origem resulta em um conjunto diferente de números aleatórios. Se você especificar novamente o mesmo valor de origem, será gerado o mesmo conjunto de números aleatórios. Para replicar uma determinada seleção de amostra, especifique explicitamente um valor de origem e salve-o. Você também pode recuperar um valor de origem do log de comandos.
Considerações
Valores grandes podem ser excluídos de uma amostra de unidades monetárias
Com o método de solução aleatória, cada unidade monetária tem a mesma probabilidade de ser selecionada e não há garantia da distribuição uniforme da amostra resultante. Como resultado, a distância ou lacuna entre as unidades selecionadas pode ser grande em alguns casos. Se todas as unidades monetárias associadas a um valor grande caírem em uma lacuna, o valor não será incluído na amostra. Também não há limite do estrato superior disponível ao usar o método de seleção aleatória.
Com os métodos de seleção por intervalo fixo e por célula, há uma garantia de que as unidades selecionadas estão distribuídas de forma uniforme ou relativamente uniforme. E o limite do estrato superior está disponível.
Os valores podem ser incluídos mais de uma vez em uma amostra de unidade monetária
O Analytics não gerará o mesmo número aleatório duas vezes. No entanto, podem ocorrer números aleatórios próximos ou sequenciais.
Com a amostragem por unidades monetárias, números aleatórios próximos ou sequenciais são equivalentes a unidades monetárias próximas ou sequencias selecionadas que, por sua vez, podem levar à seleção de um valor associado mais de uma vez.
Com a amostragem por registro e a amostragem clássica de variáveis, esse problema não ocorre porque cada número aleatório equivale a um registro diferente.
Algoritmos de números aleatórios
Para amostragem por registro e por unidades monetárias, o gerador de números aleatórios no Analytics tem duas opções de algoritmos:
- Mersenne-Twister
- O algoritmo padrão do Analytics
O algoritmo de números aleatórios Mersenne-Twister é amplamente usado e tem propriedades estatísticas superiores ao algoritmo padrão do Analytics. Use o algoritmo padrão se precisar de compatibilidade retroativa com scripts ou resultados de amostragem do Analytics criados antes do Analytics versão 12.
Para a amostragem clássica de variáveis, o algoritmo Mersenne-Twister não é uma opção e o algoritmo padrão do Analytics é usado.
Adicionar um campo de número de registro
Pode ser útil adicionar um campo de número de registro à tabela do Analytics usada para obter uma amostra. Após a obtenção da amostra, os números de registro específicos selecionados da tabela de origem serão exibidos na tabela de saída contendo a amostra.
Nota
Um campo de número de registro é incluído automaticamente na tabela de saída quando você usa a amostragem clássica de variáveis.

- Na tabela de origem, crie um campo calculado que use a seguinte expressão:
RECNO( )
Para obter mais informações, consulte Definir um campo calculado condicional.
- Ao amostrar os dados, gere a saída por Campos e não por Registro.
É necessário gerar a saída por Campos para converter o campo de número de registro calculado em um campo físico que preserve os números de registro da tabela original.
- Inclua o campo de número de registro calculado nos campos de saída especificados.