Métodos de selección de muestras
Los métodos de selección de muestras son los métodos específicos que se utilizan para seleccionar los registros contenidos en una muestra.
Para el muestreo por registros y el muestreo por unidad monetaria, Analytics admite tres métodos de selección:
- Intervalo fijo
- celda
- aleatorio
Para el muestreo de variables clásicas, la única posibilidad es usar el método de selección aleatorio.
Tipo de muestreo en relación con el método de selección de muestras
Es importante comprender la diferencia entre el tipo de muestreo y el método de selección de muestras.
El Tipo de muestreo hace referencia al método estadístico general que se utiliza para llegar a un cálculo aproximado acerca de una población.
El Método de selección de muestras hace referencia a la manera en la que se extraen los registros de una población para incluirlos en una muestra.
Tipo de muestreo | Métodos de selección de muestras disponibles | Detalles |
---|---|---|
Muestreo de registros |
|
Los registros que se incluyen en la muestra se seleccionan de forma directa |
Muestreo por unidad monetaria |
|
Los registros incluidos en la muestra son los que corresponden a las unidades monetarias seleccionadas |
Muestreo de variables clásicas |
|
Los registros que se incluyen en la muestra se seleccionan de forma directa |
Método de selección de intervalo fijo
Con el método de selección del intervalo fijo, se selecciona una unidad monetaria inicial o un registro, y todas las selecciones posteriores se encuentran a una distancia o un intervalo fijo; por ejemplo, cada 20ª unidad monetaria o cada 20º registro, después de la selección inicial.
Para usar el método de selección de intervalo fijo, especifique:
- El valor del intervalo que Analytics genera al calcular el tamaño de la muestra
- Un número de inicio mayor que cero y menor o igual que el valor del intervalo.
El número de inicio y el valor del intervalo se usa para seleccionar qué registros están contenidos en la muestra.
Nota
Si desea que Analytics seleccione de forma aleatoria un número de inicio, puede ingresar un número de inicio ‘0’ o dejar el número de inicio en blanco.
Ejemplo
Si 62 es el intervalo generado por Analytics y usted elige 17 como el número de inicio, se seleccionan las siguientes unidades monetarias o números de registros:
- 17
- 79 (17+62)
- 141 (79+62)
- 203 (141+62)
- y así sucesivamente
Cada selección tiene la misma distancia o intervalo fijo.
Con el muestreo por unidad monetaria, los registros contenidos en la muestra son los que corresponden a las unidades monetarias seleccionadas. Si desea obtener más información, consulte Cómo se seleccionan registros en el muestreo por unidad monetaria.
Consideraciones
Cuando use el método de selección de intervalo fijo, debe estar alerta por cualquier patrón en los datos. Como se utiliza un intervalo fijo para la selección de la muestra, se puede seleccionar una muestra no representativa si en los datos hay un patrón que coincide con el intervalo que especificó.
Por ejemplo, hace una muestra de gastos usando un intervalo de $10.000, y la misma categoría de gastos aparece a intervalos de diez mil dólares en el archivo, esto hace que todos los registros seleccionados provengan de una sola categoría de gastos. Este tipo de escenario es poco frecuente, pero debe tener en cuenta que podría ocurrir.
Método de selección de celdas
Con el método de selección por celda, los datos establecidos se dividen en múltiples celdas o grupos de igual tamaño, y se selecciona una unidad monetaria, o un registro, de forma aleatoria de cada celda.
Para usar el método de selección por celda, especifique:
- El valor del intervalo que Analytics genera al calcular el tamaño de la muestra
- Un valor semilla se usa para inicializar el generador de números aleatorios en Analytics
El valor del intervalo indica el tamaño de cada celda. El generador de números aleatorios especifica qué unidad monetaria o qué número de registro se selecciona de cada celda.
Nota
Si desea que Analytics seleccione aleatoriamente el valor de una semilla, puede ingresar el valor ‘0’ o dejar el valor de la semilla en blanco.
Ejemplo
Si 62 es el intervalo generado por Analytics, se selecciona una unidad monetaria o un número de registro de manera aleatoria de cada una de las siguientes celdas:
- celda 1 (1 a 62)
- celda 2 (63 a 124)
- celda 3 (125 a 186)
- y así sucesivamente
Cada selección tiene una distancia aleatoria, pero se limita a su celda.
Con el muestreo por unidad monetaria, los registros contenidos en la muestra son los que corresponden a las unidades monetarias seleccionadas. Si desea obtener más información, consulte Cómo se seleccionan registros en el muestreo por unidad monetaria.
El valor de la semilla
Si se especifica un valor de semilla puede ser cualquier número. Todo valor de la semilla exclusiva produce un conjunto diferente de números aleatorios. Si especifica el mismo valor de la semilla, se genera el mismo conjunto de números aleatorios. Explícitamente especifique un valor de la semilla y guárdelo, si desea replicar una determinada selección de muestra.
Consideraciones
La principal ventaja del método de selección por celdas en comparación con el método de selección por intervalo fijo es que evita problemas relacionados con los patrones en los datos.
Existen dos desventajas en el muestreo por unidad monetaria:
- Los importes pueden abarcar el punto de división entre dos celdas. Esto significa que podrían seleccionares dos veces, produciendo una muestra menos consistente que la generada por el método de intervalo fijo.
- Los importes más grandes que son menores al corte de estrato superior, tienen una posibilidad ligeramente menor de ser seleccionados.
Método de selección aleatorio
Con el método de selección aleatoria, todas las unidades monetarias o registros se seleccionan aleatoriamente del conjunto de datos completo o de cada estrato, si es que está utilizando el muestreo de variables clásicas.
Nota
No use el método de selección aleatoria con muestreo por unidad monetaria si va a usar Analytics para evaluar cualquier información errónea detectada en la muestra resultante. Para evaluar las muestras de unidades monetarias se requiere usar el intervalo fijo o los métodos de selección por celdas.
Para usar el método de selección aleatoria, especifique:
- El tamaño de la muestra, tal como Analytics lo calculó (este es el número de muestras a seleccionar)
- Un valor semilla se usa para inicializar el generador de números aleatorios en Analytics
- El tamaño de la población (es decir, el valor absoluto del campo de muestra o el número total de registros en el conjunto de datos)
Para el muestreo de variables clásicas, Analytics puede completar automáticamente el tamaño de la muestra y el tamaño de la población.
El generador de números aleatorios especifica qué unidades monetarias o qué números se seleccionan del conjunto de datos. Cada selección tiene una distancia aleatoria.
Nota
Si desea que Analytics seleccione aleatoriamente el valor de una semilla, puede ingresar el valor ‘0’ o dejar el valor de la semilla en blanco.
El valor de la semilla
Si se especifica un valor de semilla puede ser cualquier número. Para el muestreo de variables clásicas, el valor de semilla debe ser un número positivo no superior a 2.147.483.647.
Todo valor de la semilla exclusiva produce un conjunto diferente de números aleatorios. Si especifica el mismo valor de la semilla, se genera el mismo conjunto de números aleatorios. Explícitamente especifique un valor de la semilla y guárdelo, si desea replicar una determinada selección de muestra. También puede recuperar un valor de semilla del log de comandos.
Consideraciones
Los importes grandes pueden excluirse de la muestra por unidad monetaria
Con el método de selección aleatoria, cada unidad monetaria tiene la misma posibilidad de selección, y no existe una garantía de que la muestra resultante esté distribuida uniformemente. Como resultado, la distancia o intervalo entre las unidades seleccionadas puede ser grande en algunos casos. Si todas las unidades monetarias asociadas con un importe grande entran en un intervalo, el importe no se incluirá en la muestra. También, no existe un corte de estrato superior disponible al usar el método de selección aleatoria.
Con los métodos de selección por intervalo fijo y por celda, existe la certeza de que las unidades seleccionadas se distribuyen uniformemente, o con cierta uniformidad. Además, el corte de estrato superior está disponible.
Los importes pueden estar incluidos más de una vez en una muestra por unidad monetaria
Analytics no genera el mismo número aleatorio dos veces; sin embargo, pueden ocurrir números cercanos o secuenciales.
Con el muestreo por unidad monetaria, los números aleatorios cercanos o secuenciales equivalen a las unidades monetarias cercanas o secuenciales que se seleccionan, esto puede ocasionar que un importe asociado sea seleccionado más de una vez.
Con el muestreo de registros y el muestreo de variables clásicas, no existe el mismo problema porque cada número aleatorio equivale a un registro diferente.
Algoritmos de números aleatorios
Para el muestreo por registros y el muestreo por unidad monetaria, el generador de números aleatorios en Analytics tiene dos opciones de algoritmo:
- Mersenne-Twister
- El algoritmo de Analytics predeterminado
Mersenne-Twister es un algoritmo de números aleatorios ampliamente utilizado y tiene mejores propiedades estadísticas que el algoritmo predeterminado de Analytics. Use el algoritmo predeterminado de Analytics si necesita tener compatibilidad con versiones anteriores de los scripts de Analytics o con los resultados de muestras creados antes de la versión 12 de Analytics.
Para el muestreo de variables clásicas, Mersenne-Twister no es una opción y se utiliza el algoritmo de Analytics predeterminado.
Agregar un campo de número de registro
Puede resultarle útil agregar un campo numérico de registro a la tabla de Analytics desde la cual extrae una muestra. Después de extraer la muestra, los números de registros específicos que fueron seleccionados desde la tabla de origen se muestran en la tabla de salida que contiene la muestra.
Nota
En la tabla de salida, se incluye automáticamente un campo de número de registros al usar el muestreo de variables clásicas.
- En la tabla de origen, cree un campo calculado que use la siguiente expresión:
RECNO( )
Para obtener más información, consulte Definir un campo calculado condicional.
- Cuando muestrea los datos, la salida es por Campos, no por Registro.
Para poder convertir el número de registro calculado en un campo físico que preserve los números de registro de la tabla de origen, debe generar la salida por Campos.
- Incluya el número de registro calculado en los campos de salida que especifique.