Muestreo de variables clásicas
El muestreo de variables clásicas es un método de muestreo estadístico para calcular lo siguiente:
- el valor auditado total de una cuenta o clase de transacciones
- el importe total de la información errónea monetaria en una cuenta o clase de transacciones
El muestreo de variables clásicas funciona mejor con datos financieros que tengan las siguientes características:
una cantidad moderada a elevada de información errónea Por ejemplo, se informan incorrectamente 5 % o más elementos. |
es posible que existan tanto sobrestimaciones como subestimaciones |
es posible que existan valores de cero en dólares |
Consejo
Para ver una introducción práctica del proceso de muestreo de variables clásicas completo en Analytics, consulte Tutorial de muestreo de variables clásicas.
Nota
Además de los datos financieros, puede usar el muestreo de variables clásicas con cualquier dato numérico que tenga una característica variable; por ejemplo, cantidad, unidades de tiempo u otras unidades de medida.
Cómo funciona
El muestreo de variables clásicas le permite seleccionar y analizar un pequeño subconjunto de los registros de una cuenta. Sobre la base del resultado del análisis del subconjunto, puede calcular el valor auditado total de la cuenta y el importe total de información errónea monetaria.
Las dos estimaciones se calculan como intervalos:
- La estimación puntual es el punto medio de un intervalo.
- El límite superior y el límite inferior son los dos puntos extremos de un intervalo.
También puede optar por calcular un intervalo o una estimación hacia un solo extremo, con una estimación puntual y únicamente un límite superior o únicamente un límite inferior.
Usted compara el intervalo estimado con el valor contable de la cuenta o con el importe de información errónea que usted considera trascendente y toma una determinación respecto de la cuenta.
El muestreo de variables clásicas permite hacer este tipo de declaración:
- Existe un 95 % de probabilidades de que el valor auditado real de la cuenta esté entre 45.577.123,95 y 46.929.384,17, un intervalo que contiene el valor contable de la cuenta que es 46.400.198,71. Por lo tanto, los importes de la cuenta se consideran razonablemente precisos.
- Hay un 95 % de probabilidades de que la información errónea en el saldo de la cuenta se encuentre entre – 813.074,76 y 539.185,46; lo cual no supera la precisión monetaria de ±928.003,97. Por lo tanto, los importes de la cuenta se consideran razonablemente precisos.
Descripción general del proceso de muestreo de variables clásicas
¡Precaución!
No saltee el cálculo de un tamaño de muestra válido.
Si pasa directamente a extraer una muestra de registros y no calcula el tamaño de la muestra, es altamente probable que la proyección de los resultados de su análisis no sea válida y que su conclusión final sea errónea.
El proceso de muestreo de variables clásicas incluye las siguientes etapas:
- Preparar (planificar) la muestra de variables clásicas
- Extraer la muestra de los registros
- Realizar los procedimientos de auditoría deseados en los datos de muestra.
- Evaluar lo siguiente:
- si el valor auditado de los datos de los que se extrae la muestra, al ser proyectado a la totalidad de la cuenta, cae dentro de un rango aceptable del valor contable registrado
- si los niveles observados de información monetaria errónea representan un grado de error aceptable o inaceptable en la totalidad de la cuenta
Los valores se conservan y se completan automáticamente entre las etapas
Para el muestreo de variables clásicas en Analytics, usted debe introducir información en tres cuadros de diálogo independientes y ejecutar los comandos asociados, en este orden:
- Cuadro de diálogo CVS Preparar
- Cuadro de diálogo CVS Muestra
- Cuadro de diálogo CVS Evaluar
Al avanzar en el proceso, la información de un cuadro de diálogo se coloca automáticamente en el cuadro de diálogo siguiente. Esto ahorra trabajo y elimina el riesgo de introducir erróneamente valores incorrectos e invalidar la muestra.
Sin embargo, los valores que se autocompletan en los cuadros de diálogo CVS Muestra y CVS Evaluar solo se almacenan temporalmente y se los elimina al cerrar el proyecto de Analytics.
Regeneración de los valores del muestreo de variables clásicas
En un entorno de producción, usted realizaría las diferentes etapas del proceso de muestreo de variables clásicas en diferentes momentos. Puede utilizar cualquiera de los siguientes métodos para regenerar los valores del muestreo de variables clásicas que se pierden al cerrar Analytics.
El primer método es el más sencillo.
- Guardar los comandos precompletados
Los resultados de las etapas CVS Preparar y CVS Muestra incluyen comandos sucesivos en el proceso de muestreo de variables clásicas y se precompletan con los valores necesarios. Guarde estos comandos precompletados y scripts independientes para usarlos más tarde.
Si desea obtener más información, consulte Tutorial de muestreo de variables clásicas.
- Guardar los comandos ejecutados en scripts
Después de realizar las etapas CVS Preparar y CVS Muestra, copie los comandos CVSPREPARE y CVSSAMPLE desde el área de visualización de Analytics y guárdelos en scripts independientes. Puede ejecutar estos scripts más tarde para regenerar los valores del muestreo de variables clásicas.
La desventaja de este método es qu usted extrae una muestra redundante de registros.
- Recuperar los comandos ejecutados desde el log
Copie los comandos CVSPREPARE y CVSSAMPLE desde el log y vuelva a ejecutarlos en la línea de comandos para volver a generar los valores del muestreo de variables clásicas.
La desventaja de este método es que puede ser difícil encontrar las instancias correctas de los comandos en el log y usted extrae una muestra redundante de registros.
Cambio de los valores precompletados
Normalmente, no debe cambiar ninguno de los valores de muestreo de variables clásicas autocompletados. Si cambia los valores autocompletados, puede negar la validez estadística del proceso de muestreo.
¡Precaución!
Actualice los valores autocompletados únicamente si tiene conocimientos de estadística como para comprender el efecto del cambio.
Limitación de la longitud de los números
Durante la etapa de preparación del muestreo de variables clásicas, se realizan varios cálculos internos. Estos cálculos admiten números con una longitud máxima de 17 dígitos. Si el resultado de algún cálculo supera los 17 dígitos, no se lo incluye en la salida y usted no puede continuar con el proceso de muestreo.
Tenga en cuenta que los números de datos de origen con menos de 17 dígitos pueden generar un cálculo interno cuyo resultado supere los 17 dígitos.
Estratificación
El muestreo de variables clásicas le da la opción de estratificar numéricamente los registros de una población antes de extraer una muestra.
El beneficio de la estratificación es que con frecuencia reduce drásticamente el tamaño necesario de la muestra mientras que mantiene la validez estadística. Si el tamaño de muestra es reducido, se necesita menos trabajo de análisis de datos para alcanzar un objetivo.
Cómo funciona

La estratificación funciona dividiendo la población en una cantidad de subgrupos, o niveles, denominados estratos. Lo ideal es que los valores de cada estrato sean relativamente homogéneos.
Un algoritmo estadístico (el método de Neyman) establece los límites entre los estratos. El algoritmo fija los límites con el fin de minimizar la dispersión de los valores de cada estrato, lo cual reduce el efecto de la varianza de la población. Al reducir la varianza, o 'dispersión', se reduce el tamaño necesario de la muestra. Por diseño, el rango de cada estrato no es uniforme.
Por eso, la cantidad de muestras necesarias se calcula estrato por estrato y se totaliza en lugar de calcularse para toda la población sin estratificar. Para el mismo conjunto de datos, el enfoque estratificado suele requerir un tamaño de muestra más pequeño que el enfoque no estratificado.
Pre-estratificación con el uso de celdas
Como parte del proceso de estratificación, usted especifica la cantidad de celdas que se deben utilizar para estratificar la población. Las celdas son divisiones numéricas uniformes más estrechas que los estratos.
Un algoritmo estadístico utiliza el recuento de los registros de cada celda como parte del cálculo que asigna los límites óptimos de los estratos. Las celdas no se conservan en la salida estratificada final.
Como mínimo, la cantidad de celdas especificadas debe ser el doble de la cantidad de estratos especificados.
Nota
Las celdas de preestratificación y las celdas que se utilizan en el método de selección de muestras por celdas no son lo mismo.
Exceso de algo positivo
La estratificación es una herramienta potente para manejar el tamaño de las muestras, pero debe tener cuidado al especificar la cantidad de estratos y la cantidad de celdas.
Como punto de partida, intente lo siguiente:
- 4 a 5 estratos
- 50 celdas
Después de cierto punto, el incremento del número de estratos tiene un efecto mínimo o nulo sobre el tamaño de la muestra Sin embargo, este incremento puede afectar de forma negativa el diseño de la muestra o el desempeño de Analytics al estratificar grandes conjuntos de datos.
En lo que concierne al diseño de las muestras, al alcanzar la etapa de evaluación, es necesario contar con una cantidad mínima de información errónea en cada estrato para proyectar de forma confiable esos errores a toda la población. Si tiene demasiados estratos en relación a la cantidad de información errónea, pueden surgir problemas en el momento de la proyección.
Los estratos de certeza
Otra opción de estratificación disponible consiste en definir un estrato de certeza. Puede definir un estrato de certeza superior, un estrato de certeza inferior, o ambos.
El uso de un estrato de certeza tiene dos ventajas:
- Inclusión automática Los elementos individualmente significativos o los elementos de valor elevado se incluyen automáticamente en la muestra y no existe riesgo de que sean excluidos por el método de selección aleatoria.
- Reducción de la varianza Los elementos del estrato de certeza se quitan del cálculo del tamaño de la muestra. Por su naturaleza, si los elementos de valor elevado se incluyen en el cálculo, pueden incrementar la varianza de la población y el tamaño de muestra necesario.
Definición de un estrato de certeza
Para definir un estrato de certeza, usted debe especificar un valor de corte numérico:
- Corte del estrato de certeza superior Todos los valores contables de los campos clave que sean mayores o iguales al valor de corte se seleccionan automáticamente y se incluyen en la muestra.
- Corte del estrato de certeza inferior Todos los valores contables de los campos clave que sean inferiores o iguales al valor de corte se seleccionan automáticamente y se incluyen en la muestra.
El uso del estrato de certeza inferior resulta útil si hay grandes valores negativos en una población y desea incluirlos automáticamente.
Las muestras de la parte de la población que no es capturada por un estrato de certeza se seleccionan con el método aleatorio.
Nota
Según la naturaleza de los datos, el tamaño total de la muestra se puede incrementar a medida que reduce el valor de corte del estrato de certeza superior o eleva el valor de corte del estrato de certeza inferior.
Debe evitar fijar un valor de corte demasiado generoso. Si no está seguro en qué nivel fijar el valor de corte, consulte con un especialista en muestreo.
Coordinación de los estratos de certeza superior e inferior
Si decide usar tanto el estrato de certeza inferior como el superior al extraer una muestra, debe considerar cómo se relacionan los valores de corte superior e inferior:
- Los estratos de certeza no se pueden superponer Si especifica un valor de corte superior inferior al valor de corte inferior, ocurrirá un error.
- Deje suficiente espacio entre los valores de corte Si especifica valores de corte demasiado cercanos entre sí, la mayoría de la población se incluye automáticamente en la muestra, lo cual invalida la finalidad del muestreo.
De qué manera selecciona registros el muestreo de variables clásicas
El muestreo de variables clásicas usa el siguiente proceso para seleccionar registros de muestra de una tabla de Analytics:
- Especifique un campo numérico como base para el muestreo. La unidad de muestreo es un registro individual de la tabla.
- Con el método de selección aleatorio, Analytics selecciona muestras de entre los registros de la tabla.
- Si está usando la estratificación, se selecciona de manera aleatoria una cantidad aproximadamente igual de registros de cada estrato.
- Si no está utilizando la estratificación, los registros se seleccionan de manera aleatoria de la población completa.
- Los registros seleccionados se incluyen en la tabla de salida de muestreo.
Ejemplo
En una tabla con 300 registros, divididos en 3 estratos, Analytics podría seleccionar los siguientes números de registros:
Estrato 1 | Estrato 2 | Estrato 3 |
---|---|---|
|
|
|
En una tabla no estratificada, con 300 registros, Analytics podría seleccionar los números de registros que se muestran a continuación: Puede ver que el número de registros seleccionados está distribuido de manera menos uniforme.
Nota
Los números de registros a continuación se agrupan en tres columnas para facilitar la comparación, pero las columnas no representan a los estratos.
|
|
|
Selección de muestra sin desviación
El muestreo de variables clásicas no tiene sesgo y no se basa en los importes contenidos en un registro. Cada registro tiene la misma posibilidad de ser seleccionado para su inclusión en la muestra. Un registro que contiene un importe de $1000, un registro que contiene un importe de $250 y un registro que contiene un importe de $1 tienen la misma oportunidad de ser seleccionados.
En otras palabras, la probabilidad de que cualquier registro determinado sea seleccionado no tiene ninguna relación con el tamaño del importe que contiene.
Si desea asegurarse de que se seleccionen los registros con los importes más elevados, consulte Los estratos de certeza.