Échantillonnage de variables classiques
L'échantillonnage de variables classiques est une méthode d'échantillonnage statistique pour estimer ce qui suit :
- la valeur auditée totale d'un compte ou d'une classe de transactions
- le montant total d'anomalie monétaire dans un compte ou une classe de transactions
L'échantillonnage de variables classiques fonctionne mieux avec des données financières présentant les caractéristiques suivantes :
un nombre modéré d'anomalies jusqu'à un grand nombre d'anomalies Par exemple, au moins 5 % des écritures présentent des anomalies. |
des surestimations ou des sous-estimations peuvent exister |
des écritures à valeur nulle peuvent exister |
Astuce
Pour une présentation pratique du processus de bout en bout relatif à l'échantillonnage de variables classiques dans Analytics, consultez la rubrique Échantillonnage de variables classiques - Tutoriel.
Remarque
En plus des données financières, vous pouvez utiliser l'échantillonnage de variables classiques avec des données numériques présentant des caractéristiques de variables, par exemple, une quantité, des unités de temps ou d'autres unités de mesure.
Fonctionnement
L'échantillonnage de variables classiques vous permet de sélectionner et d'analyser un petit sous-ensemble d'enregistrements dans un compte qui est basé sur l'estimation du résultat de la valeur totale auditée du compte et du montant total d'anomalie monétaire.
Les estimations sont calculées sous forme de plages :
- L'estimation ponctuelle correspond au milieu de la plage.
- La limite supérieure et la limite inférieure sont les deux extrémités de la plage.
Vous pouvez aussi choisir de calculer une estimation ou une plage unilatérale, pourvue d'une estimation ponctuelle et d'une seule limite (supérieure ou inférieure) uniquement.
Vous comparez l'anomalie estimée à la valeur comptable du compte ou au montant de l'anomalie que vous jugez significatif et vous tirez une conclusion concernant le compte.
L'échantillonnage de variables classiques prend en charge ce type de déclaration :
- Il existe une probabilité de 95 % que la véritable valeur auditée du compte se situe entre 45 577 123,95 et 46 929 384,17, plage contenant la valeur comptable de 46 400 198,71. Par conséquent, les montants du compte sont déclarés correctement.
- Il existe une probabilité de 95 % que l'anomalie du solde du compte soit comprise entre 813 074,76 et 539 185,46, ce qui est inférieur à la précision monétaire de ±928 003,97. Par conséquent, les montants du compte sont déclarés correctement.
Présentation du processus d'échantillonnage des variables classiques
Attention
Ne pas ignorer le calcul d'une taille d'échantillon valide.
Si vous extrayez directement un échantillon d'enregistrements et que vous devinez une taille d'échantillon, il y a de fortes chances que la projection de vos résultats d'analyse ne soit pas valide et que votre conclusion définitive soit erronée.
Le processus d'échantillonnage des variables classiques se compose des grandes étapes suivantes :
- Préparer (planifier) l'échantillon de variables classiques
- Extraire l'échantillon d'enregistrements
- Réalisez les procédures d'audit prévues sur les données échantillonnées.
- Évaluez les éléments suivants :
- si oui ou non la valeur auditée des données échantillonnées, lorsqu'elles sont projetées sur le compte dans son ensemble, se situe à l'intérieur d'une plage acceptable de la valeur comptable enregistrée
- si oui ou non les valeurs observées d'anomalie monétaire dans les données échantillonnées représentent un montant acceptable ou inacceptable d'anomalie dans le compte dans son ensemble
Limitation de longueur numérique
Plusieurs calculs internes ont eu lieu pendant l'étape de préparation de l'échantillonnage de variables classiques. Ces calculs prennent en charge les nombres d'une longueur maximale de 17 chiffres. Si le résultat d'un calcul dépasse 17 chiffres, ce résultat ne figure pas dans la sortie et vous ne pouvez pas poursuivre le processus d'échantillonnage.
Notez que les nombres des données source d'une longueur inférieure à 17 chiffres peuvent générer des résultats de calculs internes dépassant les 17 chiffres.
Les valeurs sont conservées et pré-remplies entre chaque étape
Lorsque vous utilisez Analytics pour l'échantillonnage de variables classiques, vous saisissez les informations dans trois boîtes de dialogue distinctes et vous exécutez les commandes associées, dans cet ordre :
- Boîte de dialogue Préparer CVS
- Boîte de dialogue Échantillonner CVS
- Boîte de dialogue Évaluer CVS
À mesure que vous avancez dans ce processus, les informations d'une boîte de dialogue sont pré-remplies dans la boîte de dialogue suivante. Le pré-remplissage fait gagner un temps précieux et supprime le risque de saisie accidentelle de valeurs incorrectes et de non-validation de l'échantillon.
Considérations générales importantes
- Modifier les valeurs préremplies généralement, vous ne devriez pas modifier les valeurs préremplies. Modifier les valeurs préremplies peut remettre en cause la validité statistique du processus d'échantillonnage.
Attention
Mettez à jour les valeurs préremplies uniquement si vous avez les connaissances statistiques suffisantes pour comprendre la conséquence de ce changement.
-
Stockage temporaire des valeurs les valeurs qui remplissent automatiquement les boîtes de dialogue Échantillonner CVS et Évaluer CVS sont uniquement stockées de manière temporaire et sont supprimées lorsque vous fermez le projet Analytics.
Instructions
Suivez ces instructions pour rendre le processus CVS de bout en bout le plus transparent possible :
- Ne fermez pas le projet Analytics entre les étapes Préparer CVS et Échantillonner CVS.
Astuce
Si vous fermez réellement le projet, vous pouvez restaurer les valeurs CVS temporaires en re-saisissant les informations requises dans la boîte de dialogue Préparer CVS ou en réexécutant la commande CVSPREPARE dans la trace.
- Facultatif. Après l'exécution de Préparer CVS et Échantillonner CVS, enregistrez les commandes dans un script. Vous pouvez copier les commandes à partir de l'affichage de la sortie ou à partir de la trace.
Vous pouvez aussi copier la version préliminaire de la commande CVSEVALUATE incluse dans la sortie de Échantillonner CVS.
Si besoin, vous pouvez réexécuter une ou plusieurs commandes CVS provenant du script. Tapez COMMENT avant une commande que vous ne souhaitez pas exécuter. Vous devrez probablement mettre à jour la version préliminaire de la commande CVSEVALUATE. Pour plus d'informations, consultez la rubrique Effectuer un échantillonnage de variables classiques.
Stratification
L'échantillonnage de variables classiques vous donne la possibilité de stratifier numériquement les enregistrements d'une population avant d'en extraire un échantillon.
L'avantage de la stratification, c'est qu'elle réduit considérablement la taille requise pour l'échantillon tout en maintenant encore sa validité statistique. Disposer d'un échantillon de taille réduite implique un travail moindre sur l'analyse des données en vue d'atteindre votre objectif.
Fonctionnement

La stratification revient à diviser une population en un certain nombre de sous-groupes, ou niveaux, appelés couches. Idéalement, les valeurs de chaque couche sont relativement homogènes.
Un algorithme statistique (la méthode Neyman) définit les limites entre les couches. L'algorithme place les limites pour minimiser la dispersion des valeurs à l'intérieur de chaque couche, ce qui diminue l'effet de la variance de la population. Réduire la variance - ou l'étendue - diminue la taille d'échantillon requise. De par leur conception, la plage de chaque couche n'est pas uniforme.
Le nombre d'échantillons requis est ensuite calculé par couche, puis totalisé, plutôt qu'à partir de l'intégralité de la population non stratifiée. Pour le même jeu de données, l'approche stratifiée finit généralement par créer une taille d'échantillon plus réduite que l'approche non stratifiée.
Pré-stratification à l'aide de cellules
Dans le cadre du processus de stratification, vous spécifiez le nombre de cellules à utiliser pour pré-stratifier la population. Les cellules sont des divisions numériques uniformes et plus étroites que les couches.
Un algorithme statistique utilise le compte d'enregistrements dans chaque cellule dans le cadre du calcul qui affecte les limites de couches optimales. Les cellules ne sont pas conservées dans la sortie stratifiée définitive.
Le nombre de cellules spécifiées doit être au minimum égal au nombre de couches spécifiées.
Remarque
Les cellules de pré-stratification et les cellules utilisées dans la méthode de sélection d'échantillon par cellules sont des choses différentes.
Il ne faut pas abuser des bonnes choses
La stratification est un outil puissant pour gérer la taille des échantillons, mais vous devez faire preuve de grande prudence lorsque vous indiquez le nombre de couches et le nombre de cellules.
Pour commencer, essayez :
- 4 à 5 couches
- 50 cellules
Après un certain stade, l'augmentation du nombre de couches - ou de cellules - n'a que peu ou pas d'impact sur la taille de l'échantillon. Toutefois, ces augmentations peuvent influer négativement sur la conception de l'échantillon ou sur les performances d'Analytics en cas de stratification de grands jeux de données.
Concernant la conception des échantillons, lorsque vous arrivez à l'étape d'évaluation, vous devez avoir un nombre d'anomalies minimal dans chaque couche afin de projeter convenablement les anomalies sur la population entière. Si le nombre de couches est trop élevé par rapport au nombre d'anomalies, des problèmes peuvent survenir avec la projection.
La couche de certitude
La définition d'une couche de certitude est une autre option de stratification possible.
Le recours à une couche de certitude présente deux avantages :
- Les écritures importantes ou à valeur élevée individuellement sont incluses automatiquement dans l'échantillon et ne courent pas le risque d'être exclues par la méthode de sélection aléatoire.
- Les écritures de la couche de certitude sont supprimées du calcul de la taille d'échantillon. De par leur nature, les écritures à valeur élevée peuvent augmenter significativement la variance de la population et la taille d'échantillon requise, si elles sont incluses dans le calcul.
Définition d'une couche de certitude
Pour définir une couche de certitude, vous spécifiez une valeur limite numérique. Toutes les valeurs comptables de champs clés supérieures ou égales à la valeur limite sont sélectionnées et incluses automatiquement dans l'échantillon. La population restante est échantillonnée à l'aide de la méthode de sélection aléatoire.
Remarque
Plus la valeur limite de la couche de certitude est basse, plus vous augmentez la taille de l'échantillon global.
Il est recommandé d'éviter de définir une valeur limite inutilement basse. Si vous ne savez pas comment définir la valeur, consultez un spécialiste de l'échantillonnage.
Couches de certitude supérieure et inférieure
L'option Couche de certitude dans Analytics définit une couche de certitude supérieure uniquement. Les nombres supérieurs ou égaux à la valeur limite sont inclus dans la couche de certitude.
Il se peut que vous souhaitiez une couche de certitude inférieure pour inclure automatiquement des valeurs négatives élevées dans l'échantillon et pour réduire la variance.
Pour créer une couche de certitude inférieure, vous pouvez utiliser l'une des méthodes suivantes :
- Avant de commencer le processus d'échantillonnage de variables classiques, utilisez un filtre et extrayez toutes les valeurs de la population qui sont inférieures ou égales à une valeur limite inférieure.
Vous pouvez conserver ces enregistrements dans une table distincte ou vous pouvez les concaténer à la table de sortie contenant les échantillons du reste de la population.
Pour plus d'informations, consultez la section Extraction et ajout de données.
- Pendant les étapes Préparer CVS et Échantillonner CVS, utilisez une condition IF pour filtrer les écritures de la couche de certitude inférieure.
Attention
Cette méthode est plus risquée et moins recommandée, car vous devez vous souvenir d'appliquer constamment la condition IF aux deux étapes et lors des répétitions ultérieures des étapes.
Sélection des enregistrements par l'échantillonnage de variables classiques
L'échantillonnage de variables classiques utilise le processus suivant pour sélectionner des enregistrements de l'échantillon dans une table Analytics :
- Vous spécifiez un champ numérique servant de base à l'échantillonnage. L'unité d'échantillonnage est un enregistrement individuel de la table.
- À l'aide de la méthode de sélection aléatoire, Analytics sélectionne des enregistrements parmi les enregistrements de la table.
- Si vous utilisez la stratification, un nombre plus ou moins égal d'enregistrements est sélectionné de manière aléatoire dans chaque couche.
- Si vous n'utilisez pas la stratification, les enregistrements sont sélectionnés de manière aléatoire dans la population entière.
- Les enregistrements sélectionnés sont inclus dans la table de sortie de l'échantillonnage.
Exemple
Dans une table contenant 300 enregistrements, divisée en 3 couches, Analytics pourrait sélectionner les numéros d'enregistrements suivants :
Couche 1 | Couche 2 | Couche 3 |
---|---|---|
|
|
|
Dans une table non stratifiée contenant 300 enregistrements, Analytics pourrait sélectionner les numéros d'enregistrements affichés ci-après. Vous pouvez constater que les numéros d'enregistrements sélectionnés sont répartis de manière moins uniforme.
Remarque
Les numéros d'enregistrements ci-dessous sont regroupés dans trois colonnes afin de faciliter les comparaisons, mais les colonnes ne représentent pas les couches.
|
|
|
Sélection d'un échantillon non biaisé
L'échantillonnage de variables classiques est non biaisé et n'est pas basé sur les montants contenus dans un enregistrement. Chaque enregistrement a une chance égale d'être sélectionné pour être inclus dans l'échantillon. Un enregistrement contenant un montant de 1000 $, un enregistrement contenant un montant de 250 $ et un enregistrement contenant un montant de 1 $ ont tous la même chance d'être sélectionnés.
Autrement dit, la probabilité qu'un enregistrement donné soit sélectionné n'a aucun rapport avec la taille du montant qu'il contient.