Réalisation d'un échantillonnage par unité monétaire
Vous pouvez créer une nouvelle table contenant un échantillon représentatif des données monétaires de la table active.
L'échantillonnage par unité monétaire convient si vous êtes intéressé par le montant total d'anomalie monétaire dans un fichier.
Remarque
Cette procédure n'inclut pas les paramètres de filtrage (instructions IF) ou d'étendue car l'application de ces options compromet la validité d'un échantillon.
Étapes
Remarque
N'incluez pas de séparateur de milliers ni de symbole de pourcentage lorsque vous saisissez des valeurs. Ces caractères empêchent l'exécution de la commande ou entraînent des erreurs.
- Dans le Navigateur, ouvrez la table dont vous souhaitez extraire un échantillon.
- Facultatif. Si vous avez l'intention d'utiliser la méthode de sélection Aléatoire, profilez ou générez des statistiques sur le champ de l'échantillon.
- Sélectionnez Échantillonnage > Échantillonnage par enregistrement/unité monétaire > Échantillonner.
- Dans l'onglet Principal, sélectionnez Échantillon d'UM.
- Sélectionnez le champ à échantillonner dans la liste déroulante Échantillonner sur.
- Dans le panneau Paramètres d'échantillonnage, indiquez une méthode de sélection de l'échantillon :
- Intervalle fixe
- Par cellules
- Aléatoire
Remarque
N'utilisez pas la méthode de sélection aléatoire avec l'échantillonnage par unité monétaire si vous avez l'intention d'utiliser Analytics pour évaluer des anomalies détectées dans l'échantillon créé.
L'évaluation d'échantillons par unité monétaire exige que vous utilisiez les méthodes par intervalle fixe ou par sélection de cellules.
- Entrez les paramètres d'échantillonnage de la méthode de sélection de votre choix :
Méthode de sélection Paramètres d'échantillonnage Intervalle fixe - Intervalle
- Début (facultatif)
- Limite (facultatif)
Cell - Intervalle
- Valeur de départ (facultatif)
- Limite (facultatif)
- Algorithme – laissez Mersenne Twister sélectionné
Aléatoire - Taille
- Valeur de départ (facultatif)
- Population
- Algorithme – laissez Mersenne Twister sélectionné
Remarque
Les paramètres d'échantillonnage sont expliqués de manière détaillée ci-après.
- Dans la zone de texte Vers, indiquez le nom de la table Analytics qui contiendra les résultats de sortie.
- Dans l'onglet Plus, sélectionnez l'une des opérations suivantes :
EnregistrementL'intégralité de l'enregistrement est incluse dans la table de sortie.
Champs Seuls les champs sélectionnés sont inclus dans la table de sortie.
- Si vous avez choisi Champs, sélectionnez le(s) champ(s) à inclure dans la table de sortie à partir de la liste Champs à extraire.
- Facultatif. Sélectionnez l'une ou plusieurs des options suivantes :
- Sous-échantillon
- Ordre de sélection de rapport
- Unique
Remarque
Les options sont expliquées ci-après.L'option
Sous-échantillon est disponible uniquement si la sortie Champs est sélectionnée.
L'option Ordre de sélection de rapport est disponible uniquement si la méthode de sélection Aléatoire et la sortie Champs sont sélectionnées.
- Cliquez sur OK.
Options de la boîte de dialogue Échantillonner
Les tableaux ci-dessous fournissent des informations détaillées sur les options disponibles dans la boîte de dialogue Échantillonner.
Onglet Principal
Options – Boîte de dialogue Échantillonner | Description |
---|---|
MUS Enregistrement |
Le type d'échantillon :
|
Echantillonner sur |
Le champ de l'échantillon numérique.
|
Intervalle fixe |
Indique que la méthode par intervalle fixe est utilisée pour la sélection de l'échantillon. Les échantillons sont sélectionnés à partir d'une valeur d'intervalle et d'un numéro de début que vous spécifiez. Pour plus d'informations, consultez la section Méthode de sélection par intervalle fixe. Si vous avez sélectionné Intervalle fixe, entrez les valeurs suivantes :
|
Par cellules |
Indique que la méthode par cellule est utilisée pour la sélection de l'échantillon. Le jeu de données est divisé en plusieurs cellules ou groupes de taille égale, et un échantillon est sélectionné de façon aléatoire dans chaque cellule. La valeur de l'intervalle détermine la taille de chaque cellule. Pour plus d'informations, consultez la section Méthode de sélection par cellule. Si vous avez sélectionné Cellule, entrez les valeurs suivantes :
|
Aléatoire |
Indique que la méthode aléatoire est utilisée pour la sélection de l'échantillon. Les échantillons sont sélectionnés de manière aléatoire dans le jeu de données complet. Pour plus d'informations, consultez la section Méthode de sélection aléatoire. Si vous avez sélectionné Aléatoire, entrez les valeurs suivantes :
|
Si |
Attention Ne créez pas de déclaration IF ou ne filtrez pas des enregistrements pendant l'échantillonnage. Si vous le faites, cela compromet la validité de l'échantillon. Pour plus d'informations, consultez la section Échantillonnage conditionnel. |
à | Le nom et l'emplacement de la table de sortie.
Indépendamment de l'emplacement dans lequel vous enregistrez la table de sortie, cette dernière est ajoutée au projet ouvert si elle ne s'y trouve pas déjà. Si Analytics prérenseigne le nom de la table, vous pouvez l'accepter ou le modifier. |
Local |
Si vous êtes connecté à une table serveur, indiquez l'emplacement dans lequel enregistrer la table de sortie.
|
Utiliser la table de sortie | Indique si la table Analytics qui contient les résultats de sortie s'ouvre automatiquement dès la fin de l'opération. |
Onglet Plus
Options – Boîte de dialogue Échantillonner | Description |
---|---|
Panneau étendue |
Attention Ne limitez pas le nombre d'enregistrements traités pendant l'échantillonnage. Si vous le faites, cela compromet la validité de l'échantillon. Pour plus d'informations, consultez la section Échantillonnage conditionnel. |
Enregistrement Champs |
Indique si la table de sortie inclut l'enregistrement entier ou certains champs. Si vous choisissez Champs, effectuez l'une des opérations suivantes : Sélectionnez les champs à extraire dans la liste Champs à extraire. Cliquez sur Champs à extraire pour sélectionner les champs ou créer une expression. L'ordre dans lequel vous sélectionnez les champs est celui dans lequel les colonnes apparaissent dans les résultats. Si vous ajoutez des résultats à une table Analytics existante, le choix et l'ordre des colonnes doivent être identiques à ceux de la table existante. |
Sous-échantillon Ordre de sélection de rapport Unique |
(Facultatif) Options d'échantillonnage supplémentaires Vous pouvez sélectionner l'une ou plusieurs des options suivantes :
Remarque L'option Sous-échantillon est disponible uniquement si la sortie Champs est sélectionnée. L'option Ordre de sélection de rapport est disponible uniquement si la méthode de sélection Aléatoire et la sortie Champs sont sélectionnées. Grâce à Unique, les enregistrements sélectionnés ne sont plus éligibles à la sélection suivante, ce qui peut réduire la taille de l'échantillon. Envisagez de suréchantillonner le jeu de données pour compenser. Pour plus d'informations, consultez la section Sélection d'échantillon sans répétition. |
Ajouter au fichier existant | Indique que les résultats édités sont ajoutés à la fin de la table Analytics existante. Remarque Nous vous conseillons de ne pas sélectionner Ajouter au fichier existant si vous avez un doute quant aux résultats de sortie et si la table disponible a une structure de données identique. Pour plus d’informations sur l'ajout des résultats et la structure des données, consultez la section Ajout de résultats aux tables Analytics et aux fichiers texte. |
OK | Exécute l'opération. Si un message vous invitant à remplacer le fichier apparaît, sélectionnez l'option qui convient. Si vous pensiez voir apparaître l'option Ajouter t qu'elle n'apparaît pas, cliquez sur Non pour annuler l'opération et consultez la section Ajout de résultats aux tables Analytics et aux fichiers texte. |
Options d'échantillonnage par unité monétaire
Vous pouvez spécifier une ou plusieurs des options suivantes pour l'échantillonnage par unité monétaire :
- Limite de couche supérieure
- Sous-échantillonnage
- Sélection d'échantillon sans répétition
Limite de couche supérieure
Remarque
La limite de couche supérieure est disponible uniquement pour l'échantillonnage par unité monétaire qui utilise les méthodes de sélection par intervalle fixe ou par cellule.
La limite de couche supérieure est une autre méthode qu'Analytics utilise pour faire en sorte que l'échantillonnage par unité monétaire favorise les gros montants. Par défaut, les montants du champ de l'échantillon qui sont supérieurs ou égaux à la valeur de l'intervalle sont considérés comme des montants de couche supérieure et ils sont inclus automatiquement dans l'échantillon.
Les montants négatifs et positifs sont éligibles à l'inclusion automatique car c'est la valeur absolue du montant qui est prise en compte.
Remarquez que plus le montant de la sélection automatique est élevé, plus la taille de l'échantillon est grande.
Vous pouvez éventuellement spécifier une valeur limite de couche supérieure plus élevée ou moins élevée que la valeur de l'intervalle :
Limite de couche supérieure plus élevée que la valeur de l'intervalle | Diminue la probabilité que les gros montants soient automatiquement inclus dans l'échantillon. Si vous spécifiez une valeur limite supérieure au plus gros montant positif ou négatif dans le champ de l'échantillon, aucun montant n'est sélectionné automatiquement. |
---|---|
Limite de couche supérieure moins élevée que la valeur de l'intervalle | Augmente la probabilité que les gros montants soient automatiquement inclus dans l'échantillon. Si aucun montant n'est sélectionné automatiquement à l'aide de la limite de couche supérieure par défaut, vous pouvez ajuster la valeur limite vers le bas afin de sélectionner automatiquement certains gros montants dans le champ de l'échantillon. Attention Si vous spécifiez une valeur limite qui est trop petite par rapport aux montants du champ de l'échantillon, une trop grande quantité de montants est sélectionnée automatiquement, ce qui va à l'encontre de l'objectif de l'échantillonnage. |
Sélections et montant de couche supérieure enregistrés dans la trace
Lorsque vous effectuez un échantillonnage par unité monétaire, le nombre de sélections de couche supérieure et le montant total de la couche supérieure s'affichent dans la trace.
Exemple
La trace montre que 8 des 93 enregistrements sélectionnés sont de la couche supérieure, représentant 33 153,55 $ de la valeur absolue du champ de l'échantillon numérique.
Taille de l'échantillon = 93 (8 de la couche supérieure) sur 772 enregistrements échantillonnés Population : 585674,41, Couche supérieure : 33153,55, Autre : 552520,86
Sous-échantillonnage
Remarque
Le sous-échantillonnage est uniquement disponible pour l'échantillonnage par unité monétaire en utilisant la sortie de champ.
Dans certains cas, chaque montant dans un champ d'échantillon représente un total de plusieurs transactions distinctes. Si vous souhaitez effectuer des procédures d'audit sur une seule transaction de chaque montant total échantillonné, vous pouvez utiliser le sous-échantillonnage pour sélectionner de façon aléatoire les transactions individuelles.
Lorsque vous sélectionnez Subsample dans la boîte de dialogue Échantillon, l'échantillon créé inclut le champ SUBSAMPLE. Ce champ contient des montants qui représentent la différence entre le montant total et l'unité monétaire réelle utilisée pour sélectionner le montant total.
Exemple
12 455 $ | (montant total) |
- 4 620 $ | (unité monétaire sélectionnée) |
= 7 835 $ | (montant affiché dans le champ SUBSAMPLE) |
Pour terminer le processus, vous sélectionneriez la transaction contenant le 7 835e dollar dans le solde cumulé des transactions pour ce montant total particulier.
Remarque
Dans l'échantillon, les montants limites de la couche supérieure affichent « 0,00 » dans le champ SUBSAMPLE car ils sont automatiquement inclus dans l'échantillon et aucune unité monétaire n'a été impliquée dans leur sélection.
Sélection d'échantillon sans répétition
L'échantillonnage par unité monétaire peut sélectionner plusieurs fois le même enregistrement. Chaque montant dans le champ de l'échantillon contient plusieurs unités monétaires et au moins deux unités monétaires appartenant au même montant peuvent être sélectionnées, ce qui signifie que l'enregistrement contenant le montant est sélectionné plusieurs fois.
Vous pouvez éviter plusieurs sélections du même enregistrement en sélectionnant Unique dans la boîte de dialogue Échantillon. L'échantillon créé ne contiendra pas de doublons. Toutefois, le nombre d'enregistrements échantillonnés peut être inférieur à la taille de l'échantillon calculée par Analytics. Pour compenser, vous pouvez suréchantillonner à l'aide de l'une des méthodes suivantes pour accroître la taille de l'échantillon :
-
Méthodes de sélection par intervalle fixe ou par cellule :
- diminuer la taille de l'intervalle
- ajuster la valeur de la limite supérieure pour qu'elle sélectionne automatiquement un plus grand nombre d'enregistrements
- Méthode de sélection aléatoire augmente la taille de l'échantillon spécifiée