Méthodes de sélection d'échantillon
Les méthodes de sélection d'échantillon sont les méthodes spécifiques utilisées pour sélectionner les enregistrements contenus dans un échantillon.
Pour l'échantillonnage par enregistrement et pour l'échantillonnage par unité monétaire, Analytics prend en charge trois méthodes de sélection d'échantillon :
- par intervalle fixe
- cellule
- aléatoire
Dans le cas de l'échantillonnage de variables classiques, la méthode de sélection aléatoire est la seule possibilité.
Méthode de sélection d'échantillons et type d'échantillonnage
Il est important de bien comprendre la différence entre méthode de sélection d'échantillons et type d'échantillonnage.
Type d'échantillonnage renvoie à la méthode globale statistique utilisée pour parvenir à une estimation concernant une population.
Méthode de sélection d'échantillons renvoie à la manière dont les enregistrements sont extraits d'une population afin de les inclure à un échantillon.
Type d'échantillonnage | Méthodes de sélection d'échantillon possibles | Détails |
---|---|---|
Échantillonnage par enregistrement |
|
Les enregistrements contenus dans l'échantillon sont directement sélectionnés |
Échantillonnage par unité monétaire |
|
Les enregistrements contenus dans l'échantillon sont ceux qui correspondent aux unités monétaires sélectionnées |
Échantillonnage de variables classiques |
|
Les enregistrements contenus dans l'échantillon sont directement sélectionnés |
Méthode de sélection par intervalle fixe
Avec la méthode de sélection par intervalle fixe, une unité monétaire ou un enregistrement initial est sélectionné, et toutes les sélections suivantes sont séparées d'un intervalle ou d'une distance fixe : par exemple, toutes les 5 000 unités monétaires, ou tous les 20 enregistrements, à partir de la première sélection.

Pour utiliser la méthode de sélection par intervalle fixe, vous spécifiez :
- La valeur de l'intervalle générée par Analytics lorsque vous calculez la taille de l'échantillon
- Un nombre supérieur à zéro et inférieur ou égal à la valeur de l'intervalle
Le numéro de départ et la valeur de l'intervalle sont utilisés pour sélectionner les enregistrements contenus dans l'échantillon.
Remarque
Si vous souhaitez qu'Analytics sélectionne de façon aléatoire un numéro de départ, vous pouvez saisir un numéro de départ égal à « 0 » ou laisser le numéro de départ vide.
Exemple
Si 62 est l'intervalle généré par Analytics et que vous choisissez 17 comme numéro de départ, les unités monétaires ou numéros d'enregistrements suivants sont sélectionnés :
- 17
- 79 (17+62)
- 141 (79+62)
- 203 (141+62)
- et ainsi de suite
Chaque sélection est séparée de la même distance ou intervalle fixe.
Pour l'échantillonnage par unité monétaire, les numéros d'enregistrements réels sélectionnés sont ceux qui correspondent aux unités monétaires sélectionnées. Pour plus d'informations, consultez la section Sélection des enregistrements dans un échantillonnage par unité monétaire.
Considérations générales
Lorsque vous utilisez la méthode de sélection par intervalle fixe, vous devez être attentif aux modèles de tendance dans les données. Comme un intervalle fixe est utilisé pour la sélection d'échantillon, un échantillon non représentatif peut être créé si les données ont un modèle qui coïncide avec l'intervalle spécifié.
Par exemple, vous échantillonnez des frais à l'aide d'un intervalle de 10 000 $ et la même catégorie de frais apparaît aux intervalles par 10 000 dollars dans le fichier, ce qui aboutit à une seule catégorie de frais pour tous les enregistrements sélectionnés. Ce type de scénario n'est pas courant, mais vous devez savoir qu'il peut se produire.
Méthode de sélection par cellule
Avec la méthode de sélection par cellule, le jeu de données est divisé en plusieurs cellules ou groupes de taille égale, et une unité monétaire ou un enregistrement est sélectionné de façon aléatoire dans chaque cellule.

Pour utiliser la méthode de sélection par cellule, vous spécifiez :
- La valeur de l'intervalle générée par Analytics lorsque vous calculez la taille de l'échantillon
- Une valeur de départ utilisée pour lancer le générateur de nombres aléatoires dans Analytics
La valeur de l'intervalle détermine la taille de chaque cellule. Le générateur de nombres aléatoires spécifie quelle unité monétaire ou quel numéro d'enregistrement est sélectionné dans chaque cellule.
Remarque
Si vous souhaitez qu'Analytics sélectionne aléatoirement une valeur de départ, vous pouvez saisir une valeur de départ égale à « 0 » ou la laisser vide.
Exemple
Si 62 est l'intervalle généré par Analytics, une unité monétaire ou un numéro d'enregistrement est sélectionné de façon aléatoire dans chacune des cellules suivantes :
- cellule 1 (1 à 62)
- cellule 2 (63 à 124)
- cellule 3 (125 à 186)
- et ainsi de suite
Chaque sélection est séparée par une distance aléatoire, mais est limitée à l'intérieur de sa cellule.
Pour l'échantillonnage par unité monétaire, les numéros d'enregistrements réels sélectionnés sont ceux qui correspondent aux unités monétaires sélectionnées. Pour plus d'informations, consultez la section Sélection des enregistrements dans un échantillonnage par unité monétaire.
La valeur de départ
Si vous indiquez une valeur de départ, il peut s'agir de n'importe quel nombre. Toute valeur de départ unique génère un jeu différent de nombres aléatoires. Si vous indiquez à nouveau la même valeur de départ, le même jeu de nombres aléatoires est généré. Indiquez de manière explicite une valeur de départ et enregistrez-la si vous voulez répliquer une sélection particulière de l'échantillon.
Considérations générales
Le grand avantage de la méthode de sélection par cellule par rapport à la méthode de sélection par intervalle fixe, c'est qu'elle permet d'éviter des problèmes liés aux tendances dans les données.
Deux inconvénients existent pour l'échantillonnage par unité monétaire :
- Les montants peuvent recouvrir le point de division entre deux cellules, ce qui suppose qu'ils pourraient être sélectionnés deux fois, donnant un échantillon moins cohérent que l'échantillon généré par la méthode par intervalle fixe.
- Les gros montants inférieurs à la limite de la couche supérieure ont légèrement moins de chances d'être sélectionnés.
Méthode de sélection aléatoire
Avec la méthode de sélection aléatoire, toutes les unités monétaires ou tous les enregistrements sont sélectionnés de façon aléatoire parmi l'intégralité du jeu de données ou dans chaque couche si vous utilisez l'échantillonnage de variables classiques.

Remarque
N'utilisez pas la méthode de sélection aléatoire avec l'échantillonnage par unité monétaire si vous avez l'intention d'utiliser Analytics pour évaluer des anomalies détectées dans l'échantillon créé. L'évaluation d'échantillons par unité monétaire exige que vous utilisiez les méthodes par intervalle fixe ou par sélection de cellules.
Pour utiliser la méthode de sélection aléatoire, vous spécifiez :
- La taille de l'échantillon, telle qu'elle est calculée par Analytics, c'est-à-dire le nombre d'échantillons à sélectionner
- Une valeur de départ utilisée pour lancer le générateur de nombres aléatoires dans Analytics
- La taille de la population, c'est-à-dire la valeur absolue du champ de l'échantillon ou le nombre total d'enregistrements dans le jeu de données
Pour l'échantillonnage de variables classiques, la taille de l'échantillon et la taille de la population peuvent être préremplies automatiquement par Analytics.
Le générateur de nombres aléatoires spécifie quelles unités monétaires ou quels numéros d'enregistrement sont sélectionnés dans le jeu de données. Chaque sélection est espacée d'une distance aléatoire.
Remarque
Si vous souhaitez qu'Analytics sélectionne aléatoirement une valeur de départ, vous pouvez saisir une valeur de départ égale à « 0 » ou la laisser vide.
La valeur de départ
Si vous indiquez une valeur de départ, il peut s'agir de n'importe quel nombre. Dans le cas de l'échantillonnage de variables classiques, la valeur de départ doit être un nombre positif qui n'est pas supérieur à 2 147 483 647.
Toute valeur de départ unique génère un jeu différent de nombres aléatoires. Si vous indiquez à nouveau la même valeur de départ, le même jeu de nombres aléatoires est généré. Indiquez de manière explicite une valeur de départ et enregistrez-la si vous voulez répliquer une sélection particulière de l'échantillon. Vous pouvez aussi récupérer une valeur de départ à partir de la trace des commandes.
Considérations générales
Il se peut que les grands montants soient exclus d'un échantillon par unité monétaire
Avec la méthode de sélection aléatoire, chaque unité monétaire a une chance égale d'être sélectionnée et il n'y a pas de garantie que l'échantillon créé sera réparti de manière égale. Par conséquent, il se peut que, dans certains cas, la distance ou l'écart soit grand entre les unités sélectionnées. S'il se trouve que toutes les unités monétaires associées à un grand montant tombent dans un écart, le montant n'est pas inclus dans l'échantillon. Il n'existe aussi aucune limite de couche supérieure disponible lors de l'utilisation de la méthode de sélection aléatoire.
Avec les méthodes de sélection par intervalle fixe et par cellule, on a l'assurance que les unités sélectionnées sont réparties de façon égale ou relativement égale. Et la limite de couche supérieure est disponible.
Des montants peuvent être inclus plusieurs fois dans un échantillon par unité monétaire
Analytics ne génère pas deux fois le même numéro aléatoire. Toutefois, des numéros aléatoires qui sont proches, ou consécutifs, peuvent apparaître.
Avec l'échantillonnage par unité monétaire, des numéros aléatoires proches ou consécutifs équivalent à une sélection d'unités monétaires proches ou consécutives, ce qui peut, à son tour, mener à plusieurs sélections d'un montant associé.
Avec l'échantillonnage par enregistrements et l'échantillonnage de variables classiques, on ne rencontre pas ce problème car chaque nombre aléatoire équivaut à un enregistrement différent.
Algorithmes de nombres aléatoires
Dans le cas de l'échantillonnage par enregistrement et par unité monétaire, le générateur de nombres aléatoires dans Analytics présente deux options d'algorithme :
- Mersenne-Twister
- L'algorithme d'Analytics par défaut
Mersenne-Twister est un algorithme de nombres aléatoires très utilisé et il présente de meilleures propriétés statistiques que l'algorithme d'Analytics par défaut. Utilisez l'algorithme par défaut si vous avez besoin d'une rétrocompatibilité avec les scripts Analytics ou les résultats d'échantillonnage créés avant Analytics version 12.
Dans le cas de l'échantillonnage de variables classiques, il n'est pas possible de recourir à Mersenne-Twister et c'est l'algorithme d'Analytics par défaut qui est utilisé.
Ajouter un champ Numéros d'enregistrements
Il peut être utile d'ajouter un champ Numéros d'enregistrements à la table Analytics à partir de laquelle vous extrayez un échantillon. Une fois que vous avez extrait l'échantillon, les numéros d'enregistrements spécifiques sélectionnés dans la table source s'affichent dans la table de sortie contenant l'échantillon.
Remarque
Un champ numéro d'enregistrement est inclus automatiquement dans la table de sortie lorsque vous utilisez l'échantillonnage de variables classiques.

- Dans la table source, créez un champ calculé qui utilise l'expression suivante :
RECNO( )
Pour plus d'informations, consultez la section Définition d'un champ calculé conditionnel.
- Lorsque vous échantillonnez les données, sortez-les par Champs, et non par Enregistrement.
Vous devez les sortir par Champs afin de convertir le champ des numéros d'enregistrements calculés vers un champ physique qui conserve les numéros d'enregistrements de la table source.
- Incluez le champ Numéros d'enregistrements calculé dans les champs de sortie que vous spécifiez.