Nettoyage des données à l'aide des fonctions
Il est possible d'utiliser une fonction Analytics pour nettoyer les données. Différentes fonctions vous permettent d'exécuter différents types de nettoyage de données, en fonction de vos besoins.
Pourquoi ai-je besoin de nettoyer des données ?
En général, les données importées dans Analytics ne sont pas propres, c'est-à-dire qu'elles ne sont pas parfaitement mises en forme et standardisées. Les commandes Analytics ne fonctionnent pas ou ne fournissent pas des résultats corrects si les données saisies sont au mauvais format ou si elles ne sont pas standardisées.
Fonctionnement du nettoyage de données
Lors du nettoyage, vous ne nettoyez pas ou ne modifiez pas les données sources réelles. Celles-ci restent toujours en lecture seule.
En fait, vous saisissez les données sources dans une fonction qui va la traiter et sortir des « données virtuelles » correctement formatées et standardisées. Vous entrez ensuite les données virtuelles propres, et non pas les données sources d'origine, dans une commande Analytics.
Point clé
À l'aide d'une ou de plusieurs fonctions, vous pourrez exécuter une vaste gamme de tâches de nettoyage de données ou de préparation de données qui vous permettront de travailler efficacement et correctement, même quand les données sources sont incohérentes. La préparation de données est une tâche préliminaire essentielle pour une grande partie de l'analyse de données.
Supprimer les espaces vides
Les espaces vides incohérents dans les données sont une cause de résultats erronés courante. Vous pouvez utiliser la fonction ALLTRIM( ) pour supprimer les espaces inutilisées et vous assurer de l'exactitude des résultats.
Exemple : les espaces vides
Vous souhaitez trier une table fournisseur par ville, mais les espaces vides dans certains noms de ville produisent un tri incorrect.
Champ Ville_fournisseur trié |
---|
[ ] [ ] [ ] [ ] Salt Lake City |
[ ] [ ] [ ] Chicago |
Ann Arbor |
Austin |
Englewood |
[ ] = espace vide |
Vous pouvez utiliser la fonction ALLTRIM( ) pour supprimer les espaces inutilisées et vous assurer de l'exactitude du tri :
ALLTRIM(Ville_fournisseur)
ALLTRIM(Ville_fournisseur) trié |
---|
Ann Arbor |
Austin |
Chicago |
Englewood |
Salt Lake City |
Remarque
Pour appliquer la fonction ALLTRIM( ) au champ Ville_fournisseur, vous devez créer un champ calculé qui utilise cette fonction. Les champs calculés sont expliqués dans un autre tutoriel.
Supprimer les caractères indésirables
Les caractères incohérents ou superflus peuvent entraver l'analyse des données. Vous pouvez utiliser différentes fonctions pour inclure seulement certains caractères ou exclure certains caractères ou chaînes de caractères, avant de traiter les données avec une commande Analytics.
Essayez par vous-même
Copiez-collez n'importe quel exemple de fonction ci-dessous dans la ligne de commande pour vérifier la valeur renvoyée ou pour la tester avec différentes entrées.
Dans la ligne de commande, vous devez faire précéder l'exemple avec DISPLAY et une espace. L'expérimentation dans la ligne de commande est expliquée dans des tutoriels précédents.
Exemple : caractères indésirables
Vous souhaite effectuer un test de doublons sur une table, mais la mise en forme incohérente des données produit des résultats incorrects.
Par exemple, l'exécution d'une commande DUPLICATES sur un champ de numéro de téléphone au mauvais format ne signale pas ces deux numéros comme doublons, alors qu'ils le sont :
- (604) 555-1212
- Tél. : 604-555-1212
Pour vous assurer que tous les doublons sont détectés, vous pouvez vous servir de fonctions permettant de standardiser les données avant d'exécuter l'opération Doublons.
Tâche | Exemple de fonction |
---|---|
Standardiser les numéros de téléphone |
INCLUDE("(604) 555-1212"; "1234567890") Retour 6045551212 INCLUDE("Tél : 604-555-1212"; "1234567890") Retour 6045551212 La fonction INCLUDE( ) inclut seulement les caractères spécifiés à la sortie : dans ce cas, les chiffres 0 à 9. Astuce Utilisez INCLUDE( ) si le jeu de caractères à inclure est petit et que le jeu à exclure est grand. |
Standardiser les adresses |
EXCLUDE("#1550-980 Howe St."; "#.") Retour 1550-980 Howe St EXCLUDE("1550-980 Howe St"; "#.") Retour 1550-980 Howe St La fonction EXCLUDE( ) exclut les caractères spécifiés de la sortie : dans ce cas, le signe dièse (#) et le point (.) Astuce Utilisez EXCLUDE( ) si le jeu de caractères à exclure est petit et que le jeu à inclure est grand. |
Standardiser les adresses et supprimer les abréviations des rues |
OMIT("#1550-980 Howe St."; " Street, St.,#") Retour 1550-980 Howe OMIT("1550-980 Howe Street"; " Street, St.,#") Retour 1550-980 Howe La fonction OMIT( ) exclut les caractères et chaînes de caractères spécifiés de la sortie : dans ce cas, le signe dièse (#) et le St. mal mis en forme. et Street Astuce Utilisez OMIT( ) si vous souhaitez exclure des chaînes de caractères particulières, mais pas les caractères individuels qui constituent la chaîne. Par exemple, excluez Street lorsqu'il s'agit d'une unité, mais pas tous lesS, t, r, e, or t quand ils sont dans d'autres mots. |
Et ensuite ?
Apprenez à utiliser les fonctions pour exécuter plusieurs tâches en même temps : Nettoyage et filtrage des données simultanés