Nettoyage des données à l'aide des fonctions

Il est possible d'utiliser une fonction Analytics pour nettoyer les données. Différentes fonctions vous permettent d'exécuter différents types de nettoyage de données, en fonction de vos besoins.

Pourquoi ai-je besoin de nettoyer des données ?

En général, les données importées dans Analytics ne sont pas propres, c'est-à-dire qu'elles ne sont pas parfaitement mises en forme et standardisées. Les commandes Analytics ne fonctionnent pas ou ne fournissent pas des résultats corrects si les données saisies sont au mauvais format ou si elles ne sont pas standardisées.

Fonctionnement du nettoyage de données

Lors du nettoyage, vous ne nettoyez pas ou ne modifiez pas les données sources réelles. Celles-ci restent toujours en lecture seule.

En fait, vous saisissez les données sources dans une fonction qui va la traiter et sortir des « données virtuelles » correctement formatées et standardisées. Vous entrez ensuite les données virtuelles propres, et non pas les données sources d'origine, dans une commande Analytics.

Point clé

À l'aide d'une ou de plusieurs fonctions, vous pourrez exécuter une vaste gamme de tâches de nettoyage de données ou de préparation de données qui vous permettront de travailler efficacement et correctement, même quand les données sources sont incohérentes. La préparation de données est une tâche préliminaire essentielle pour une grande partie de l'analyse de données.

Supprimer les espaces vides

Les espaces vides incohérents dans les données sont une cause de résultats erronés courante. Vous pouvez utiliser la fonction ALLTRIM( ) pour supprimer les espaces inutilisées et vous assurer de l'exactitude des résultats.

Exemple : les espaces vides

Vous souhaitez trier une table fournisseur par ville, mais les espaces vides dans certains noms de ville produisent un tri incorrect.

Champ Ville_fournisseur trié
[ ] [ ] [ ] [ ] Salt Lake City
[ ] [ ] [ ] Chicago
Ann Arbor
Austin
Englewood
[ ] = espace vide

Vous pouvez utiliser la fonction ALLTRIM( ) pour supprimer les espaces inutilisées et vous assurer de l'exactitude du tri :

ALLTRIM(Ville_fournisseur)

ALLTRIM(Ville_fournisseur) trié
Ann Arbor
Austin
Chicago
Englewood
Salt Lake City

Remarque

Pour appliquer la fonction ALLTRIM( ) au champ Ville_fournisseur, vous devez créer un champ calculé qui utilise cette fonction. Les champs calculés sont expliqués dans un autre tutoriel.

Supprimer les caractères indésirables

Les caractères incohérents ou superflus peuvent entraver l'analyse des données. Vous pouvez utiliser différentes fonctions pour inclure seulement certains caractères ou exclure certains caractères ou chaînes de caractères, avant de traiter les données avec une commande Analytics.

Essayez par vous-même

Copiez-collez n'importe quel exemple de fonction ci-dessous dans la ligne de commande pour vérifier la valeur renvoyée ou pour la tester avec différentes entrées.

Dans la ligne de commande, vous devez faire précéder l'exemple avec DISPLAY et une espace. L'expérimentation dans la ligne de commande est expliquée dans des tutoriels précédents.

Exemple : caractères indésirables

Vous souhaite effectuer un test de doublons sur une table, mais la mise en forme incohérente des données produit des résultats incorrects.

Par exemple, l'exécution d'une commande DUPLICATES sur un champ de numéro de téléphone au mauvais format ne signale pas ces deux numéros comme doublons, alors qu'ils le sont :

  • (604) 555-1212
  • Tél. : 604-555-1212

Pour vous assurer que tous les doublons sont détectés, vous pouvez vous servir de fonctions permettant de standardiser les données avant d'exécuter l'opération Doublons.

Tâche Exemple de fonction

Standardiser les numéros de téléphone

INCLUDE("(604) 555-1212"; "1234567890")

Retour 6045551212

INCLUDE("Tél : 604-555-1212"; "1234567890")

Retour 6045551212

La fonction INCLUDE( ) inclut seulement les caractères spécifiés à la sortie : dans ce cas, les chiffres 0 à 9.

Astuce

Utilisez INCLUDE( ) si le jeu de caractères à inclure est petit et que le jeu à exclure est grand.

Standardiser les adresses

EXCLUDE("#1550-980 Howe St."; "#.")

Retour 1550-980 Howe St

EXCLUDE("1550-980 Howe St"; "#.")

Retour 1550-980 Howe St

La fonction EXCLUDE( ) exclut les caractères spécifiés de la sortie : dans ce cas, le signe dièse (#) et le point (.)

Astuce

Utilisez EXCLUDE( ) si le jeu de caractères à exclure est petit et que le jeu à inclure est grand.

Standardiser les adresses et supprimer les abréviations des rues

OMIT("#1550-980 Howe St."; " Street, St.,#")

Retour 1550-980 Howe

OMIT("1550-980 Howe Street"; " Street, St.,#")

Retour 1550-980 Howe

La fonction OMIT( ) exclut les caractères et chaînes de caractères spécifiés de la sortie : dans ce cas, le signe dièse (#) et le St. mal mis en forme. et Street

Astuce

Utilisez OMIT( ) si vous souhaitez exclure des chaînes de caractères particulières, mais pas les caractères individuels qui constituent la chaîne.

Par exemple, excluez Street lorsqu'il s'agit d'une unité, mais pas tous lesS, t, r, e, or t quand ils sont dans d'autres mots.

Et ensuite ?

Apprenez à utiliser les fonctions pour exécuter plusieurs tâches en même temps : Nettoyage et filtrage des données simultanés