Définition et importation des fichiers image d'importation (rapport) et des fichiers PDF

Les fichiers image d'impression, également appelés fichiers de rapports, sont des copies électroniques de rapports imprimés. Les fichiers Adobe PDF sont des fichiers d'application ou des fichiers scannés qui ont été enregistrés au format PDF standard. La méthode permettant de définir et d'importer des fichiers image d'impression ou PDF est quasiment identique pour les deux types de fichiers. C'est pourquoi la plupart des rubriques de cette section de l'Aide pour Analytics s'appliquent aux deux types de fichiers.

Il peut s'avérer plus difficile de définir et d'importer les PDF que les fichiers image d'impression, car les colonnes de données qui semblent s'aligner dans le PDF source peuvent perdre leur alignement une fois qu'Analytics a analysé le PDF (partie du processus de définition du fichier). Analytics inclut deux analyseurs de PDF : Xpdf et VeryPDF. Vous pouvez tenter d'utiliser les deux analyseurs pour voir si l'un donne de meilleurs résultats.

Attention

Utilisez les totaux de contrôle pour vérifier que la table Analytics créée à partir d'un fichier image d'impression ou PDF importé contient toutes les données du fichier source. Il est possible d'exclure, sans le vouloir, des enregistrements lorsque vous définissez des fichiers image d'impression ou PDF. Vous devez toujours vérifier que vous disposez bien d'un jeu de données complet dans Analytics avant de commencer toute analyse.

Points essentiels pour bien définir un fichier image d'impression ou PDF

Définir un fichier image d'impression ou PDF peut s'avérer une tâche assez épineuse. Cela relève davantage de l'art que d'une science : cela peut vous demander d'analyser minutieusement l'organisation des données dans le fichier source afin de planifier une approche efficace. L'organisation des données dans les fichiers image d'impression ou PDF est, en règle générale, moins standardisée que l'organisation des données dans les autres formats de fichiers, ce qui complique le processus de définition. Y parvenir peut nécessiter un processus itératif.

Il existe de nombreuses techniques, décrites ci-après, susceptibles de vous aider à échapper à la frustration. Il est recommandé que vous examiniez attentivement ces points avant ou pendant la définition d'un fichier ou bien si vous rencontrez des problèmes.

Points généraux

Mauvais alignement des données

Champs et enregistrements

Capture d'enregistrements

Autres considérations générales

Points généraux

Le processus de définition des fichiers est itératif

Bien définir un fichier image d'impression ou PDF consiste généralement à suivre un processus itératif et peut demander un certain nombre d'essais ou d'erreurs. Vous devrez effectuer tout ou partie des tâches individuelles suivantes :

  • définir un ou plusieurs champs
  • définir un jeu d'enregistrements de détail à partir d'une valeur unique
  • définir un ou plusieurs enregistrements d'en-tête ou de pied de page
  • modifier ou adapter les critères utilisés pour ajuster précisément le jeu d'enregistrements capturé
  • examiner chaque définition de champ et d'enregistrement pour vérifier leur exactitude
  • modifier des définitions de champs ou d'enregistrements inexactes
  • apporter plusieurs passes dans un fichier comme moyen de traiter les données mal alignées

Vous vous améliorerez avec la pratique

Si, au premier abord, il peut s'avérer plutôt difficile de définir les fichiers image d'impression ou PDF, notamment avec des fichiers où les données sont mal alignées, avec la pratique, vous vous améliorerez dans l'évaluation de la structure des données dans un fichier source et dans la recherche des méthodes de définition appropriées.

Vous pouvez vous entraîner avec deux exemples de fichiers inclus dans Analytics :

  • REPORT3.TXT est plus facile à définir. Analytics définit automatiquement les enregistrements de détail du fichier ; toutefois, vous devez modifier la définition automatique car elle contient des erreurs.
  • Inventory.pdf est un fichier plus difficile à définir car il contient des données mal alignées (sauf si vous analysez le fichier page par page). Analytics ne peut définir automatiquement aucune partie du fichier dont l'alignement est mauvais, vous devez donc créer une définition manuelle depuis le début.

Analytics définit automatiquement, et parfaitement, les champs et les enregistrements de détail dans un autre exemple de fichier, Report.txt. Vous pouvez trouver utile d'étudier la définition automatique de Report.txt dans l'Assistant de définition de données.

Mauvais alignement des données

Solutions de contournement pour les données mal alignées

Dans l'Assistant de définition de données, les colonnes des données mal alignées dans un fichier PDF ou image d'impression analysé (voir Données alignées et mal alignées dans un fichier PDF analysé) peut rendre difficile ou chronophage la création d'une table Analytics utilisable. Si les données mal alignées représentent un problème important, pensez à l'une des approches suivantes.

Remarque

La méthode qui sera la plus adaptée à votre situation dépend de la nature des données que vous tentez de définir et de votre expérience d'Analytics. Les nouveaux utilisateurs d'Analytics doivent penser à demander les données sous un format différent.

  • Revenez à la source du fichier et demandez les données sous un autre format.
  • Essayez de convertir le fichier à l'aide d'un logiciel de conversion, par exemple, un logiciel qui convertit un fichier PDF en fichier Excel ou en fichier texte. Importez le fichier converti dans Analytics.
  • Essayez de copier-coller les données du PDF dans un éditeur de texte. Puis importez le fichier texte dans Analytics.
  • Utilisez une ou plusieurs des techniques suivantes pour définir des champs mal alignés :
    • Créez une définition de champ assez longue pour capturer les caractères les plus à gauche et à droite d'un champ mal aligné.
    • Créez des définitions de champ qui se chevauchent.
    • Créez une unique définition de champ long qui comprend plusieurs champs mal alignés.

    Pour obtenir plus d'informations, consultez la rubrique Définition de champs mal alignés dans un fichier image d'impression ou PDF.

  • Importez plusieurs fois le fichier source. À chaque importation, définissez un autre sous-ensemble d'enregistrements. Ajoutez les tables Analytics alors créées pour assembler un jeu de données complet.

    Pour plus d'informations, consultez la section Définition et importation de sous-jeux de données image d'impression ou PDF.

Données alignées et mal alignées dans un fichier PDF analysé

Les deux colonnes de données les plus à gauche dans le fichier PDF analysé affiché ci-dessous sont alignées. Les autres colonnes de données sont mal alignées.

Champs et enregistrements

Les champs sont bleus, les enregistrements sont gris et les données non définies sont blanches

À mesure que vous utilisez l'Assistant de définition de données pour définir des champs et des enregistrements dans un fichier image d'impression ou PDF analysé, trois couleurs indiquent le statut des données :

  • Un surlignement bleu aqua indique que les données font partie d'un champ défini. Tous les champs définis font également partie d'un enregistrement défini.
  • Un surlignement gris indique que les données font partie d'un enregistrement défini, mais pas d'un champ défini.
  • Un arrière-plan blanc indique que les données sont complètement indéfinies.

Remarque

Seuls les champs surlignés en bleu aqua font partie de la table Analytics alors créée.

Les données surlignées en gris dans un enregistrement défini sont ignorées sauf s'il est aussi défini comme champ. Les parties grises d'un enregistrement entre des champs définis sont omises dans la table Analytics alors créée.

Les données complètement indéfinies sont ignorées. Si vous souhaitez inclure certaines de ces données dans la table Analytics alors créée, vous devez définir d'autres champs et enregistrements.

Champs définis, enregistrement défini et données indéfinies

Vous pouvez définir trois types de données : détail, en-tête et pied de page

Dans l'Assistant de définition de données, vous pouvez définir trois sortes de données dans un fichier image d'impression ou PDF.

Sorte de données Description Exemple

Emplacement dans

Les différentes sortes de données dans un fichier PDF

Données de détail

Le contenu de base d'un fichier, organisé sous forme d'enregistrements.

La définition des données de détail est obligatoire. Vous ne pouvez pas définir de fichier image d'impression ou PDF sans définir de données de détail.

  • transactions de cartes bancaires
  • enregistrements d'inventaire
n° 2, encadrés en bleu
Données d'en-tête

Les informations d'identification qui s'affichent au-dessus des blocs ou des sous-jeux d'enregistrements de détail.

La définition des données d'en-tête est facultative. Si vous n'avez pas besoin des informations d'en-tête, vous n'êtes pas obligé de les définir.

  • numéro du magasin et emplacement où les transactions de cartes bancaires ont eu lieu
  • informations « Product Class »
n° 1, encadré en rouge
Données de pied de page

Les informations qui s'affichent sous les blocs ou sous-jeux d'enregistrements de détail.

La définition des données de pied de page est facultative. Si vous n'avez pas besoin des informations de pied de page, vous n'êtes pas obligé de les définir.

  • transactions de cartes bancaires sous-totalisées par magasin
  • « Class Totals »
n° 3, encadré en bleu aqua

Instructions supplémentaires

  • Vous pouvez définir les données de détail, d'en-tête ou de pied de page dans l'ordre de votre choix. Une séquence n'est pas respectée.
  • Vous pouvez aussi spécifier des noms de champs (encadrés en vert dans Les différentes sortes de données dans un fichier PDF). La méthode permettant de spécifier des noms de champs diffère du processus de définition des données de détail, d'en-tête ou de pied de page.

    Remarque

    N'utilisez pas de données d'en-tête pour essayer de définir les noms des champs susceptibles d'apparaître dans un fichier image d'impression ou PDF.

Les différentes sortes de données dans un fichier PDF

L'exemple ci-après met en avant les différents types de données dans le PDF d'un rapport d'estimation des stocks.

Données de détail et d'en-tête dans un fichier PDF analysé

L'exemple ci-après affiche le rapport d'estimation des stocks précédent une fois qu'il a été analysé dans l'Assistant de définition de données. Un enregistrement de détail avec cinq champs et un enregistrement d'en-tête avec deux champs ont été définis.

Traitement des données d'en-tête et de pied de page

Bien que l'Assistant de définition de données traite les données d'en-tête et de pied de page comme un enregistrement avec des champs, seules les données de détail deviennent un jeu réel d'enregistrements dans la table Analytics créée. Toutes les données d'en-tête ou de pied de page que vous définissez deviennent un ou plusieurs champs ajoutés aux enregistrements de détail.

Les champs d'en-tête et de pied de page ajoutés répètent la même valeur pour chaque enregistrement dans un bloc individuel ou dans un sous-ensemble d'enregistrements. Par exemple, « Store 3 » pour un bloc d'enregistrements, « Store 4 » pour le bloc suivant, etc.

Ne sélectionnez pas de noms de champs dans le fichier source

N'essayez pas de définir des noms de champs en les sélectionnant dans le fichier image d'impression ou PDF. Bien que cela puisse avoir l'air contre-intuitif, dans le fichier source, laissez les noms de champ désélectionnés. À la place, vous créez des noms de champs en tapant leurs noms dans la boîte de dialogue Définition de champ. Si vous sélectionnez des noms de champs dans le fichier source, Analytics traite les noms des champs sous forme de données contenues dans les champs.

Spécifiez une valeur unique pour capturer un jeu d'enregistrements

La clé pour capturer avec exactitude un jeu d'enregistrements consiste à sélectionner ou à spécifier une valeur unique pour le jeu d'enregistrements. Autrement dit, la valeur apparaît à une position d'octet spécifique (position de caractère) dans tous les enregistrements du jeu et n'apparaît à cette position nulle part ailleurs dans le fichier source. La valeur unique peut être un ou plusieurs caractères.

Par exemple, dans Sélection d'une valeur unique pour le jeu d'enregistrements, la virgule décimale du champ « Unit Cost » est sélectionnée comme valeur unique. Elle apparaît à la même position en même quantité dans le champ et elle n'apparaît pas dans cette position au-dessus ou sous le champ.

Vous pouvez sélectionner ou spécifier la valeur unique à l'une de ces deux places :

  • Dans la valeur de données initiale que vous sélectionnez pour commencer à définir le champ de données initial
  • À la même ligne que la valeur de données initiale

Sélection d'une valeur unique pour le jeu d'enregistrements

Dans l'exemple qui suit, la valeur unique se trouve à la même ligne que la valeur de données initiale. La valeur de données initiale, entourée d'une case après sa sélection, est le premier numéro de produit dans le champ « Product No ».

Conseils pour choisir une valeur unique

Pour choisir une valeur unique, recherchez les données d'enregistrement dans lesquelles un ou plusieurs caractères positionnés de façon cohérente sont uniques, ou ont une position unique, lorsqu'ils sont comparés aux données précédant ou suivant le jeu d'enregistrement.

Toutes les possibilités suivantes pourraient être des valeurs uniques car elles apparaissent normalement à la même position dans chaque enregistrement et elles n'apparaissent pas normalement dans cette position en dehors du jeu d'enregistrements :

  • un point décimal dans les nombres
  • une ou plusieurs barres obliques dans les dates
  • un ou plusieurs traits d'union dans les numéros d'ID
  • une chaîne de caractères formant un préfixe standard
  • dans les données d'en-tête ou de pied de page, un libellé qui apparaît systématiquement, comme « Customer ID: » ou « Subtotal: »

La sélection initiale de valeur unique crée un critère Corresp. exacte dans la boîte de dialogue Définition d'enregistrement. Dans l'exemple ci-dessous, le critère spécifie qu'un point décimal doit apparaître à la position d'octet 74 afin que l'enregistrement soit inclus dans le jeu d'enregistrements.

S'il le faut, vous pouvez remplacer la correspondance exacte par une correspondance générique, comme Numérique ou Non vide, qui peut offrir une plus grande flexibilité lorsque vous spécifiez une valeur unique. Pour plus d'informations, consultez la section Utilisation de définitions d'enregistrements.

Capturez précisément un jeu d'enregistrements

Capturer précisément un jeu d'enregistrements peut être une tâche très délicate. Vous pouvez choisir une valeur que vous pensez unique pour le jeu d'enregistrements que vous souhaitez capturer et découvrir que certains enregistrements ne sont pas capturés ou que d'autres données qui ne sont pas des enregistrements sont capturées.

Pour mieux comprendre cette situation, il peut s'avérer utile d'aider à réfléchir à un fichier image d'impression ou PDF sous forme de quadrillage formé de lignes et de colonnes. Imaginez que chaque colonne présente exactement une largeur d'un caractère ou d'une espace et qu'elle s'étende de haut en bas dans le fichier.

Lorsque vous sélectionnez ou spécifiez une valeur, dans une position spécifique, pour capturer un jeu d'enregistrements, Analytics tient compte de n'importe quel caractère à cette position, du haut en bas du fichier, à mesure qu'Analytics recherche la valeur. Les caractères sont pris en compte même s'ils se trouvent en dehors de ces lignes que vous considérez comme des données d'enregistrement. Si la valeur que vous avez spécifiée n'est pas suffisamment précise, des données supplémentaires ne concernant pas les enregistrements peuvent être capturées et incluses dans le jeu d'enregistrement.

Champ de données défini de façon imprécise

Dans l'exemple ci-dessus, si vous avez spécifié une valeur numérique générique à la première position du champ « Product No » comme valeur unique pour capturer un jeu d'enregistrements, n'importe quel nombre à cette position n'importe où dans le fichier serait capturé en plus du premier chiffre réel du numéro du produit. Voir l'exemple ci-dessous.

Champ de données précisément défini

Si, toutefois, vous avez spécifié une valeur numérique générique comprenant les neuf chiffres du champ, vous créeriez un critère suffisamment précis pour capturer uniquement le jeu d'enregistrements prévu.

Utilisez plusieurs critères pour capturer un jeu d'enregistrements

Il se peut que vous trouviez qu'un seul critère, comme une barre oblique dans un champ date, ne soit pas suffisant pour capturer précisément un jeu d'enregistrements. Peut-être que certaines des valeurs de date sont manquantes. Ou que, par hasard, une barre oblique apparaisse à la même position dans les informations d'en-tête ou de pied de page, en dehors du jeu d'enregistrements que vous souhaitez capturer. Dans cette situation, vous pouvez ajouter des critères supplémentaires en vue d'ajuster précisément le jeu d'enregistrements capturé.

Remarque

Vous pouvez utiliser des critères pour inclure ou exclure des lignes dans le fichier source.

Quelques exemples de critères multiples :

  • Inclure les lignes dont la première barre oblique se trouve dans un champ date ET la deuxième barre oblique dans le champ date
  • Inclure les lignes présentant une virgule décimale dans un champ numérique ET exclure les lignes contenant le mot « Subtotal » (sous-total)
  • Inclure les lignes présentant des caractères alphabétiques dans le premier jeu spécifié de positions d'octet OU inclure les lignes présentant des caractères alphabétiques dans le deuxième jeu spécifié de positions d'octet

Pour plus d'informations, consultez la section Utilisation de définitions d'enregistrements.

Vérifiez les définitions des enregistrements et des champs dans tout le fichier

À mesure que vous définissez les enregistrements et les champs, assurez-vous de faire défiler le fichier pour vérifier l'exactitude des définitions. Les valeurs vides, les caractères imprévus et les données mal alignées peuvent entraîner les problèmes suivants :

  • l'exclusion de certains enregistrements du fichier
  • le fait que des données ne relevant pas de l'enregistrement soient capturées sous forme d'enregistrement
  • des données de champ incomplètes dans une définition de champ, ce qui tronque les valeurs
  • l'affichage de données de deux champs différents dans une seule définition de champ

Si une définition d'enregistrement est incorrecte, vous devez modifier ou adapter les critères utilisés pour capturer le jeu d'enregistrements. Pour plus d'informations, consultez la section Utilisation de définitions d'enregistrements.

Si la définition d'un champ est incorrecte, vous devez modifier la définition. Pour plus d'informations, consultez la section Utilisation de définitions de champs.

Vous pouvez définir des enregistrements et des champs multilignes

Vous pouvez définir les données d'enregistrements ou de champs qui s'étendent au-delà d'une ligne dans un fichier source. Par exemple, les données d'adresse de chaque enregistrement peuvent être organisées sur plusieurs lignes. Pour plus d'informations, consultez la section Utilisation d'enregistrements et de champs multilignes.

Définissez et importez uniquement les données dont vous avez besoin

Ne perdez pas de temps et ne compliquez pas le processus de définition et d'importation en définissant les champs de données dont vous n'avez pas besoin pour l'analyse. Définissez uniquement les enregistrements d'en-tête ou de pied de page s'ils ajoutent des informations utiles. Chaque élément de données supplémentaire que vous incluez peut ajouter de la complexité et rendre le processus de définition plus difficile.

Contrôlez l'ordre des champs dans la table Analytics créée

L'ordre dans lequel vous définissez les champs dans un enregistrement de détail est celui dans lequel ils apparaissent dans la table Analytics alors créée. Si vous supprimez un champ de détail pendant le processus de définition et que vous le rajoutez, il perd sa position d'origine et il est placé en dernière position parmi les champs de détail. Les champs de détail restent ensemble, indépendamment de tout remaniement interne.

Astuce

Si vous utilisez un champ de détail initial pour capturer les enregistrements de détail, mais que vous ne souhaitez pas faire apparaître ce champ en premier dans la table Analytics alors créée, vous pouvez utiliser le champ pour capturer des enregistrements, puis le supprimer et le rajouter.

Les champs d'en-tête et de pied de page apparaissent dans la table Analytics créée dans l'ordre dans lequel vous les définissez. Ils s'affichent avant les champs de détail si vous n'avez pas défini de champ de détail initial et ils s'affichent après les champs de détail une fois que vous avez défini un champ de détail initial.

Vous avez aussi la possibilité de réorganiser les champs une fois que vous avez terminé d'importer le fichier image d'impression ou PDF dans Analytics. Vous pouvez faire glisser les colonnes pour les réorganiser dans une vue. Vous pouvez aussi extraire par vue si vous souhaitez créer une nouvelle table dans laquelle les champs du format de table sont réorganisés physiquement. Pour plus d'informations, consultez la section Extraction des données. Il se peut que vous trouviez plus simple de réorganiser des champs dans Analytics soit que d'essayer de conserver un ordre précis des champs dans l'Assistant de définition de données.

Analytics peut définir un fichier automatiquement

Analytics peut définir automatiquement un fichier image d'impression ou un fichier PDF s'il peut identifier des schémas récurrents dans les données. Si l'aspect initial du fichier source dans l'Assistant de définition de données inclut des définitions de champ bleu aqua et des définitions d'enregistrement grises, c'est que Analytics a partiellement ou entièrement défini automatiquement le fichier.

Si vous vérifiez les définitions de champ et d'enregistrement dans tout le fichier et que vous estimez que la définition automatique est terminée et exacte, le travail de définition du fichier est largement terminé. Vous pouvez passer à la page suivante de l'Assistant de définition de données.

Bien souvent, la définition automatique effectuée par Analytics n'est pas entièrement exacte et c'est à vous de décider ce qui est le plus simple : modifier la définition automatique ou bien supprimer l'intégralité de la définition automatique et refaire une définition manuelle depuis le début. Vous pouvez tout supprimer et recommencer à tout moment. Aussi, vous pouvez très bien essayer, dans un premier temps, de faire des modifications, puis, s'il s'avère que la définition automatique est trop éloignée du résultat que vous recherchez, la supprimer à ce moment-là.

Remarque

Seuls les enregistrements de détail sont définis automatiquement. Les données d'en-tête ou de pied de page, si vous en avez besoin, doivent être définies manuellement.

Utilisez les totaux de contrôle pour vérifier la table Analytics créée

Avant de commencer à utiliser une analyse de données, assurez-vous d'utiliser les totaux de contrôle pour vérifier que la table Analytics créée à partir d'un fichier image d'impression ou PDF importé contient toutes les données présentes dans le fichier source. Une table Analytics incomplète rendra non valides les analyses que vous faites.

Pour vérifier une table Analytics à l'aide des totaux de contrôle :

  1. Effectuez l'une des actions suivantes :

    • Si les enregistrements sont regroupés dans le fichier source, classez ou totalisez la table Analytics pour regrouper les enregistrements de la même façon.

      Lorsque vous classez ou totalisez, sélectionnez les Champs de sous-total qui correspondent à un ou plusieurs champs de sous-total dans le fichier source.

      Pour plus d'informations, consultez les sections Classement des données et Totalisation des données.

    • Si les enregistrements ne sont pas regroupés dans le fichier source, totalisez les champs de la table Analytics qui sont également totalisés dans le fichier source.

      Pour plus d'informations, consultez la section Somme des champs.

  2. Sortez les résultats à l'écran ou dans une nouvelle table Analytics, puis comparez les sous-totaux ou les totaux dans Analytics avec les nombres du fichier source.

    Si les nombres sont tous identiques, c'est que vous avez un jeu de données complet.

    Si un ou plusieurs nombres ne sont pas identiques, c'est que les données de la table Analytics sont différentes des données du fichier source. Si vous avez importé des sous-jeux de données, puis réassemblé un jeu de données complet dans Analytics, il est possible que des enregistrements soient en doublon dans la table Analytics. Pour plus d'informations sur la suppression des enregistrements en doublon, consultez la section Supprimer des doublons.

    Si les enregistrements en doublon ne constituent pas le cœur du problème, il se peut que vous deviez refaire la définition et importer le fichier source. Si vous refaites la définition, assurez-vous de vérifier attentivement les définitions des champs et des enregistrements pour vérifier que vous avez capturé les données de façon exacte.