定义和导入打印图像或 PDF 数据的子集

如果在打印图像或 PDF 文件中定义完整的记录集由于数据错位很困难甚至不可能,您可以从该文件定义和导入多个数据子集。随后,您可以在 Analytics 中附加生成的 Analytics 表以装配完整的数据集。

如果数据定义向导中的源文件包含记录块,且其中所有域都在每个块中对齐,则此项技术能够最好地工作。如果数据被更加随机地错位排列,请参见在打印图像或 PDF 文件中定义非对齐域

提示:

对于 PDF 定义,您可以选择逐个页面地分析 PDF 文件。在某些情况下,数据错位会跨分页符发生。您或许能够使用页面大小的数据子集来解决对齐问题。

定义和导入打印图像或 PDF 数据子集:

  1. 按正常方式执行定义和导入进程,下列区别除外:

    多次定义和导入相同文件。

    在每次迭代中,定义不同的记录子集。每个子集中的域都必须在内部对齐。

    记录子集无须是连续的。例如,文件开头和末尾处的记录中的域可以相互对齐,而与文件中间的域不对齐。

    设计一种用来跟踪哪些记录被包括在各个子集中的方法。

    如果您无意中多次捕捉相同的记录,您可以在 Analytics 中从重新装配的数据集中删除重复记录。有关详细信息,请参阅删除重复项

    对于每次迭代,请确保数据结构保持一致。

    确保相应域的名称、长度、数据类型和顺序保持一致。保持数据结构的该一致性可使附加生成的 Analytics 表更加容易。

    提示:

    导入第一个子集之后,在 Analytics 中打开生成的表,然后在命令行中输入 DISPLAY 以显示表布局的数据结构。使用所显示的表布局信息作为创建后续记录和域子集的指南。

    要保存工作成果,请在定义和导入记录子集时使用通用的 Analytics 域名称(“Field_1”、“Field_2” 等)。在 Analytics 中重新装配数据集后,您可以重命名重新装配的表中的所有域。

  2. 当您保存各个 Analytics 数据文件和各个 Analytics 表布局时,请使用递增的数值后缀以防止覆盖您已经创建的表。例如,“Table_1.fil”、“Table_2.fil” 等等。
  3. 在定义和导入源文件中的所有记录后,附加多个 Analytics 表。

    有关详细信息,请参见提取并附加数据