导入分隔文本文件
将分隔文本文件导入到 Analytics 以便使用多种不同的工具进行分析。
工作原理
您使用数据定义向导选择一个或多个分隔文本文件并且将数据导入到 Analytics。所导入的数据会创建一个或更多个新的 Analytics 表以及关联的数据文件 (.fil)。每个被导入的分隔文本文件都会创建一个单独的 Analytics 表。
Analytics 数据文件包含分隔数据的一个副本,它完全独立于原始分隔文本文件。
您可以导入位于您的本地计算机或网络驱动器上的分隔文本文件。Analytics Exchange 的用户还可以访问位于 Analytics 服务器上的分隔文本文件。
导入单个文件或者多个文件
您可以选择在单个操作中导入单个分隔文本文件或者多个文件。导入过程稍有不同,具体取决于您的选择:
- 单个文件您可以选择在导入过程中同时手动定义文件级别和域级别属性
- 多个文件您可以在导入过程中仅手动定义文件级别属性。Analytics 自动定义域级别属性,且在导入过程中不可能进行手动定义
例如,在导入多个文件的过程中,您不能:
- 指定域的数据类型
- 有选择地从导入范围中排除域
一旦将数据导入 Analytics,您就可以在表布局对话框中对数据定义进行任何必要的调整。
组合多个文件
在将多个分隔文本文件导入到各个 Analytics 表之后,您可能想要将其组合为单个 Analytics 表。例如,您可以将十二个月度表中的数据组合为包含所有数据的单个年度表。您只能在将文件导入各个 Analytics 表之后,才能组合它们。
有关组合多个 Analytics 表的信息,请参见附加表。
提示
为了省力,请尝试在对新的组合表中的数据定义进行任何必要的调整之前,首先组合多个表。
分隔文本文件的结构
分隔文本文件通常具有 .txt 或者 .csv 文件扩展名,尽管其他文件扩展名也是可能的。分隔文本文件常用于将数据从电子表格和数据库应用程序导入 Analytics。每个电子表格或数据库行都成为该分隔文本文件中的行,并且每个行或记录都由行分隔符分隔。有效的行分隔符包括:
- CR 回车符
- LF 换行符
- CRLF 回车符换行符(标准 DOS/Windows 字符序列)
域分隔符
分隔文本文件中的每个记录中的域都由域分隔符分隔。有三个主要类型的定界文本文件,它们是根据所使用的域分隔符分类的:
- 逗号分隔值 (.csv) – 使用逗号来分隔每个记录中的域。
- 制表符分隔值 – 使用制表符来分隔每个记录中的域。
- 文本文件 (.txt) – 使用逗号、制表符或另一域分隔符来分隔每个记录中的域。其他常用的域分隔符是空格、管道 (|) 和分号 (;)。
文本限定符
如果使用域分隔符,则还使用文本限定符来环绕字符域值并且将其与域分隔符相隔离。常见的文本限定符是双引号 (" ") 或单引号 (' ')。
例如,如果逗号是域分隔符,则将值 $1,000 放在文本限定符中 ("$1,000") 可确保该值被解释为单个值而非两个值($1 和 000)。
分隔文本文件示例
以下示例显示了一个分隔文本文件中的前四行。
- 首行包含域名称。
- 域分隔符是一个逗号。每一行都包括由逗号分隔的七个域。
- 文本限定符是双引号。最后一个域包括一个文本限定符,以免将美元值中的逗号解释为域分隔符。
First_Name,Last_Name,CardNum,EmpNo,HireDate,Salary,Bonus_2011
Lila,Remlawi,8590122497663807,000008,12/28/2007,52750,"$1,405.40"
Vladimir,Alexov,8590122281964011,000060,10/5/2007,41250,"$4,557.43"
Alex,Williams,8590124253621744,000104,8/12/2010,40175,"$7,460.02"
覆盖工作原理
如果您导入分隔数据并创建一个与 Analytics 项目中的现有表具有相同名称的新 Analytics 表,您可以覆盖现有表。
表的两个部分都被覆盖
表的两个部分都可能被覆盖,这一事实使得覆盖 Analytics 表变得复杂化了:
- 显示在导航器中的表布局
- 存储在 Windows 文件夹中的关联源数据文件
(有关表布局和源数据文件的信息,请参见Analytics 表的结构。)
该表的两个部分被单独覆盖。 如果两个部分具有与新建表相同的名称,则两者都被覆盖。这种情形是最常见的。
但是,如果表布局和源数据文件具有不同的名称,则只有与新表具有相同名称者才会被覆盖。
无论您是导入单个分隔文本文件还是导入多个文件,此覆盖行为都适用。
在导入多个分隔文本文件时覆盖
当您导入多个分隔文本文件时,覆盖操作还同时依赖于覆盖现有表和输出路径设置。
下面的部分从最常见的情形开始总结了导入多个分隔文本文件时可能发生的不同覆盖结果。
相同名称:新表、现有表布局、现有源数据文件
|
与现有源数据文件相同的“输出路径” |
与现有源数据文件不同的“输出路径” |
|
|---|---|---|
| 选择了覆盖现有表 |
|
|
| 未选择覆盖现有表 |
|
|
不同的名称:现有表布局
|
与现有源数据文件相同的“输出路径” |
与现有源数据文件不同的“输出路径” |
|
|---|---|---|
| 选择了覆盖现有表 |
|
|
| 未选择覆盖现有表 |
|
|
不同的名称:现有源数据文件
|
与现有源数据文件相同的“输出路径” |
与现有源数据文件不同的“输出路径” |
|
|---|---|---|
| 选择了覆盖现有表 |
|
|
| 未选择覆盖现有表 |
|
|
导入单个分隔文本文件
导入单个分隔文本文件以创建新的 Analytics 表。您可以选择在导入过程中同时手动定义文件级别和域级别属性。
找到并选择分隔文件
- 选择导入 > 文件。
- 在选择要定义的文件对话框中,找到并选择该分隔文本文件,然后单击打开。
分隔文本文件可以具有多个不同的文件扩展名,包括 .txt 和 .csv。
指定分隔文件属性
- 在字符集页面中,验证已选择正确的字符集选项,然后单击下一步。
- 在文件格式页面中,验证已选择分隔文本文件选项,然后单击下一步。
- 在分隔文件属性页面中,检查由 Analytics 分配给下面列出的属性的设置,进行任何必要的更新,然后单击下一步。
属性 描述 开始行 开始读取文件的行号。
此设置使您可以跳过文件开头的包含您不想导入的信息的行。例如,如果文件的前三行包含标题信息,则输入 4 可从第四行开始读取数据。
域宽度 对于预览表中的选定列标题,请指定结果表布局中的域长度。指定长度(字符数)。
Analytics会自动分配与域中最长值匹配的长度。可以保留指定的长度,或指定不同的长度。在生成的 Analytics 表中,超过指定域长度的域值将被截断。
提示
如果您打算定期从已更新的源数据刷新结果 Analytics 表,或者重新使用导入命令,请输入一个比 Analytics 所分配的域长度更长的域长度。
如果源数据中的更新值比当前任何值都长,则较长的域长度可提供额外的空间。
说明
最大域长度是 32,767 个字符(非 Unicode 版)或者 16,383 个字符(Unicode 版)。整个域长度(直至最大长度)都被导入到 Analytics 中,但只有前 256 个字符被显示在表视图中。该数据的其余部分仍然存在,并且可以进行分析,但是在该视图中不可见。要查看所有数据,请打开表布局对话框。
使用第一行作为域名称 文件第一行中的值被用作结果表布局中的域名称。 说明
如果您使用此设置,则被用作域名称的行是起始行中指定的任何行号。如果域名称不正确,您可以在数据定义向导的后续页面中更新它们。
连续限定符视为单个处理 重复的限定符被忽略。 例如,如果您选择此选项,则 “Diligent Corporation””(以两个双引号终结)等效于 “Diligent Corporation”。
域分隔符 在该文件中分隔域的字符: - 逗号
- TAB
- 分号
- 其他 – 使您可以指定被用作域分隔符的字符
文本限定符 标识域中包含的值的文本符号: - 双引号
- 单引号
- 无 – 指示未使用文本限定符
- 其他 – 使您可以指定被用作文本限定符的字符
清除回车符和清除换行符 在导入的数据中清除不适当的回车符 (CR) 和/或换行符 (LF)。 不适当的 CR/LF 字符可导致记录中发生不正确的换行。启用后,该选项将任何 CR/LF 字符替换为空格。只有出现在一对文本限定符内部的 CR/LF 字符被替换。
对于 Windows 文件,请同时选择清除回车符和清除换行符。
如果文本限定符为无,则这两个选项都被禁用。
皆为字符 将字符数据类型分配给所有被导入的域。 提示
将字符数据类型分配给所有被导入的域可简化导入分隔文本文件的流程。
一旦将数据导入 Analytics,您就可以向域分配不同的数据类型(如数值或日期时间),并且指定格式详细信息。
如果您所导入的表中的标识符域被 Analytics 自动分配“数值”数据类型,而实际上它们应该使用“字符”数据类型,则皆为字符选项很有用。
替换 NULL 清除所导入的数据中的不适当的 NULL 字符。 不适当的 NULL 字符可导致记录中出现间隔和不正确的域划分。启用后,该选项将任何 NULL 字符替换为空格。
保存 Analytics 数据文件
在数据文件另存为对话框中,为该 Analytics 数据文件输入一个名称,然后单击保存。
如果 Analytics 预填充数据文件名,您可以接受预填充的名称,也可以更改它。
如果您不想使用由 Analytics 打开的默认位置,您还可以导航到不同的文件夹以保存数据文件。
编辑 Analytics 域属性
在编辑域属性页面中,检查由 Analytics 分配给下面列出的属性的设置,进行任何必要的更新,然后单击下一步。
说明
在预览表中选择一个列标题,以查看与该列相关联的属性。
| 属性 | 描述 |
|---|---|
| 忽略此域 | 从结果表布局中排除此域。 该域中的数据仍然会被导入,但它是未定义的,并且不会出现在新的 Analytics 表中。如有必要,可在以后对其进行定义并且将其添加到该表中。 |
| 名称 | 表布局中域的名称。 您可以保留 Analytics 所分配的名称,也可以输入一个不同的名称。 |
| 列标题 | 默认 Analytics 视图中域的列标题。 如果您不指定列标题,则会使用名称值。 |
|
说明 如果您在分隔文件属性页面中选择了皆为字符,则下面的选项不适用并且被禁用。 |
|
| 类型 | 被分配给 Analytics 结果表中的域的数据类型。 您可以保留由 Analytics 分配的数据类型,或者从下拉列表中选择适当的数据类型。 有关 Analytics 中支持的数据类型的信息,请参见Analytics 中的数据类型。 |
| 值 | 一个只读属性,它显示域中的第一个值。 该值会基于您所做的任何编辑动态更新。 |
| 小数位 | 仅限于数值域。源数据中的小数位数。 说明 当您选择“数值”数据类型时,小数位文本框会自动出现。 |
| 输入格式 | 仅限日期时间域。源数据中的日期时间值的格式。 您指定的格式必须与源数据中的格式精确匹配。 要了解日期和时间格式相关的更多信息,请参考日期和时间源数据格式。 |
完成导入
- 在最终页中,验证新 Analytics 表的设置,然后单击完成。
如果您想要进行任何更改,请单击上一步到达该向导中的适当页面。
- 为您要添加到项目的表布局输入一个名称,或者保留默认名称,然后单击确定。
将使用所导入的文件中的数据创建一个新的 Analytics 表。
说明
Analytics 表名称限制为 64 个字母数字字符,且不包括 .FIL 扩展名。该名称可以包括下划线字符 ( _ ),但不能包括其他特殊字符或任何空格。该名称不能以数字开头。
导入多个分隔文本文件
在单个操作中,导入多个分隔文本文件。一旦被导入到 Analytics 项目中,每个分隔文件都会成为单独的 Analytics 表。
您可以在导入过程中仅手动定义文件级别属性。Analytics 自动定义域级别属性,且在导入过程中不可能进行手动定义。
一旦将数据导入 Analytics,您就可以在表布局对话框中对数据定义进行任何必要的调整。
说明
您导入的文件中的所有首行都应该使用一致的方法。在所有文件中,首行应该是域名称或者数据。在单个导入操作中,请避免混用两个方法。
如果这些文件对首行采用不一致的方法,请使用两个独立的导入操作。
找到并选择分隔文件
- 选择导入 > 文件。
- 在选择要定义的文件对话框中,找到并选择该分隔文本文件,然后单击打开。
支持具有下列文件扩展名的分隔文本文件:.txt、.csv、.del、.dat
您可以按住 Shift 并单击以选择多个相邻文件,或者按住 Ctrl 并单击以选择多个非相邻文件。
进行初始导入准备
- 在分隔文件属性页面中,选择要导入的文件。
默认情况下使这项文件保持选定状态,或者取消选择您不想导入的任何文件。如果您想要取消选择文件或者选择所有文件,请选择第一个复选框。
- 审核由 Analytics 分配的设置,进行任何需要的更新,然后单击下一步。
设置 描述 表名称 Analytics 项目中表的名称。
保留由 Analytics 分配的名称,或者双击表名称,键入一个不同的名称,然后按 Enter。
说明
表名称同时适用于在导入数据时创建的新表布局和新源数据文件。
覆盖现有表 Analytics 项目中具有相同名称的现有表被覆盖。
有关详细信息,请参见覆盖工作原理。
输出路径 指定用来保存新 Analytics 数据文件 (.fil) 的文件夹。
如果您使输出路径保持空白,则会将 Analytics 数据文件保存在包含该 Analytics 项目的文件夹中。
- 如果出现错误消息“检测到现有文件或表名称”,请单击确定并执行下列一项或两项操作:
- 如果可以覆盖任何具有相同名称的现有表布局或者关联数据文件,请选择覆盖现有表。
- 在表名称设置中,根据需要重命名所导入的表,以避免覆盖任何现有表布局或者关联数据文件。
-
在确认对话框中,单击是以继续,或者单击否返回并更改文件的选择。
指定分隔文件属性
说明
您指定的属性适用于导入的所有文件。如果文件的结构不一致,则某些文件的属性可能不准确,并且导入可能存在问题。
- 在分隔文件属性页面中,检查由 Analytics 分配给下面列出的属性的设置,进行任何必要的更新,然后单击下一步。
属性 描述 开始行 开始读取文件的行号。
此设置使您可以跳过文件开头的包含您不想导入的信息的行。例如,如果每个文件的前三行包含标题信息,则输入 4 可从第四行开始读取数据。
域宽度 对于预览表中的选定列标题,请指定结果表布局中的域长度。指定长度(字符数)。
Analytics会自动分配与域中最长值匹配的长度。可以保留指定的长度,或指定不同的长度。在生成的 Analytics 表中,超过指定域长度的域值将被截断。
提示
如果您打算定期从已更新的源数据刷新结果 Analytics 表,或者重新使用导入命令,请输入一个比 Analytics 所分配的域长度更长的域长度。
如果源数据中的更新值比当前任何值都长,则较长的域长度可提供额外的空间。
说明
最大域长度是 32,767 个字符(非 Unicode 版)或者 16,383 个字符(Unicode 版)。整个域长度(直至最大长度)都被导入到 Analytics 中,但只有前 256 个字符被显示在表视图中。该数据的其余部分仍然存在,并且可以进行分析,但是在该视图中不可见。要查看所有数据,请打开表布局对话框。
使用第一行作为域名称 每个文件第一行中的值被用作结果表布局中的域名称。
说明
如果您使用此设置,则被用作域名称的行是起始行中指定的任何行号。
此设置全局适用于您导入的所有文件。
连续限定符视为单个处理 重复的限定符被忽略。
例如,如果您选择此选项,则 “Diligent Corporation””(以两个双引号终结)等效于 “Diligent Corporation”。
域分隔符 在文件中分隔域的字符:
- 逗号
- TAB
- 分号
- 其他 – 使您可以指定被用作域分隔符的字符
文本限定符 标识域中包含的值的文本符号:
- 双引号
- 单引号
- 无 – 指示未使用文本限定符
- 其他 – 使您可以指定被用作文本限定符的字符
清除回车符和清除换行符 在导入的数据中清除不适当的回车符 (CR) 和/或换行符 (LF)。
不适当的 CR/LF 字符可导致记录中发生不正确的换行。启用后,该选项将任何 CR/LF 字符替换为空格。只有出现在一对文本限定符内部的 CR/LF 字符被替换。
对于 Windows 文件,请同时选择清除回车符和清除换行符。
如果文本限定符为无,则这两个选项都被禁用。
皆为字符 将字符数据类型分配给所有被导入的域。
提示
将字符数据类型分配给所有被导入的域可简化导入分隔文本文件的流程。
一旦将数据导入 Analytics,您就可以向域分配不同的数据类型(如数值或日期时间),并且指定格式详细信息。
如果您所导入的表中的标识符域被 Analytics 自动分配“数值”数据类型,而实际上它们应该使用“字符”数据类型,则皆为字符选项很有用。
替换 NULL清 除所导入的数据中的不适当的 NULL 字符。
不适当的 NULL 字符可导致记录中出现间隔和不正确的域划分。启用后,该选项将任何 NULL 字符替换为空格。
完成导入
在最终页面中,验证新 Analytics 表的设置并单击完成。
如果您想要进行任何更改,请单击上一步到达该向导中的适当页面。
使用所导入的文件中的数据创建新的 Analytics 表。