组合数据

Analytics 一次只允许您分析一个表中的数据。因此,在执行分析前,您可能必须将两个或更多个表中的数据组合到一个表中。

Analytics 为组合数据提供了以下方法:

组合记录 组合域
  • 附加
  • 提取/附加
  • 合并
  • 联接
  • 关联

源数据的性质或您的分析目标决定了您应该使用哪种组合数据的方法。下面简要描述了这五种方法。

附加

当您附加表时,您将两个或更多个表中的记录组合到一个包含所附加表的所有记录的新表中。您可以选择包括所附加表中的所有域或者只包括公共域。

示例

场景

您想要对整个年度的数据执行分析,但这些数据分布在十二个月度交易表中。

方法

您可以将十二个月度表中的数据附加到单个包含所有数据的年度表中,然后执行分析。

详细信息

有关详细信息,请参见附加表

提取/附加

当您提取并附加数据时,您从一个表中提取记录,然后将其附加到另一个表的末尾。提取与复制相同,而附加与添加相同。

您还可以选择提取记录中域的子集而不是整个记录。

您向其附加的表(目标表)的大小会增加。不会创建一个新表。

示例

场景

您想要对整个员工记录集执行分析,但新员工的记录尚未被包含在 Employee 主表中。

方法

您可以提取新员工的记录并将其附加到 Employee 主表的末尾,然后执行分析。

详细信息

有关详细信息,请参见提取并附加数据

合并

当您合并表时,您将两个排序表中的记录归并到新的第三个表中(这个表也是排序的)。归并意味着按照记录现有的排序顺序组合记录。

示例

场景

您想要对整个员工记录集执行分析,但这些记录分散在两个部门的 Employee 表中。

这两个表都按姓氏排序,因而您想要避免在组合记录后重新排序的额外开销。

方法

您可以将两个表中的记录合并到新的第三个表中。合并可保持按姓氏进行的排序。

详细信息

有关详细信息,请参见合并表

联接

当您联接表时,您使用公共键域将两个表中的记录或所选域合并到新的第三个表中。公共键域是同时出现在所联接的两个表中的标识域,如员工 ID。

示例

场景

您想要识别任何身兼员工身份的供应商,作为分析可能存在的不适当支付工资的相关数据的方式。

方法

您可以使用公共键域 Address 来联接 Vendor 主表和 Employee 表。

联接的输出表包含任何具有相同地址的供应商和员工。

详细信息

有关详细信息,请参见联接表

关联

当您关联表时,您最多可虚拟联接 18 个表。您使用一个公共键域来关联每个表对。

关联又称为虚拟联接,意味着在多个表之间创建临时性的程序联系,使您可以好像所有数据都存在于单个物理表中一样访问这些表中的数据。但是,实际上并没有创建物理表,并且您随时可以取消源表之间的关联。

公共键域是同时出现在所关联的每个表对中的标识域,如员工 ID。通常,对于每个表对,您使用不同的公共键域。

示例

场景

您想要创建一份销售报告,其中包含有关三月份客户和已销售产品的详情,但这些数据分散在三个表中。

方法

您将 Customer 主表与 Orders 表相关联,将 Orders 表与 Product 主表相关联,以创建一个包含报告所需的所有信息的临时表关联:

  • 客户名称和位置来自 Customer 主表
  • 订单详情来自 Orders 表
  • 产品详情来自 Product 主表

详细信息

有关详细信息,请参见关联表

我应该使用哪种数据组合方法?

在选择数据组合方法时,可能有一个以上的注意事项。您可以使用下面的指南作为起点。

使用... 如果...
附加
  • 您想要使用最少的劳动组合多个表。
  • 源表中的记录在结构上类似或完全相同。
提取/附加
  • 两个源表中的记录或域在结构上完全相同。
合并
  • 两个源表中的记录在结构上完全相同。
  • 两个源表都已排序,并且使用完全相同的排序顺序。

提示

要正确执行合并可能很复杂。通过附加或者通过提取并附加然后排序,您可以得到相同的结果。

如果两个源表均已排序,则合并更为高效,并且可以更快地执行。

联接
  • 两个源表中的记录具有不同的记录结构。
  • 您想要基于公共键域中的匹配值或不匹配值包括或排除记录。
  • 您正在进行需要物理联接表的调查性分析。
关联
  • 您想要关联或虚拟联接多达 18 个具有不同记录结构的表。
  • 您想要基于公共键域中的匹配值或不匹配值包括或排除记录。
  • 您不需要将组合数据输出到新表。
  • 您正在执行只需要表之间的临时关联的信息性工作,如报告。

提示

如果需要,在关联表之后,您可以执行单独的操作,将关联表中的任何域组合提取到新的物理表中。

数据结构

组合数据时,您所选择的方法往往取决于源数据所采用的结构。数据结构或记录结构是指记录中包含的数据元素、它们的数据类型、域长度以及列的数量和顺序。

有关数据结构的详细信息,请参见数据结构和数据格式要求

您可能需要进行实验

在某些情况下,可能无法立即确定用哪种方法进行数据组合。您可能需要用小型数据子集据进行试验,确定哪种方法最适合您要执行的任务。

使用小型子集可让您避免在处理较大型表格时花费过长处理时间,也可更方便地看到模式。

使用一种以上的组合数据的方法来实现您的目标

通过首先使用一种组合数据的方法,然后使用第二种方法和第一种方法的输出结果,您或许能够应对更复杂的涉及多个表的数据组合情况。

示例

  1. 您首先通过组合月度交易表来编制年度交易表。
  2. 然后,您使用一个公共键域(如客户 ID)将年度交易表与包含客户名称等数据的主表相联接。