数据聚类

聚类操作可基于一个或多个数值键域中的类似值对表中的记录进行分组。类似值是整个数据集的上下文中相互接近的值。这些类似值代表聚类,一旦将其识别出来,可以揭示数据中的模式。

聚类与其他 Analytics 分组命令有何不同

聚类与其他 Analytics 分组命令有下列不同之处:

  • 聚类不需要对精确值或者具有确定数值边界的预定义层进行分组。相反,聚类基于类似的数值类型值–即彼此接近的值对数据进行分组。
  • 聚类不需要预先存在的数据类别。
  • 基于一个以上的域进行聚类会输出未嵌套(不分层)的结果。

聚类算法如何工作

Analytics 中的聚类使用 K 均值聚类算法,这是一种流行的机器学习算法。您可以在互联网上找到详细的 K 均值聚类介绍。

下面给出了该算法的摘要。

选择聚类个数 (K 值)

要确定在对数据进行聚类时使用的最佳聚类个数,可能需要进行一些测试和试验。对于任何给定的数据集,没有一个准确的答案。

选择要作为聚类依据的域

聚类操作使您可以发现数据中存在的为您所不知道的有机分组。您可以自由地基于多个数值域来创建聚类。在这个意义上,聚类是探索性的,并且是一个无人监督机器学习的范例。

但是,为了弄明白输出聚类,您需要了解您为聚类选择的域之间的关系。

我可以将字符域或日期时间域作为聚类依据吗?

一般情况下,您不能将字符域或日期时间域作为聚类依据。聚类算法只接受数字,并且它使用数字(欧氏距离、均值)执行计算。

评估输出聚类

聚类算法总是输出一个包含指定数量的聚类的表。输出表中的每个记录都将在某个聚类中。

此刻,您需要评估是否任一聚类都具有解析重要性或意义。算法对某个聚类中的记录进行分组并不必然意味着该分组具有重要性。

两个您可以评估的特征是聚类一致性和聚类大小。

提示

通过在报告工具中将聚类输出表绘制为散点图,并且为每个聚类分配一种不同的颜色,可以最轻松地快速评估输出聚类的性质。

步骤

为聚类算法指定设置

  1. 打开包含您想要聚类的数据的表。
  2. 从 Analytics 主菜单中选择机器学习 > 聚类
  3. 聚类个数 (K 值)中,指定要用来对数据进行分组的聚类个数。
  4. 最大迭代数中,为该聚类算法所执行的迭代数指定一个上限。
  5. 初始化数中,指定生成随机形心的初始集的次数。
  6. 可选。选择种子,然后输入一个数字。

指定数据预处理方法

预处理下拉列表中,选择在聚类数据之前对其进行预处理的方法:

标准化 围绕零 (0) 放置键域值,并且在计算聚类时将这些值缩放至单位方差
缩放到单位方差 在计算聚类时将键域值缩放至单位方差,但不围绕零 (0) 放置这些值
在计算聚类时使用原始键域值(未缩放)

选择域

  1. 聚类依据列表中,选择一个或多个要用来对该表中的记录进行聚类的键域。

    键域必须是数值域。

  2. 可选。从其他域列表中,选择一个或多个要包括在输出表中的其他域。

提示

您可以使用 Ctrl+单击选择多个不相邻的域,使用 Shift+单击选择多个相邻的域。

最终确定命令输入

  1. 如果当前视图中有想要从处理中排除的记录,请在如果文本框中输入一个条件,或单击如果使用表达式生成器创建 IF 声明。

    说明

    在应用任何范围选项()之后,仅针对表中的剩余记录评估如果条件。

    IF 声明中考虑到了视图中的所有记录,滤除那些不满足指定条件的记录。

  2. 文本框中,指定输出表的名称。
  3. 可选。在更多选项卡上:
    1. 要指定只处理记录的一个子集,请选择范围面板中的选项之一。
    2. 如果您希望输出表自动打开,请选择使用输出表
  4. 单击确定
Analytics 14.1 帮助