查找点聚类

大数据分析中的可用工具图标

“查找点聚类”工具 “查找点聚类”小工具 将基于点要素的空间和时空分布来查找周围噪点中的点要素聚类。

工作流示意图

“查找点聚类”工作流逻辑示意图

示例

假设一个非政府组织正研究某种特殊的害虫传播疾病,且有代表研究区域内家庭的点数据集,其中有些家庭已经被感染,有些家庭尚未被感染。 通过使用“查找点聚类”工具,分析人员可以确定已感染家庭的聚类,从而帮助确定要展开治疗及消灭害虫的区域。

用法说明

使用“查找点聚类”工具时,请谨记以下内容:

  • 此工具的输入为单点图层。
  • 所有结果都将包含一个名为 CLUSTER_ID 的字段(用于指示每个要素所属的聚类)和一个名为 COLOR_ID 的字段(作为用于绘制结果的标注),以在大多数情况下使每个聚类的外观不同于其邻近聚类。 对于这两个字段,值为 -1 表明要素已标注为噪点。
  • 聚类方法参数可决定是否使用定义距离或者自调整的聚类算法。 DBSCAN 基于指定搜索范围查找紧密邻近的点聚类。 HDBSCAN 基于聚类概率(或稳定性)查找点聚类,方法与 DBSCAN 类似,不同之处在于使用适用于具有可变密度的聚类的可变搜索范围。
    • 如果选择了 DBSCAN,则只能在二维空间中找到聚类,或在空间和时间中都可以找到聚类。 如果选择了使用时间查找聚类,同时输入图层启用了时间且类型为时刻,则 DBSCAN 将基于指定的搜索距离和搜索持续时间来查找紧密邻近的点的时空聚类。
    • HDBSCAN 当前仅支持空间聚类,且不会使用时间来发现聚类。
  • 如果 DBSCAN 聚类方法与时间一同用于查找时空聚类,则结果中还将包含以下字段:
    • FEAT_TIME- 个要素的原始时刻时间。
    • START_DATETIME- 要素所属聚类的时间范围的开始时间。
    • END_DATETIME- 要素所属聚类的时间范围的结束时间。 生成图层的时间将被设置为 START_DATETIMEEND_DATETIME 字段上的间隔,以确保大多数情况下,在使用时间滑块可视化时空聚类时将所有聚类成员绘制在一起。 对于噪点要素,START_DATETIMEEND_DATETIME 将等于 FEAT_TIME
  • 如果使用 HDBSCAN 聚类方法,则结果还将包括以下字段:
    • PROB- 要素属于其所分配聚类的概率。
    • OUTLIER- 要素在其自己的聚类中为异常值的可能性。 值越大表示该要素越有可能是异常值。
    • EXEMPLAR- 指示哪些要素最能代表每个聚类。 这些要素以值 1 表示。
    • STABILITY- 每个聚类在一定比例范围内的持久性。 分数值越大表示聚类在越大范围的距离比例内持续存在。
  • 每个聚类的最小要素数参数的使用方式不同,具体取决于所选聚类方法
    • 定义距离 (DBSCAN) - 可以指定在某点开始形成聚类的搜索范围内必须找到的要素数。 结果可能包括要素数量少于此值的聚类。 搜索范围距离可使用搜索距离参数进行设置。 使用时间查找聚类时,需要额外的搜索持续时间,并且该时间需要使用搜索持续时间参数进行设置。 在搜索聚类成员时,必须在此指定的搜索范围和搜索持续时间内找到指定的每个聚类的最小要素数以形成聚类。 请注意,搜索距离和持续时间与所找到的点聚类的直径或时间范围无关。
    • 自调整 (HDBSCAN) - 可指定与估算密度时考虑的每个点相邻的要素数(包括点本身)。 此数字也是提取聚类时所允许的最小聚类大小。

参数

以下是“查找点聚类”工具的参数:

参数描述数据类型

输入图层

从中查找点聚类的点要素。

要素

聚类方法

该工具使用的用于确定点聚类的聚类方法。 两个选项如下:

  • DBSCAN - 使用指定距离将密集聚类与稀疏噪点相分离。 DBSCAN 是最快的聚类方法,但仅适用于距离明确的情况,并且非常适用于定义可能存在的所有聚类。 此方法将产生密度相似的聚类。 这是默认设置。
  • HDBSCAN - 使用可变距离可将不同密度的聚类与稀疏噪点相分离。 HDBSCAN 是最以数据为驱动的聚类方法,且需要的用户输入最少。

字符串

每个聚类的最小要素数

根据选择的聚类方法,此参数的使用方式也有所不同:

  • 定义距离 (DBSCAN) - 可以指定在某点开始形成聚类的特定距离内必须找到的要素数。 距离可使用搜索距离参数进行定义。
  • 自调整 (HDBSCAN) - 可指定与估算密度时考虑的每个点相邻的要素数(包括点)。 此数字也是提取聚类时所允许的最小聚类大小。

Int64

使用时间

在标识点聚类时是否使用时间。 此选项仅适用于 DBSCAN 聚类方法。

布尔

搜索距离

要考虑的最大距离。

必须在聚类成员的此距离内找到指定的每个聚类的最小要素数。 将至少按此距离来分隔单个聚类。 如果要素与聚类中下一最近要素的距离大于此距离,则不会将该要素包括在聚类中。

Float64

搜索持续时间

在搜索聚类成员时,必须在此持续时间内找到指定的最小点数方可形成聚类。

字符串

输出图层

生成的输出图层将包含不同的字段,具体取决于选择的聚类方法以及在点聚类的标识中是否使用时间。

在选择 DBSCAN 聚类方法并利用时间时添加的输出字段

字段名描述字段类型

所有输入字段都将保留

输入数据集中的所有输入字段都将保留。

任何

CLUSTER_ID

聚类 ID 表示每个要素所属的聚类。

Int32

COLOR_ID

颜色 ID 为用于绘制结果的标注,因此在大多数情况下,每个聚类的外观不同于其邻近聚类。 对于这两个字段,值为 -1 表明要素已标注为噪点。

Int32

FEAT_TIME

每个要素的原始时刻时间。

日期

START_DATETIME

要素所属聚类的时间范围的开始时间。

日期

END_DATETIME

要素所属聚类的时间范围的结束时间。

日期

在选择 DBSCAN 聚类方法并未利用时间时添加的输出字段

字段名描述字段类型

所有输入字段都将保留

输入数据集中的所有输入字段都将保留。

任何

CLUSTER_ID

聚类 ID 表示每个要素所属的聚类。

Int32

COLOR_ID

颜色 ID 为用于绘制结果的标注,因此在大多数情况下,每个聚类的外观不同于其邻近聚类。 对于这两个字段,值为 -1 表明要素已标注为噪点。

Int32

在选择 HDBSCAN 聚类方法时添加的输出字段

字段名描述字段类型

所有输入字段都将保留

输入数据集中的所有输入字段都将保留。

任何

CLUSTER_ID

聚类 ID 表示每个要素所属的聚类。

Int32

COLOR_ID

颜色 ID 为用于绘制结果的标注,因此在大多数情况下,每个聚类的外观不同于其邻近聚类。 对于这两个字段,值为 -1 表明要素已标注为噪点。

Int32

PROB

要素属于其所分配聚类的概率。

Float64

STABILITY

每个聚类在一定比例范围内的持久性。 分数值越大表示聚类在越大范围的距离比例内持续存在。

Float64

OUTLIER

要素在其自己的聚类中为异常值的可能性。 值越大表示该要素越有可能是异常值。

Float64

EXEMPLAR

指示哪些要素最能代表每个聚类。 这些要素以值 1 表示。

Int32