分组分析 (空间统计)

AllSource 1.3    |

摘要

根据要素属性和可选的空间或时态约束对要素进行分组。

旧版本:

此工具已弃用。 此工具背后的算法已得到增强,且新功能已添加到这些方法中。 为了简化功能和方法,已将此工具替换为两个工具。 如果要创建空间约束组,请使用空间约束多元聚类工具。 使用多元聚类工具来创建无空间约束的组。

插图

Grouping Analysis diagram

使用情况

    旧版本:

    ArcGIS AllSource 2.1 中,分组分析工具背后的算法已得到增强,且新功能已添加到这些方法中。 为了简化新的功能和方法,已经创建了两个新工具来取代分组分析工具。 如果要创建在空间上连续的组,请使用空间约束多元聚类工具。 使用多元聚类工具来创建无空间约束的组。

  • 此工具将生成一个包含分析中所使用字段以及一个名为 SS_GROUP 的新增整型字段的输出要素类。 默认渲染将基于 SS_GROUP 字段,并会显示每个要素所属的组。 例如,如果您指明需要 3 个组,则对于 SS_GROUP 字段,每个记录将包含 1、2 或 3。 SS_SEED 字段可指示使用哪些要素作为分组的起点。 SS_SEED 字段中非零值的数量将与为组数参数所输入的值相匹配。

  • 注:

    创建报表文件会大大增加处理时间。 因此,当分组分析将创建显示组成员资格的输出要素类时,如果指定超过 15 个组或超过 15 个变量,则不会创建 PDF 报表文件。

  • 通过唯一 ID 字段可以将输出要素类中的记录链接回原始输入要素类中的数据。 因此,每个要素的唯一 ID 字段值都必须唯一,而且通常应该是一个与要素类一同保留的永久性字段。 如果数据集中没有唯一 ID 字段,则可以随时创建一个,方法是向要素类表中添加一个新的整型字段,然后将此字段的值计算为与 FID/OID 字段的值相等。 您无法将 FID/OID 字段直接用于唯一 ID 字段参数。

  • 分析字段应为数值型字段,而且应包含各种值。 无任何变化的字段(即每个记录的值相同)将从分析中删除,但将包括在输出要素类中。 如果分类字段以哑元变量表示(值 1 表示类别中的所有要素,而 0 表示所有其他要素),则可以与分组分析工具结合使用。

  • 也可以施加其他空间约束,如“固定距离”,方法是首先使用生成空间权重矩阵工具创建 SWM 文件,然后为空间权重矩阵文件参数提供该文件的路径。

    注:

  • 定义空间约束可以确保各个组紧凑、连续或邻近。 在分析字段列表中包括空间变量还会强化这些组属性。 空间变量示例可包括高速公路驶入坡道的距离、职位空缺的可达性、购物机会的邻近性、连接测量值甚至坐标 (X, Y)。 引入表示时间、周几或时态距离的变量可以促进组成员之间的时态紧凑性。

  • 当要素的空间模式非常独特时(例如三个单独的、空间上独特的聚类),会使空间约束分组算法复杂化。 因此,分组算法首先要会确定是否存在任何不相连的组。 如果不相连的组数大于所指定的组数,则工具无法求解,并会显示相应的错误消息。 如果不相连的组数与指定的组数完全相同,则要素的空间配置可以单独确定组结果,如下面的 (A) 中所示。 如果指定的组数大于不相连的组数,那么分组将从已确定的不相连的组开始。 例如,如果有三个不相连的组,而指定的组数4,则三个组中的其中一个组将被分割,以便创建第四个组,如下面的 (B) 中所示。

    不相连的组

  • 虽然倾向于引入尽可能多的分析字段,但对此工具而言,最好从单个变量开始构建。 较少的分析字段的结果更易于解释。 当字段较少时,也更容易确定哪些变量是最佳鉴别器。

  • 注:

    使用随机种子时,您可能希望通过“随机数生成器环境”设置选择种子来启动随机数生成器。 但是,此工具使用的“随机数生成器”始终为 Mersenne Twister。

  • 初始化字段中的任何 1 值均被视为种子。 如果种子要素的数量比组数多,则将从初始化字段所确定的要素中随机选择种子要素。 如果种子要素少于组数指定的数量,则将选择其他种子要素,以便使它们远离(在数据空间中)初始化字段所确定的要素。

  • 有时,您可能知道最适合于数据的组数。 但是,如果不知道,则必须尝试不同的组数,注意哪些值能够最恰当地对组进行区分。 当选中评估最佳组数参数时,将对具有 2 至 15 个组的分组解决方案计算伪 F 统计量。 如果没有其他标准指导您选择组数,可使用与其中一个最大伪 F 统计量值相关的数字。 最大 F 统计量值指明在组相似性和组差异之间具有最佳性能的解决方案。 如果指定了一个可选的输出报表文件,该 PDF 报表将包括一个图,该图显示具有 2 到 15 个组的解决方案的 F 统计量值。

  • 不管您如何指定组数,如果随意分到其他组,则工具将停止运行。 例如,假设数据由三个空间聚类面和单个分析字段组成。 如果聚类中的所有要素都具有相同的分析字段值,则在创建三个组后可以随意划分各个聚类。 如果在这种情况下指定的组多于三个,则此工具仍将仅创建三个组。 只要组中至少有一个分析字段具有一些变量值,即可继续将其划分成其他组。

    将不会再创建组
    如果分析字段值中不存在变量,则不会进一步分组。

  • 当在分析中引入空间或空间-时间约束时,伪 F 统计量具有可比性(只要输入要素分析字段不改变)。 因此,您不但可以使用 F 统计量值确定最佳组数,还可以帮助您选择最有效的空间约束选项、距离方法相邻要素的数目

  • 分组分析工具将返回三个派生输出值,这些值可能会在自定义模型和脚本中使用。 这三个派生输出值分别是针对组数 (Output_FStat) 的伪 F 统计量、针对组 2 至 15 的最大伪 F 统计量 (Max_FStat) 和与最大伪 F 统计量相关的组数 (Max_FStat_Group)。 当未选择评估最佳组数时,所有派生输出变量均设置为 None

  • 为一组要素分配的组编号在这次运行与下次运行中可能并不相同。 例如,假设您根据收入变量将要素分成两组。 在首次运行分析时,您可能发现高收入要素被标为组 2,低收入要素被标为组 1;而在第二次运行相同的分析时,高收入要素可能被标为组 1。

  • 虽然可以选择创建大量不同的组,但在大多数情况下,您可能会将要素仅分成少量的几个组。 由于在组数较多的情况下,图表和地图将变得难以解释。因此,在为组数参数输入了大于 15 的值或者选择了超过 15 个分析字段时,将不会创建报表。 但是,您可以增大最大组数的限值。

    抢先版本:

    因为您拥有分组分析工具的 Python 源代码,因此您可以根据需要覆盖 15 个变量或15 个组报表限值。 此上限可以通过 Partition.py 脚本文件中以及空间统计工具箱内工具的验证代码中的两个变量进行设置:

    maxNumGroups = 15
    maxNumVars = 15

  • 有关输出报表文件的详细信息,请参阅了解有关分组分析工作原理的详细信息。

参数

标注说明数据类型
输入要素

要创建组的要素类或要素图层。

Feature Layer
唯一 ID 字段

包含输入要素类中每个要素不同值的整型字段。如果没有“唯一 ID”字段,则可以创建一个,方法是向要素类表添加一个整型字段,然后将此字段的值计算为与 FIDOBJECTID 字段的值相等。

Field
输出要素类

创建的新输出要素类,其中包含所有要素、指定的分析字段以及一个用于指明每个要素所属组的字段。

Feature Class
组数

要创建的组数。 如果多于 15 个组,将禁用输出报表参数。

Long
分析字段

用于区分各个组的字段的列表。 如果多于 15 个字段,将禁用输出报表参数。

Field
空间约束

指定是否使用要素之间的空间关系约束创建的组及其约束方式。

  • CONTIGUITY_EDGES_ONLY组中包含相邻的面要素。 只有共享一条边的面才属于同一个群组。
  • CONTIGUITY_EDGES_CORNERS组中包含相邻的面要素。 只有共享一条边或一个折点的面才属于同一个群组。
  • DELAUNAY_TRIANGULATION同一个组中的要素至少具有一个与该组中的另一要素共用的自然邻域。 自然邻域关系基于 Delaunay 三角测量。 从概念上讲,Delaunay 三角测量可以根据要素质心创建不重叠的三角网。 每个要素是一个三角形结点,具有公共边的结点被视为邻域。
  • K_NEAREST_NEIGHBORS同一个组中的要素将相互邻近;每个要素至少是该组中某一其他要素的邻域。 邻域关系基于最近的 K 要素,您可以在此为相邻要素的数目参数指定整型值 K。
  • GET_SPATIAL_WEIGHTS_FROM_FILE空间关系和可选的时态关系通过空间权重文件 (.swm) 进行定义。 使用生成空间权重矩阵生成网络空间权重工具创建空间权重矩阵文件。
  • NO_SPATIAL_CONSTRAINT只能使用数据空间邻域法对要素进行分组。 要素不必在空间或时间上彼此邻近,即可成为同一组的一部分。
String
距离法
(可选)

指定计算每个要素与邻近要素之间的距离的方式。

  • EUCLIDEAN两点间的直线距离
  • MANHATTAN沿垂直轴度量的两点间的距离(城市街区),计算方法是对两点的 x 和 y 坐标的差值(绝对值)求和。
String
相邻要素的数目
(可选)
Long
权重矩阵文件
(可选)

包含空间权重(其定义要素间的空间关系)的文件的路径。

File
初始化方法
(可选)
String
初始化字段
(可选)

用于标识种子要素的数值型字段。 将使用此字段中具有 1 值的要素发展群组。

Field
输出报表文件
(可选)

所要创建的用于汇总组特征的 PDF 报表文件的完整路径。 此报表提供了许多图表,以帮助您比较每个组的特征。 创建报表文件会大大增加处理时间。

File
评估最佳组数
(可选)

指定工具是否将评估最佳组数(2 到 15)。

  • 选中 - 对从 2 到 15 的组数进行评估。
  • 取消选中 - 不对组数进行评估。 这是默认设置。
Boolean

派生输出

标注说明数据类型
F 统计量

输出伪 F 统计量值。

Double
最大 F 统计量组

与最大伪 F 统计量值相关联的组数

Long
最大 F 统计量

针对组 2 至 15 的最大伪 F 统计量。

Double

环境

特殊情况

输出坐标系

在进行分析之前将要素几何投影到输出坐标系。所有数学计算都基于输出坐标系空间参考。输出坐标系基于度、分、秒时,测地线距离用弦距离估测。

随机数生成器

使用的随机数生成器类型始终为 Mersenne Twister。