“聚类和异常值分析 (Anselin Local Moran's I)”的工作原理

给定一组要素(输入要素类参数值)和一个分析字段(输入字段参数值),聚类和异常值分析 (Anselin Local Moran's I) 工具可识别具有高值或低值的要素的空间聚类。 该工具还可以识别空间异常值。 为此,该工具计算 local Moran's I 值、z 得分、伪 p 值和表示每个具有统计显著性的要素的聚类类型的编码。 z 得分和伪 p 值表示计算出的指数值的统计显著性。

计算

Local Moran's I 数学计算

查看 local Moran's I 统计量的其他数学计算

解释

正值指数 (I) 表示要素具有包含同样高或同样低的属性值的邻近要素;该要素是聚类的一部分。 负值指数表示要素具有包含不同值的邻近要素;该要素是异常值。 在任何一个实例中,要被视为具有统计显著性的聚类和异常值,要素的 p 值必须足够小。 有关确定统计显著性的详细信息,请参阅什么是 z 得分? 什么是 p 值? Local Moran's I 指数 (I) 是相对测量,只能在其计算出的 z 得分或 p 值环境中进行说明。 在输出要素类中报告的 z 得分和 p 值对于多重测试或空间依赖性来说未经校正

聚类或异常值类型 (COType) 字段可区分具有统计显著性的高值(HH)聚类、低值(LL)聚类、高值主要由低值围绕的异常值(HL)以及低值主要由高值围绕的异常值(LH)。 统计显著性的置信度设置为 95%。 如果没有应用任何 FDR 校正,p 值小于 0.05 的要素视为具有统计显著性。 FDR 校正将此 p 值阈值从 0.05 降低到某个新值,以便在兼顾多重测试的情况下更好地反映置信度 95%。 没有相邻要素的要素将具有字段值 NN,不重要的要素将在字段中具有空文本。

输出

此工具会为输入要素类中的每个要素创建一个具有以下属性的新输出要素类:本地 Moran's I 指数、z 得分、p 值和聚类/离群值类型。

运行此工具时,输出要素类会自动添加到内容列表,同时对 COType 字段应用默认渲染。 应用的渲染由 <ArcGIS Pro>\Resources\ArcToolBox\Templates\Layers 路径下的图层文件定义。 需要时,可使用应用图层的符号系统工具重新应用默认渲染。

排列

置换检验用于确定找到您所分析值的实际空间分布的可能性,方法是将您的值与一组随机生成的值进行比较。 即便存在完全空间随机性 (CSR),而一定程度的聚类仍可仅通过随机性进行观察。 排列将会生成许多随机性数据集,并将这些值与原始数据的 Local Moran's I 进行比较。 要执行此操作,每个排列均会随机重新排列各要素周围的邻域值,并计算该随机数据的 Local Moran's I 值。 通过检查排列生成的局部 Moran's I 值的分布,您可以确定可能合理地归因于随机性的局部 Moran's I 值的范围。 如果数据中存在统计显著性空间模式,您预期从排列中生成的 Local Moran's I 值比原始数据中生成的 Local Moran's I 值所显示的聚类更少。 随后,可以通过确定排列中生成的 Local Moran's I 值(其中显示的聚类较原始数据多)的比例计算出伪 p 值。 如果该比例(伪 p 值)很小(小于 0.05),则可以推断出您的数据确实具有统计显著性聚类。

选择置换检验次数时,需要兼顾精度和所需增加的处理时间。 增加置换检验次数将凭借扩大伪 p 值的可能值范围而提高精度。 例如,对于 99 种排列,伪 p 值的精度为 0.01,对于 999 种排列,精度为 0.001。计算这些值的方法是将 1 除以置换检验次数加 1 的和:1/(1+99) 和 1/(1+999)。 最初研究问题时可以使用较少的置换检验次数,但是要使最终结果的可行性达到最高,则增加置换检验次数不失为最佳实践。

最佳做法准则

使用聚类和离群值分析 (Anselin Local Moran's I) 工具时请记住以下几点:

  • 结果仅在输入要素类至少包含 30 个要素时可靠。
  • 该工具需要输入字段,如计数、速率或其他数值测量。 如果您正在分析点数据,其中每个点代表一个事件或事故,您可能没有要评估的特定数字属性(严重性排名、计数或其他度量)。 如果要查找事件较多的位置(热点)或事件较少的位置(冷点),则需要在分析之前聚合事件数据热点分析 (Getis-Ord Gi*) 工具也是查找热点和冷点位置的有效工具。 但是,只有聚类和异常值分析 (Anselin Local Moran's I) 工具可以识别具有统计显著性的空间异常值(高值由低值围绕或低值由高值围绕)。
  • 选择适当的空间关系概念化
  • 选择空间时间窗概念化时,可以识别空间-时间聚类和异常值。 有关详细信息,请参阅空间-时间聚类分析
  • 选择适当的距离范围或距离阈值
    • 所有要素都应至少具有一个相邻要素。
    • 任何要素都不应将其他所有要素作为相邻要素。
    • 尤其是在输入字段的值偏斜时,每个要素都应具有八个左右的相邻要素。

可能的应用

聚类和异常值分析 (Anselin Local Moran's I) 工具可识别高值密度、低值密度和空间异常值。 还可帮助您解决以下问题:

  • 研究区域中的富裕区和贫困区之间的最清晰边界在哪里?
  • 研究区域中存在可以找到异常消费模式的位置吗?
  • 研究区域中意想不到的糖尿病高发地在哪里?

应用可以在许多领域找到,包括经济学、资源管理、生物地理学、政治地理学和人口统计学。

其他资源

Anselin, Luc. "Local Indicators of Spatial Association—LISA," Geographical Analysis 27(2): 93–115, 1995.

Mitchell, Andy. The ESRI Guide to GIS Analysis,Volume 2. ESRI Press, 2005.