空间自相关 (Global Moran's I) 的工作原理

空间自相关 (Global Moran's I) 工具同时根据要素位置和要素值来度量空间自相关。在给定一组要素及相关属性的情况下,该工具评估所表达的模式是聚类模式、离散模式还是随机模式。该工具通过计算 Moran's I 指数值、z 得分和 p 值来对该指数的显著性进行评估。p 值是根据已知分布的曲线得出的面积近似值(受检验统计量限制)。

计算

用于计算 Global Moran's I 的数学公式

查看 Global Moran's I 的其他数学公式

Global Moran's I 统计量所依据的数学公式如上所示。该工具计算所评估属性的均值和方差。然后,将每个要素值减去均值,从而得到与均值的偏差。将所有相邻要素(例如位于指定距离范围内的要素)的偏差值相乘,从而得到叉积。请注意,Global Moran's I 统计量的分子是这些叉积的和。假定要素 A 和 B 是相邻要素,并且所有要素值的均值为 10。请注意可能的叉积结果的范围:

要素值

偏差

叉积

A=50

B=40

40

30

1200

A=8

B=6

-2

-4

8

A=20

B=2

10

-8

-80

如果相邻要素的值都大于或者都小于均值,则叉积将为正。如果一个要素值小于均值而另一个要素值大于均值,则叉积将为负。在所有情况下,与均值的偏差越大,叉积结果就越大。如果数据集中的值倾向于在空间上发生聚类(高值聚集在其他高值附近;低值聚集在其他低值附近),则 Moran's I 指数将为正。如果高值排斥其他高值,而倾向于靠近低值,则该指数将为负。如果正叉积值与负叉积值相抵消,则指数将接近于零。由于分子是通过方差进行归一化,因此该指数的值将落在 -1.0 到 +1.0 的区间内(有关例外情况,请参阅下面的常见问题部分)。

空间自相关 (Global Moran's I) 工具计算了指数值后,将计算期望指数值。然后,将期望指数值与观察指数值进行比较。在给定数据集中的要素个数和全部数据值的方差的情况下,该工具将计算 z 得分和 p 值,用来指示此差异是否具有统计学上的显著性。指数值不能直接进行解释,只能在零假设的情况下进行解释。

解释

空间自相关 (Global Moran's I) 工具是一种推论统计,这意味着分析结果始终在零假设的情况下进行解释。对于 Global Moran's I 统计量,零假设声明,所分析的属性在研究区域内的要素之间是随机分布的;换句话说,用于促进观察值模式的空间过程是随机的。假设您可以为所分析的属性选择值,然后使这些值随意落到要素上,从而让每个值落在可能的位置。此过程(选择并随意放置值)便是随机空间过程的示例。

如果此工具返回的 p 值具有统计学上的显著性,则可拒绝零假设。下表对结果的解释进行了汇总:

p 值具有统计学上的显著性。

不能拒绝零假设。要素值的空间分布很有可能是随机空间过程的结果。观测到的要素值空间模式可能只是完全空间随机性 (CSR) 的众多可能结果之一。

p 值具有统计学上的显著性,且 z 得分为正值。

可以拒绝零假设。如果基础空间过程是随机的,则数据集中高值和/或低值的空间分布在空间上聚类的程度要高于预期。

p 值具有统计学上的显著性,且 z 得分为负值。

可以拒绝零假设。如果基础空间过程是随机的,则数据集中高值和低值的空间分布在空间上离散的程度要高于预期。离散空间模式通常会反映某种类型的竞争过程 - 具有高值的要素排斥具有高值的其他要素;类似地,具有低值的要素排斥具有低值的其他要素。

注:

高/低聚类 (General G) 工具和空间自相关 (Global Moran's I) 工具的零假设都具有完全空间随机性。但是,高/低聚类 (General G) 工具的 z 得分解释有所不同。

输出

最佳做法准则

  • 输入要素类是否至少包含 30 个要素?如果少于 30 个要素,则结果不可靠。
  • 您选择的空间关系的概念化是否合适?请参阅选择空间关系的概念化
  • 距离范围或距离阈值是否合适?请参阅选择固定距离
    • 所有要素都应至少具有一个相邻要素。
    • 任何要素都不应将其余所有要素作为相邻要素。
    • 尤其是在输入字段的值偏斜时,每个要素都应具有八个左右的相邻要素。
  • 是否进行行标准化?对于面要素,几乎总是需要进行行标准化。请参阅标准化

常见问题

问题:热点分析 (Getis-Ord Gi*) 工具的输出结果用于指示统计学上显著的热点。为什么空间自相关 (Global Moran's I) 工具的输出结果不具有统计学上的显著性?

答案:空间自相关 (Global Moran's I) 工具等全局统计量用于对数据的总体模式和趋势进行评估。如果空间模式在研究区域内保持一致,这些全局统计量最有效。局部统计量(如热点分析 (Getis-Ord Gi*) 工具)用于在相邻要素的环境下对每个要素进行评估,然后将局部情况与全局情况进行比较。请考虑一个示例。您在计算一组值的均值或平均值时,还要计算某个全局统计量。如果所有值都接近 20,则均值也将接近 20,并且该结果可以非常好地表示/概括整个数据集。但如果一半值接近 1,而另一半值接近 100,则均值将接近 50。可能不存在任何接近 50 的数据值,因此该均值并不能很好地表示/概括整个数据集。创建数据值的直方图时,您将看到双峰分布。类似地,当所估量的空间过程在研究区域内保持一致时,使用全局空间统计量(包括空间自相关 (Global Moran's I) 工具)将最有效。这样,所得到的结果将能很好地表示/概括总体空间模式。有关详细信息,请参阅下面引用的 Getis and Ord (1992) 以及它们所提供的 SIDS 分析。

 

问题:高低聚类 (Getis-Ord General G)空间自相关 (Global Moran's I) 生成的结果为何不同?

答案: 因为这些工具用于估量不同的空间模式。单击此处了解详细信息。

 

问题:可以针对不同研究区域将此工具生成的 z 得分或 p 值与分析结果进行比较吗?

答案:不同研究区域的结果不能进行比较。但是,如果研究区域是固定的(例如,所有分析都针对加利福尼亚的县)、输入字段具有可比性(例如,所有分析都涉及某种类型的人口计数),并且工具参数均相同(例如,距离范围或距离阈值为 5,000 米的“固定距离”并且工具均使用“行标准化”参数),此时,便可对统计学上显著的 z 得分进行比较,以了解空间聚类或空间离散的程度或更好地了解趋势随时间推移的变化情况。还可以在不断增大距离范围或距离阈值的情况下运行分析,以了解在哪个距离/比例下促进空间聚类的过程最明显。

 

问题:为何会得到大于 1.0 或小于 -1.0 的 Moran's I 指数?

答案:通常,Global Moran's I 指数介于 -1.0 到 1.0 之间。只有对权重进行了行标准化时才会这样。如果未对权重进行行标准化处理,则指数值可能会落在 -1.0 到 1.0 的范围之外,这表示参数设置有问题。最常见的问题如下:

  • 输入字段严重偏斜(创建数据值的直方图可了解此情况),空间关系的概念化距离范围的设置使得某些要素的相邻要素非常少。Global Moran's I 统计量是渐进正态的,这意味着,对于偏斜数据,每个要素至少需要具有 8 个相邻要素。为距离范围或距离阈值参数计算的默认值可确保每个要素至少具有 1 个相邻要素,但这可能不够,尤其是在输入字段中的值严重偏斜时。
  • 使用反距离空间关系的概念化,并且反距离非常小。
  • 未选择行标准化,但应选择。除非聚合方案与所分析的字段直接相关,否则,只要对数据进行了聚合处理,就应选择行标准化

可能的应用

  • 通过查找距离(即空间自相关最强位置对应的距离),可为各种空间分析方法确定合适的邻近距离。
  • 度量种族或民族分离随时间推移的总体趋势 - 分离程度是逐渐增强还是逐渐减弱?
  • 总结某种观点、疾病或趋势随空间和时间变化的传播情况 - 观点、疾病或趋势是保持隔离和集中,还是传播开并变得更加分散?

其他资源

以下书籍和期刊文章包含了有关此工具的详细信息:

Getis、Arthur 和 J. K. Ord。“通过应用距离统计数据分析空间关联。”地理分析 24,第 3 期。1992。

Goodchild,Michael F。空间自相关。Catmog 47, Geo Books。 1986.

Griffith,Daniel。空间自相关入门教程。地理资源出版物,美国地理学家协会。 1987.

Mitchell, Andy.《The ESRI Guide to GIS Analysis》,第 2 卷。ESRI 出版社,2005。