空间相关性

The first law of geography: Everything is related to everything else, but near things are more related than distant things.
Waldo R. Tobler[1]

在空间统计分析中,空间自相关反映了研究区域内要素之间的分布规律,这些规律通过空间分布模式进行衡量,空间分布模式主要有随机(正态分布)、聚集、离散(泊松分布)三类,要素间空间模式计算是研究空间自相关的主要方法,研究者引入了一系列指标来定量相关性。

莫兰指数是空间自相关空间分布模式定量评价的重要指标,莫兰指数分为全局莫兰指数(Global Moran’s I)和局部莫兰指数(Local Moran’s I),前者是Patrick Alfred Pierce Moran开发的空间自相关的度量;后者是美国亚利桑那州立大学地理与规划学院院长 Luc Anselin 教授在1995年提出的。

Global Moran’s I

原理

在ArcGIS中使用空间自相关Global Moran’s I工具进行指数计算,该工具通过计算 Moran’s I 指数值、z 得分和 p 值来对该指数的显著性进行评估[2]。计算方式如下:

莫兰指数的值会被归一化到 -1.0 与 +1.0 之间,z 得分和 p 值是统计显著性的量度,用来判断是否拒绝零假设。p 值表示概率。对于模式分析工具来说,p 值表示所观测到的空间模式是由某一随机过程创建而成的概率。当 p 很小时,意味着所观测到的空间模式不太可能产生于随机过程(小概率事件),因此可以拒绝零假设。Z 得分表示标准差的倍数。使用 z 得分或 p 值指示统计显著性时,Moran's I > 0表示空间正相关性,其值越大,空间相关性越明显,Moran's I < 0表示空间负相关性,其值越小,空间差异越大,否则,Moran's I = 0,空间呈随机性。

使用方式

版本: ArcGIS 10.5

工具位置

参数设置


使用时,勾选Generate Report,可以生成html 报表文件
Distance Method包括欧氏距离和曼哈顿距离,根据不同要素类型进行选择
Conceptualization of Spatial Relationships推荐选择CONTIGUITY_EDGES_CORNERS,也就是Queen’s Case,共边共点都被视为邻接要素[3],更多空间关系可参考[4]
有时莫兰指数计算结果超出[-1,1]范围,产生原因如下[5]

  1. 输入的数据严重偏斜(创建数据值的直方图可了解此情况),空间关系的概念化或距离范围的设置使得某些要素的相邻要素非常少。Global Moran’s I 统计量是渐进正态的,这意味着,对于偏斜数据,每个要素至少需要具有 8 个相邻要素。为距离范围或距离阈值参数计算的默认值可确保每个要素至少具有 1 个相邻要素,但这可能不够,尤其是在输入数据中的有的值出现严重偏斜时。
  2. 使用反距离空间关系的概念化,在选择反距离的幂的时候,为了突出拉伸,选择了一个过高的幂,这样就会把反距离(距离的倒数)变得非常的小。
  3. 未选择行标准化,但应选择。除非聚合方案与所分析的字段直接相关,否则,只要对数据进行了聚合处理,就应选择行标准化。

因此根据实际数据情况,合理调整各项设置十分重要。

结果提取

当选择输出html报表,如果结果较多,可使用代码批量提取报表中的值。

from bs4 import BeautifulSoup
import os
import pandas as pd

# 遍历报表目录,获取文件列表
file_list = os.listdir(r'D:\html',)
data_list = []
# 解析html文件
for file in file_list:  
    html_file = open('D:/html/' + file,'r',encoding='utf8')
    soup = BeautifulSoup(html_file,'lxml')
    table = soup.find_all('table')
    tab = table[0]
    tab2 = table[2]
    tds = []
       
    for tr in tab.findAll('tr'):
        for td in tr.findAll('td'):
            tds.append(td.getText())
            
    for tr in tab2.findAll('tr'):
        for td in tr.findAll('td'):
            tds.append(td.getText())
            
    # 提取追加关键字段        
    data_list.append({
            'Moran\'s I index': tds[0],
            'z-score': tds[2],
            'p-value': tds[4],
            'file name': tds[6],
            'hour': tds[7]
        }) 
# 汇总结果
results = pd.DataFrame(data_list)

Anselin Local Moran’s I

原理

相比于全局莫兰指数,Local Moran’s I更偏向于识别局部自相关现象[6],是一种细粒度的空间统计工具。ArcGIS中通过聚类和异常值分析 Anselin Local Moran’s I实现,该工具计算 local Moran’s I 值、z 得分、伪 p 值和表示每个具有统计显著性的要素的聚类类型的编码。z 得分和伪 p 值表示计算出的指数值的统计显著性。计算方式如下:

ArcGIS 对于空间模式编码的输出字段为COType(clustering / outlier Type), 它表示具有统计显著性的高值 (HH) 聚类、低值 (LL) 聚类、高值主要由低值围绕的异常值 (HL) 以及低值主要由高值围绕的异常值 (LH)。这些模式的判断依据参见论文[8],简单理解可参考此图[9]

使用方式

版本: ArcGIS 10.5

工具位置

参数设置


参数选定与Global Moran’s I类似,工具输出为包含空间模式编码的图层,并有预设渲染效果。

Getis-Ord Gi*

原理

热点分析(Getis-Ord Gi* )工具的实现原理源于Getis and Ord (1992),它输出结果用于指示统计学上显著的热点。要成为具有显著统计学意义的热点,要素应具有高值,且被其他同样具有高值的要素所包围。热点分析工具可对数据集中的每一个要素计算Getis-Ord Gi* 。通过得到的z 得分和p 值,可以知道高值或低值要素在空间上发生聚类的位置。对于具有显著统计学意义的正的z 得分,z 得分越高,高值(热点)的聚类就越紧密。对于统计学上的显著性负z 得分,z 得分越低,低值(冷点)的聚类就越紧密。计算方式如下[10]

使用方式

版本: ArcGIS 10.5

工具位置

参数设置


Conceptualization of Spatial Relationships推荐选择“固定距离范围”
对于点事件数据,如需评估事件的点密度,需要在分析前对事件点数据进行聚合,方法主要为空间连接:

热点分析 (Getis-Ord Gi*) 工具也是查找热点和冷点位置的有效工具。但是,只有聚类和异常值分析 (Anselin Local Moran’s I) 工具可以识别具有统计显著性的空间异常值(高值由低值围绕或低值由高值围绕)。虾神说D 对这两类方法做了详细对比总结。

现在见到的较多的“热力图”其实是一种密度分析结果,这种方式单纯的按照数据的多少,来进行聚集,而不去考虑权重、空间关系等内容,与以上统计学的热点分析是不同的。

总结

以上常用空间相关性分析方法可以较好识别并定义具有统计学意义的空间模式,是研究分析中空间规律初探的好工具,随着研究的深入,现在空间相关性通常也与时间相关性联合考虑,这些传统空间分析指标还存在更多优化拓展空间。

Reference