Python 热点分析：识别具有统计学意义的空间聚类

本推文来源：规划和代码之旅

利用空间统计学，将有意义的模式从随机噪声中区分出来。

空间数据常常表现出聚类现象。犯罪集中在特定街区，疾病病例在某些区域聚集，高温形成热区，经济活动倾向于集聚，交通事故集中在某些路口。这些聚集可能代表着需要关注的有意义的模式，但也可能只是随机数据中的波动。

仅凭目视检查无法区分具有统计学意义的聚类和随机的空间变异。人类的模式识别能力即使在纯粹随机的数据中也能“看出”聚类。某个区域发生的几起犯罪事件看起来像是一个“热点”，但它可能仅仅是偶然发生的。缺乏统计检验，表面的模式会误导分析和决策。

热点分析应用空间统计方法来识别那些不太可能由随机机会产生的聚类。它回答了一个关键问题：“观察到的空间集中是否具有统计学意义，还是可能由随机过程引起？”这种区分将需要采取行动的 真实模式与浪费资源的虚假模式分离开来。

Python 通过其空间统计库，提供了进行严谨热点分析的全面工具。公共卫生分析师用它来识别疾病暴发区，执法部门用它来锁定犯罪预防工作的目标，城市规划师用它来定位服务缺口，环境科学家用它来检测污染源，应急管理者用它来识别风险区。所有这些都依赖于经过统计验证的热点分析。

理解热点分析方法、其假设和恰当应用，有助于进行可靠的空间模式识别，从而支持循证决策。

以下是使用 Python 进行热点分析的综合指南。

🗺️ 理解空间聚类

在应用统计检验之前，理解聚类概念有助于明确热点分析所揭示的内容。

空间自相关性（Spatial Autocorrelation） 衡量相邻位置上的值是否相似。
托布勒地理学第一定律——“所有事物都与其他事物相关，但近处的事物比远处的事物相关性更强”——描述了正空间自相关性作为基本的地理学原理。

正自相关意味着相似的值聚集在一起（高值毗邻高值，低值毗邻低值）。
负自相关意味着不相似的值相邻（高值毗邻低值）。
零自相关意味着空间独立性，值与其邻居无关。

点模式聚类（Point Pattern Clustering） 描述点位置的非均匀分布。

完全空间随机性 (CSR) 是指点在空间中均匀随机分布。
聚类模式是指点集中在某些区域。
规则模式是指点均匀间隔分布。

局部聚类 vs. 全局聚类：全局统计量（如 Moran's I）衡量数据总体上是否存在聚类；局部统计量（如 Local Moran's I, Getis-Ord Gi*）识别形成聚类的特定位置。

全局统计回答：“ 是否存在聚类？”
局部统计回答：“聚类在哪里？”

热点（Hotspots）vs. 冷点（Coldspots）：热点是高值聚集的集群（如高犯罪率）；冷点是低值聚集的集群（如低收入水平，即富裕热点）。

统计显著性（Statistical Significance）：将观察到的聚类与随机机会区分开。显著的聚类不太可能随机产生，暗示着有意义的过程。

📈 全局聚类测量

全局统计量量化整个研究区域的总体空间自相关性。

Moran's I：最常用的全局自相关统计量。它衡量附近位置上的值是否比空间随机性下预期的更相似。

范围从 -1（完全分散）到 0（随机）再到 +1（完全聚类）。
通过置换检验来确定观察到的 Moran's I 是否显著不同于零。

Geary's C：另一种全局自相关度量。它更侧重于方差而非协方差，对局部差异更敏感。

范围从 0（正自相关）到 1（无自相关）再到 2+（负自相关）。

Getis-Ord General G：衡量高值或低值的总体集中度。高 G 值表示高值聚集在一起，专门用于检测热点/冷点模式。

全局统计量的局限性在于：它们只提供一个单一的区域摘要，无法揭示聚类发生在哪里，也无法区分热点和冷点。它们需要与局部统计量结合使用。

📍 局部空间关联指标 (LISA)

局部统计量识别对聚类有贡献的特定位置。

局部 Moran's I (Local Moran's I)：将全局 Moran's I 分解为每个位置的贡献。它识别出四种集群类型：

高-高 (High-High)：高值被高值环绕（热点）。
低-低 (Low-Low)：低值被低值环绕（冷点）。
高-低 (High-Low)：高值被低值环绕（空间异常值）。
低-高 (Low-High)：低值被高值环绕（ 空间异常值）。
通过映射显著的高-高集群来揭示热点。

Getis-Ord Gi 和 Gi* 统计量：专门用于识别具有统计学意义的**高值（热点）或低值（冷点）**的空间聚类。

Gi 统计量：比较邻域内的值之和与整个研究区域的值之和（不包括该位置本身）。
Gi* 统计量：将该位置本身也包含在邻域总和中。
高正 Z 分数表示热点；高 负 Z 分数表示冷点。

局部 Moran's I 与 Getis-Ord 的选择：

特性	局部 Moran's I	Getis-Ord Gi / Gi*
识别类型	异常值和聚类（四种类型）	专门针对热点/冷点（高低浓度）
基准	基于偏离均值	基于绝对值
应用倾向	全面理解空间关系	针对高值集中（如犯罪、疾病）

运行这两种统计量通常能提供最完整的理解。

🔗 定义空间关系

空间统计需要定义位置之间的关系——哪些是邻居，以及它们之间的交互强度。这通过空间权重矩阵 (W) 来实现。

邻接（Contiguity-based）权重：适用于面状数据（如行政区划），根据单位是否相邻（Queen 邻接或 Rook 邻接）来定义邻居。
距离（Distance-based）权重：适用于点状数据或影响范围超出紧邻区域的情况。

固定距离带：包含阈值距离内的所有单位。
K-最近邻 (K-nearest neighbors)：包含 K 个最近的单位。
反距离权重：权重与距离成反比（越近越有影响力）。

网络（Network-based）权重：适用于受限于网络（如道路、河流）的现象。
权重标准化：行标准化（每行权重总和为 1）通常是首选，因为它能防止因邻居数量变化而产生的偏差。

关键点：热点分析结果对空间权重定义敏感。最佳实践是测试敏感性，只有在多种权重定义下都出现的模式才更可靠。

📊 多重检验校正

在许多位置同时进行统计检验会引发 多重比较问题。

多重比较膨胀：在 $\alpha = 0.05$ 的显著性水平下，即使没有聚类，也有 5% 的检验会错误地拒绝零假设（假阳性）。对数百或数千个位置进行检验会极大地夸大假阳性风险。
Bonferroni 校正：通过将显著性水平 $\alpha$ 除以检验次数 $n$ 来进行调整（$ \alpha/n $）。它过于保守，往往会错过真正的热点。
错误发现率 (FDR) 控制：控制被认为是发现的结论中假阳性的比例。

Benjamini-Hochberg 过程提供 FDR 控制，比 Bonferroni 保守性低，能识别更多的真热点，同时将假发现限制在可接受的比例。

由于空间自相关性的存在，标准的多重检验校正（假设独立性）可能不够精确。实际应用中，通常结合使用 FDR 校正和要求空间一致性（孤立的显著位置可能是假阳性）。

💻 Python 与 PySAL 的实现

PySAL（Python 空间分析库） 提供了全面的空间统计功能。

安装和设置：通过 pip install pysal 或其模块化组件（libpysal, esda, splot）进行安装。
空间权重创建 (libpysal.weights)：

从 GeoDataFrame 创建邻接权重（Queen/Rook）。
创建距离权重（距离带、K-最近邻、核权重）。

全局自相关 (esda)：

Moran、Geary、G 函数，用于计算统计量和通过置换检验进行显著性检验。

局部统计量 (esda)：

Moran_Local 用于局部 Moran's I 和聚类分类。
G_Local 和 Getis_Ord 用于 Getis-Ord Gi / Gi*。

可视化 (splot)：

Moran 散点图。
LISA 聚类图（区分四种类型）。

Getis-Ord 热点图（显示显著的热点和冷点）。

工作流程：通常是：加载数据 $\rightarrow$ 创建权重矩阵 $\rightarrow$ 计算全局统计量 $\rightarrow$ 计算局部统计量 $\rightarrow$ 应用校正 $\rightarrow$ 制图和解释。

PySAL 将复杂的空间统计变得易于在 Python 环境中访问。

💡 扫描统计和移动窗口

扫描统计量 (Scan Statistics) 系统地搜索聚类，无需预先指定位置。

空间扫描统计量 (Spatial Scan Statistic)：在研究区域内移动圆形或椭圆形窗口，检验每个窗口内的聚类是否显著。它识别最可能的聚类和次级聚类。
似然比检验：比较窗口内观察到的病例数与零假设下的预期病例数。
SaTScan 软件：广泛应用于流行病学，用于实施空间、时间以及时空扫描统计量。

优势：无需预先指定潜在聚类位置，系统地搜索不同尺度和位置，通过置换检验进行严格的统计检验。

扫描统计量主要应用于疾病暴发检测，与局部空间统计量形成互补。

🕰️ 时空热点分析

聚类通常随时间变化，需要时空分析方法。

热点类型：

新兴热点：最近才出现的聚类。
持久热点：长时间保持聚类的区域（慢性问题）。
零星热点：间歇性聚类，聚类和非聚类交替出现。
振荡热点：在热和冷模式之间交替。

时空立方体 (Space-time cube)：以空间维度为基础，时间为第三维度组织数据。
Getis-Ord Gi with time*：在多个时间点计算热点统计量，追踪热点如何 出现、持续或消散。
时空交互检验：确定聚类是纯粹的空间、纯粹的时间，还是真正的时空交互。

时空分析揭示动态——模式如何随时间变化，而不仅仅是单一时间点的静态空间模式。

🌐 跨领域应用与解释

热点分析服务于不同领域，并具有领域特定的考量。

领域	应用示例	关键考量
公共卫生	疾病集群、癌症聚类、资源分配	伦理考量（避免污名化），确保健康公平。
犯罪分析	犯罪集中、警力部署、预防项目	统计严谨性（防止有偏见的警务），社区干预。
交通安全	事故热点、道路改进、安全运动	避免浪费资源于随机聚类。
经济地理	产业集聚、贫困集中、机会分布	空间不平等模式分析。
生态学	物种集中区、生物多样性热点	优先保护具有统计学意义的集中区。

解释和沟通：

区分统计显著性和 实际显著性（效应大小）。
对识别出的热点的信心取决于：统计显著性（低 p 值）、效应大小（大 z 分数）、跨方法的一致性和领域知识的支持。
制图规范：使用发散色方案（红热蓝冷），只显示 统计显著的聚类，提供上下文。
叙述性解释：将统计数据转化为可理解的语言和可操作的建议（例如：“该社区的犯罪率比周边地区高出三倍”）。

⚠️ 局限性和注意事项

热点分析并非没有局限性。

可变面元问题 (MAUP)：结果取决于空间如何聚合（例如，不同的行政区划边界或网格大小）。模式的鲁棒性应在不同尺度下进行测试。
边缘效应 (Edge effects)：研究区域边界附近的位置由于邻域不完整，可能导致统计偏差。
数据质量：报告偏差、测量误差或缺失数据都会影响分析。

生态谬误 (Ecological fallacy)：不能从区域层面的模式推断出个体层面的关系（例如，犯罪热点不意味着该区域所有居民都是罪犯）。
空间尺度效应：适当的分析尺度取决于所研究的过程。
时间不稳定：模式会随时间变化，需要定期更新分析。

✅ 最佳实践和建议

遵循既定原则可以进行有效的热点分析。

从探索性可视化开始：在正式检验前，通过地图揭示表面模式。
选择合适的方法：点数据用点模式方法，面数据用 LISA 或 Getis-Ord。
仔细定义空间关系：创建反映空间过程的权重矩阵，并测试其敏感性。
应用多重检验校正：控制假发现。
验证结果：通过时间复制或与替代数据源进行比较。
结合使用全局和局部统计量：获取完整的图景。
考虑时间动态：区分新兴与持久问题。
整合领域知识：用学科背景来解释统计结果。
彻底记录方法：包括数据源、权重、阈值和校正。

清晰沟通：将统计分析转化为实际价值和可操作的见解。

热点分析将表面的视觉模式转化为经过统计验证的聚类，从而在空间数据中区分信号和噪声。严谨的空间统计学能够自信地识别出需要关注的有意义的空间集中，同时避免随机变异带来的虚假警报。

A technical illustration of a Python hotspot analysis on a geographical map with color-coded significance levels.