Py学习  »  机器学习算法

Geographical Analysis文章:地理高斯过程回归:一种基于“地理学第三定律”的空间机器学习模型

数读城事 • 3 月前 • 334 次点击  

一句话总结:

地理高斯过程回归(Geographical Gaussian Process RegressionGGPR)是一种新型空间机器学习模型,其主要创新点是基于“空间(地理)相似性” (spatial similarity)拓展了传统高斯过程回归,同时实现空间预测和探索性空间数据数据分析的功能。



1

Part.1

摘要

本研究提出了一种新型空间机器学习模型,即地理高斯过程回归(Geographical Gaussian Process RegressionGGPR)。GGPR 在传统高斯过程回归(GPR)的基础上,引入了“地理学第三定律”(朱阿兴等 2018&2022)中的核心概念“空间相似性”原则进行校准,可同时用于空间预测(Spatial Prediction)探索性空间数据分析Exploratory Spatial Data Analysis, ESDA)。GGPR 解决了空间机器学习中的一些关键挑战:

● 首先,作为一种基于非独立同分布假设的概率模型,GGPR 避免了空间自相关与“独立同分布(i.i.d.)”假设之间的冲突,从而提升了模型在空间预测中的客观性与可靠性。
● 其次,GGPR 适用于小样本预测——这一点恰恰是许多现有模型所不擅长的。
● 最后,通过与可解释模型GeoShapley结合 (李子奇 2024)GGPR能够解释空间效应和预测结果。
在两个不同的数据集上评估表明,GGPR 不同采样比例下均展现出优于其他主流机器学习模型的预测性能,尤其是在小样本训练集下优势更为明显。作为 ESDA 模型,GGPR 在回归精度、计算效率方面相比地理随机森林(Geographical Random Forests, GRF)和多尺度地理加权回归(Multiscale Geographically Weighted Regression, MGWR)表现更佳,并且空间效应解释能力上可与MGWR相媲美

简而言之,GGPR 为空间数据科学家提供了一种新的工具,用于理解与预测复杂的地理过程。


2

Part.2

研究背景

  • 传统机器学习模型大多基于 i.i.d.(独立同分布)假设,但地理空间数据天然存在空间自相关。这种空间依赖性与传统模型假设存在直接冲突,导致模型结果过于乐观和存在偏见。
  • 现有基于空间依赖性或者空间异质性的空间机器学习方法对小样本数据不友好。
  • 许多现有的机器学习模型难以揭示空间效应和理解地理过程。


3

Part.3

模型介绍

GGPR  GPR 的扩展,构建在  scikit-learn 框架之上(scikit-learn 是一个用于机器学习的 Python 工具包),它是一种以概率方式进行预测的非参数回归方法。如图1所示,GGPR 具有两个功能:

  • 空间预测GGPR 使用空间相似性作为核函数来校准 GPR 模型,并据此预测未知观测点的观测值。

  • 探索性空间数据分析:在空间预测的基础上,加入带有空间坐标的 Matern 核函数,以支持 GeoShapley 的使用,从而能够探索空间效应并解释模型结果。

模型示意图

4

Part.4

模型数据集

在模拟数据集对比中:

  • GGPR模型回归性能优于GRFMGWR

  • GGPR  MGWR能够有效捕捉空间变化,解释空间效应,两者效果相当。

  • 作为一种空间机器学习模型,GGPR捕捉空间效应的能力远优于非空间机器学习模型。

模拟系数和不同模型的估计系数


5

Part.5

案例分析

研究使用两个真实数据集 (芝加哥网约车与脱欧公投数据集) 进行评估:

  • 在预测任务中,GGPR在两个数据集都是表现最好的,超过传统GPR,随机森林 (Random Forests, RF), XGBoost模型。

  • 在探索性空间数据分析任务, GGPR的表现优于MGWRGRF

文章展示了脱欧公投数据集的探索性空间分析结果:

变量贡献瀑布图

结果偏依赖图解释

局部系数和空间效应估计

6

Part.6

结论与意义

GGPR在空间预测与探索性空间数据分析中展示出显著优势。主要结论包括:

  • GGPR 避免了空间自相关与 i.i.d 假设之间的冲突,因此能更客观地进行空间预测。

  • 通过引入空间相似性核函数来校准高斯过程模型,显著提升了模型在小样本场景下的预测能力。

  • 结合 GeoShapley  Matern 核,GGPR 能够解释空间变量对预测结果的影响,具备较强的空间可解释性。

GGPR 为相关领域的研究者提供了一种新的空间预测与分析工具,推动了地理学第三定律在空间机器学习方面的应用,也为 GeoAI 的相关研究提供了新的范例。


代码和测试数据:

https://github.com/Josephjiao7/Geographical-Gaussian-Process-Regression


引用:

Jiao, Z., & Tao, R. (2025). Geographical Gaussian Process Regression: A Spatial Machine Learning Model Based on Spatial Similarity. Geographical Analysishttps://doi.org/10.1111/gean.12423


参考文献:

Zhu, A. X., Lu, G., Liu, J., Qin, C. Z., & Zhou, C. (2018). Spatial prediction based on Third Law of Geography.Annals of GIS24(4), 225-240.

Zhu, A. X., & Turner, M. (2022). How is the third law of geography different?.Annals of GIS28(1), 57-67.

Li, Z. (2024). Geoshapley: A game theory approach to measuring spatial effects in machine learning models.Annals of the American Association of Geographers114(7), 1365-1385.

作者|许老师

排版|数读菌

校阅|数读菌


想要查看已经公示的规划和批复文件,又不想要自己一个个下载整理的,可以了解下我的知识星球,当然,也不只是规划的收集整理,最终目标是建立一个综合数据库。




那今天就到这里结束啦,欢迎留言讨论。文中的图片文字未经许可不要随便“引用”。

如果可以的话,希望能够转发分享,点个在看并且点个,给个赞赏~~也欢迎规范转载~

也希望大家和我多留言互动啊!(据说这样可以增加我的推送在你的订阅号里出现的概率)

历史文章推荐



需要你的“分享”“在看”


END>

如需全文转载文章、投稿或者合作


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/181173
 
334 次点击