高分辨率气温数据是量化青藏高原等气候敏感区生态水文过程的关键基础。然而,由于极端环境和观测条件的限制,实地气象观测经常出现长达数月甚至更久的连续数据缺失。针对这一难题,本研究开发了一套物理引导的机器学习(Physics-Guided Machine Learning, PGML)框架,成功重建了青藏高原某站点30分钟分辨率下长达9个月的气温序列缺口。

本配图来源于网络
该框架以LightGBM为核心模型,嵌入领域物理约束的自定义损失函数。将“冻土热惯性”与“热力学一致性”两种物理先验直接融入模型的训练过程。对比实验暴露了传统纯数据驱动模型的“硬伤”。这类“黑箱”模型整体精度看着还行(均方根误差RMSE=1.79°C),但忽略了冻结土壤的高热惯性特征。结果就是在极寒条件下,它们会给出不合理的“虚暖偏差”。

【作者文章】Final reconstructed air temperature time series with quantified uncertainty and error analysis, (a) comparison of in-situ observations and the Mphys model reconstruction (The gray shaded area indicates the 90% confidence interval. The dashed box highlights the reconstruction of the critical nine-month data gap (Sep 2022–Jun 2023), and (b) time series of model prediction residuals (Tobsobs−Tpred) (Gray points represent individual error terms, while the solid red curve depicts the smoothed systematic error trend, demonstrating negligible long-term bias and stable performance).
相比之下,基于物理约束的PGML模型有效纠正了这一缺点,相较于传统模型,在关键冷区(极端低温条件)将误差降低了36%,RMSE降至1.14°C。在全时段重建记录中,残差均值为-0.10°C,且预测的90%置信区间实际覆盖率达到90.1%,展现了可靠的不确定性量化能力。
【作者文章】 Stratified error analysis of the control and physics-guided models
进一步的SHAP可解释性分析表明,物理约束不仅提升了预测准确性,更重要的是正则化了模型的推理逻辑。在数据稀疏时,模型会自适应地从短暂的统计相关性转向依赖稳健的地球物理代理变量(如冻土热状态)。这一机制使得PGML在观测稀缺环境下仍能保持物理合理性。

【作者文章】Divergence in learning strategies during the data-sparse non-growing season (The Mcontrol model exhibits increased volatility, evidenced by the substantially wider IQRs (longer horizontal lines) for transient features such as '3-h Temperature Change,'whereas the Mphys maintains more constrained and physically consistent ranges).
本研究重建了一套高质量、带量化不确定性的30分钟分辨率气温数据集,并提出了一种可推广的范式:将领域物理知识(如热惯性、能量守恒)以可微分的约束形式嵌入机器学习训练过程。这种“物理一致的学习模型”能够超越简单的统计关联,在观测稀疏的环境中学习、适应并基于物理原理进行推理,是应对地球与环境科学中普遍存在的观测稀缺问题、推动数据驱动发现的有效方法之一。