Feature selection for data-driven seasonal forecasts of European heatwaves
Ronan McAdam, Stefano Cagnazzo, Joaquim G. Pinto, et al.
CMCC Foundation – Euro-Mediterranean Center on Climate Change
Communications Earth & Environment
热浪预测、机器学习、特征选择、季节尺度、气候可预测性 欧洲近年来热浪频发,造成能源危机、农作物减产与高温相关死亡率上升。虽然动力学气候模式(如ECMWF、CMCC季节预测系统)能提前数月预测气候趋势,但对极端事件的预测仍存在时空精度不足问题。尤其是在中高纬度地区,传统模型难以识别那些提前数周出现的气候信号。本研究由欧洲地中海气候变化中心(CMCC)主导,利用机器学习算法和特征选择技术,探索如何在提前两个月准确识别欧洲夏季热浪的关键气候前兆信号。
本研究
创新性地融合了古气候模拟 + ERA5再分析数据 + 优化算法 + 机器学习模型:(1)训练数据:使用长达1850年的古气候模拟数据集(MPI-ESM “past2k”),模拟稳定气候条件下的热浪特征。(2)特征筛选:应用增强版 k-means 聚类,对气候因子(如土壤湿度、海表温度、海冰、500hPa位势高度等)进行降维;通过概率珊瑚礁优化算法(PCRO-SL)自动选择变量组合与时间滞后;目标变量为每年5–7月中,气温超过90分位数的天数(NDQ90)。(3)模型训练与验证:先在“过去气候世界”中训练(0–1600年),再在现代气候(1993–2016年)中测试;对比多种机器学习算法(线性回归、随机森林、LightGBM、AdaBoost等)。(4)时间滞后识别:最显著的预测信号出现在提前4–7周(约3月中旬),为农业和卫生部门提供宝贵的早期干预窗口。
研究发现,数据驱动模型在56%欧洲区域的热浪预测上优于C3S多模式集合,在北欧与中欧地区尤其显著,相关系数R最高达0.65;模型可提前约 6–8周捕捉关键气候信号,为极端高温提供早期预警。在关键预测因子方面,土壤湿度、地表温度与中层环流(z500)是最重要变量;赤道太平洋ENSO与热带大西洋OLR异常对欧洲热浪有跨季节影响,揭示出欧洲热浪由“热带海气信号 + 陆面干旱反馈”共同驱动。该研究证明,基于机器学习的特征选择可以有效识别热浪的物理前兆信号,实现提前数月的可操作性预测。相比传统动力学模式,数据驱动方法在计算效率和局地化表现上更具优势,为建立更精细的季节气候服务体系提供了科学支撑。
本文的创新不在于单纯“用AI预测天气”,而在于构建了一种AI–气候机制融合的新范式:从数据中学习气候可预测性。它揭示了AI如何通过自动特征筛选,挖掘潜藏于气候系统内部的可预测信号。这对未来构建城市级、区域级的气候健康预警系统具有启发意义。