使用数据驱动和机器学习方法预测野火

这篇题为《Global data-driven prediction of fire activity》的论文近日发表于 Nature Communications（点击“阅读原文”访问），研究了如何通过数据驱动方法提升全球范围内的火灾活动预测能力。

研究背景与目的

传统的火灾预警系统依赖于火灾气象指数（如FWI），主要基于气象数据，常忽视了“燃料状态”和“点火因素”两个重要变量，因此经常在缺乏可燃物的地区过度预警，造成误报。随着遥感与机器学习（ML）技术的发展，本文旨在探索一种全球适用的、基于数据驱动的火灾预测系统，能够在至少提前一周内预测火灾发生的概率。

核心观点

数据质量胜过模型复杂度：高质量的输入数据（燃料、气象、点火因素）比复杂的机器学习结构更能提升预测精度。

燃料是最关键的变量：在孤立变量中，燃料特征是最具预测力的；在全球和大多数区域，燃料控制着火灾的主要行为。

数据驱动系统优于传统气象指数：传统火灾气象指数（如FWI）常误报高危区域，如撒哈拉或高原荒漠地带；数据驱动模型则能学习这些区域的“无火气候”特征，减少误报。

预测极端火灾具备实用性：模型在预测2023年加拿大大火和2025年洛杉矶城市火灾中显示出优秀的空间定位能力和提前预警能力。

主要研究方法与实验设计

模型类型：使用三种ML模型：随机森林、XGBoost（中等复杂度）、神经网络。

变量分组：19个预测因子分为三类——气象（如温度、湿度）、燃料（如湿度、负载）和点火（如人口密度、闪电、道路密度）。

消融实验：逐步增加输入变量，评估不同组合对预测性能的贡献。

评估指标：使用Brier分数、Logloss、AUC、期望校准误差（ECE）、相关性与可靠性等多种评估方法。

主要结果

XGBoost在准确率与效率间达成最佳平衡，比随机森林优、与神经网络相当。

同时使用天气、燃料和点火三类数据时，模型预测性能最佳。若仅使用天气或点火数据，性能下降30%；仅用燃料下降15%。

在加拿大与洛杉矶实际案例中，数据驱动模型预测位置更准确，能反映由“湿春—干夏”造成的“燃料激增–火灾爆发”机制（气候变异称为 hydroclimate whiplash）。

模型对火灾高发概率区域有更高的“置信度校准”，避免高概率误报，适合纳入早期预警系统。

图表解读：

主要结论

数据驱动模型能预测火灾活动本身，而非仅预测火灾危险，大幅提升实用性。

模型性能的提升主要来源于高质量训练数据，而非更复杂的模型结构。

燃料信息是构建全球性火灾预测系统的关键，未来需要继续发展全球燃料动态数据集。

全球数据驱动火灾预测系统在实际案例中已展示强大潜力，适合用于实时应用和早期预警。

可直接用于评估空气质量影响，或用于填补遥感观测遗漏数据，推动火灾排放估算准确性提升。

------End------

欢迎您关注和分享“极端科学”公众号，期待和您一起探索地球的极端脉动！

‍