用于天气预测的深度学习模型中的归纳偏见

德国学者近年来目睹了大量基于深度学习的天气预测模型蓬勃发展，每个模型都有自己独特的深度学习配方。不禁让人思考，究竟是什么让这些模型如此层出不穷？他们梳理了100多篇论文，并写了这篇综述文章。

深度学习最近在地球科学领域获得了巨大的普及，因为它使我们能够制定复杂地球系统过程的纯数据驱动的模型。基于深度学习的天气预报（DLWP）模型在过去几年中取得了重大进展，以相对较少的计算成本实现了与既定的数值天气预报（NWP）模型相媲美的预测技能。为了训练准确、可靠和可操作的具有几百万个参数的DLWP模型，模型设计需要纳入适当的归纳偏置，以编码关于数据和建模过程的结构假设。如果选择得当，这些偏差可以使学习速度更快，对未见过的数据有更好的概括性。尽管归纳偏置在成功的DLWP模型中起着至关重要的作用，但它们往往没有被明确说明，而且它们对模型性能的贡献仍不清楚。在这里，我们回顾并分析了六个最先进的DLWP模型的归纳偏置，涉及到对五个关键设计元素的深入研究：输入数据、预测目标、损失成分、深度学习架构的分层设计以及优化方法。我们展示了这五个设计元素中的每一个的设计选择是如何与结构假设相关的。鉴于更广泛的DL社区的最新发展，我们预计DLWP的未来可能会看到更广泛地使用基础模型--通过自我监督学习在大型数据库上预先训练的大型模型--结合明确的物理学信息的归纳偏置，使模型甚至在更具挑战性的次季节到季节尺度上提供有竞争力的预测。

引用文章：

Thuemmel, J., Karlbauer, M., Otte, S., Zarfl, C., Martius, G., Ludwig, N., ... & Butz, M. V. (2023). Inductive biases in deep learning models for weather prediction. arXiv preprint arXiv:2304.04664.

PDF原文链接：

https://arxiv.org/pdf/2304.04664.pdf

什么是归纳偏置 (Inductive Bias)？

在机器学习中，很多学习算法经常会对学习的问题做一些关于目标函数的必要假设，称为归纳偏置 (Inductive Bias)。

归纳 (Induction) 是自然科学中常用的两大方法之一 (归纳与演绎，Induction & Deduction)，指从一些例子中寻找共性、泛化，形成一个较通用的规则的过程。偏置 (Bias) 则是指对模型的偏好，以下展示了 4 种解释：

通俗理解：归纳偏置可以理解为，从现实生活中观察到的现象中归纳出一定的规则 (heuristics)，然后对模型做一定的约束，从而可以起到 “模型选择” 的作用，类似贝叶斯学习中的 “先验”。
西瓜书解释：机器学习算法在学习过程中对某种类型假设的偏好，称为归纳偏好。归纳偏好可以看作学习算法自身在一个庞大的假设空间中对假设进行选择的启发式或 “价值观”。
维基百科解释：如果学习器需要去预测 “其未遇到过的输入” 的结果时，则需要一些假设来帮助它做出选择。
广义解释：归纳偏置会促使学习算法优先考虑具有某些属性的解。

例如，深度神经网络偏好性地认为，层次化处理信息有更好效果；卷积神经网络认为信息具有空间局部性，可用滑动卷积共享权重的方式降低参数空间；循环神经网络则将时序信息纳入考虑，强调顺序重要性；图网络则认为中心节点与邻居节点的相似性会更好地引导信息流动。事实上，将 Inductive Bias 翻译成 归纳性偏好 可能更符合我们的理解和认知。通常，模型容量 (capacity) 很大但Inductive Bias 匮乏则容易过拟合 (overfitting)，如 Transformer。

原文链接：https://blog.csdn.net/qq_39478403/article/details/121107057

-----广告赞助商-----