Py学习  »  机器学习算法

npj | 2022 ECMWF-ESA 研讨会报告:地球系统观测和预测机器学习的现状、进展和机遇

气象学家 • 2 年前 • 557 次点击  


  第一时间获取气象科研资讯

气象学家公众号交流群

加入


npj Climate and Atmospheric Science | 2022 ECMWF-ESA 研讨会报告:地球系统观测和预测机器学习的现状、进展和机遇

本报告总结了欧洲中期天气预报中心 (ECMWF) 和欧洲航天局 (ESA) 联合举办的第三届地球系统观测和预测机器学习 (ML) 研讨会 (ESOP/ML4ESOP) 的主要成果。为期 4 天的研讨会于 2022 年 11 月 14 日至 17 日以混合形式举行,其中包括在 ECMWF 阅读网站上进行的面对面部分和在线互动部分,吸引了创纪录的提交数量和超过 700 人的注册。该研讨会旨在记录将机器学习技术集成到员工持股计划这一快速发展领域的最新技术、进展和挑战,并为员工持股计划和机器学习专家提供讨论和协作的场所。研讨会围绕五个主要主题领域展开,涵盖标准 ESOP 工作流程的主要组成部分。本报告提供了研讨会工作组在所有不同主题领域的演讲要点和对最有希望的发展方向的讨论。
https://doi.org/10.1038/s41612-023-00387-2

引言

第三届 ECMWF-ESA 地球观测和预测机器学习研讨会 (ML4ESOP) 于 2022 年 11 月 14 日至 17 日在英国 ECMWF 雷丁举行(https://events.ecmwf.int/event/304/)。继两届独家在线版本之后,本期研讨会以混合形式举办,现场人数约 120 人,虚拟参与人数约 700 人(约 700 名注册参与者)。出席人数以及创纪录的 121 份摘要提交,证实了人们对地球系统科学应用机器学习 (ML) 的浓厚兴趣,也证实了 ECMWF-ESA 研讨会系列作为该领域的参考会议和讨论场所越来越受欢迎。
由于这已成为这一系列研讨会的传统,两位顶尖专家受邀就其专业领域的最新技术、当前机遇和挑战进行广泛概述。
Stephen Penny教授的演讲主要围绕数据同化(DA)和机器学习之间的相互作用和协同作用。一个有趣的建议是,当前的 DA 可以利用 ML 工具和思想来大大提高效率,这反过来又可以使更先进的算法变得经济实惠,例如,允许集成 DA 中更大的集成规模,从而为更完全非线性/非高斯同化方法开辟道路。
Damien Borth 教授的演讲重点介绍了地球观测 (EO) 和遥感中使用的机器学习工具的最新进展。演讲的主要焦点是高效的表示学习,即越来越复杂的技术集,允许机器学习模型从原始数据中自动发现特征检测或分类所需的表示。这是机器学习的一个研究领域,与 EO 特别相关,其中存在大量可以使用的未标记遥感数据。
从这两次演讲中可以明显看出,日益复杂的机器学习技术已进一步传播到地球科学的研究和操作实践中,更重要的是,它们正在针对这一特定领域进行定制,并取得了引人注目的成果。
该研讨会根据单独的主题领域 (TA) 进行组织,旨在涵盖机器学习在 EO、数值天气预报 (NWP) 和气候预测中的主要应用领域:
  • TA1:用于地球观测的机器学习

  • TA2:数据同化中的混合机器学习

  • TA3:用于模型仿真和模型发现的机器学习

  • TA4:面向用户的地球科学应用的机器学习

  • TA5:网络边缘的机器学习和高性能计算

以下部分将更详细地描述工作组中关于每个 TA 的演示和讨论。

TA1:用于地球观测的机器学习

当前的机器学习应用

该工作组由 Rochelle Schneider (ESA) 和 Alan Geer (ECMWF) 担任主席。工作组成员对 ML4EO 表现出非常广泛的兴趣,涵盖大学、国家气象部门和私营部门,与会者来自欧洲、美洲、亚洲、非洲和澳大利亚。应用领域同样广泛,包括可再生能源、水文学、云、环境健康、污染、野火、城市化、大地测量学和作物分类。

限制、机遇和挑战

大部分讨论都反映了 ML 的 EO 应用在服务实际应用方面取得了多大进展。为了造福社会,理想的人工智能工具应该是可复制、可扩展、可维护、可转移和可解释的。他们需要与现有的非人工智能(AI)工具很好地集成而不是竞争,即旨在完全取代最先进的方法。此外,“训练一次”的方法通常需要通过不断学习和根据新观察进行再训练来取代。
寻找足够训练数据这一长期存在的问题引发了以下应用程序之间的对比:可以使用非专家标签(可通过公民科学或游戏化实现)的应用程序(例如,zooniverse.org)、需要领域专家进行标签的应用程序以及需要“地面实况”观察的应用程序。更广泛的人工智能社区的发展可能会有所帮助,包括“一次性”学习的想法(人类只需要看到一只斑马)、元学习(学习如何学习)以及在 EO 中使用非域基础模型的可能性(基础模型能否从猫和狗过渡到农作物类型识别?)
另一个广泛认可的问题是使用内部计算资源还是基于云的计算资源之间的选择 。后者很有吸引力,因为可以轻松访问复杂的 TPU 和 GPU 以加速训练,并且可以在此后快速扩展应用程序。但人们提出了一些问题,包括与内部硬件相关的费用、对应用程序可能被锁定的私有后端的依赖、明显缺乏支持以及对数据保护和安全性的怀疑。

未来发展方向

在卫星上加入人工智能可以加速事件检测(“智能卫星”的理念),还可以帮助数据压缩、优先级排序和卫星之间的合作。然而,重要的是,将完整的原始观测数据下载到地球并存档(可能不太及时),以支持未来的学习和发展。该小组还讨论了联邦学习,特别是对于依赖敏感数据(例如健康)的应用程序,其中人工智能是在保密的分散数据上进行训练的。

TA2:混合数据同化——ML 方法

当前的机器学习应用

Rossella Arcucci(伦敦帝国理工学院)和 Marcin Chrust(ECMWF)共同主持了该工作组,该工作组探索了混合 ML 和 DA 方法的利用。来自学术界、工业界、数值天气预报中心和研究中心的众多成员从改进 DA 建模的角度参与了关于 ML 与 DA 的潜在使用的积极讨论。基于 ML 和 DA 的混合方法在 DA 领域变得越来越流行,其应用范围从使用神经网络来模拟 DA 中的模型组件,到使用基于 ML 的模拟器或定制技术完全取代成熟的 DA 算法。后者包括估计后验协方差的扩展 Elman 网络和用联合模型和求解器学习替代 4D-Var 的循环神经网络。大量文献也致力于在 ML 算法的潜在空间中执行 DA,平衡准确性和计算成本。当从贝叶斯角度结合 DA 和 ML 框架时,概率 ML 方法和微分方程之间的联系就会凸显出来。这种等价性证明了两个领域之间的相似之处,在参考文献中正式提出 。

限制、机遇和挑战

鉴于所涉及系统的高维性质带来的困难,学习完整模型或用 ML 方法替换 DA 算法在操作环境中仍然被认为具有挑战性。将基于物理的模型与统计模型相结合的混合模型的开发已被提议作为一种有吸引力的替代方案。事实证明,用于校正基于物理的模型的统计模型可以依赖于情况并在 4D-Var框架内进行训练。大家一致认为,开发一个通用的 ML-DA 框架将有可能发挥这两种方法的优势。尤其是机器学习,可能会提供超越数值天气中心当前使用的 DA 方案所施加的线性和高斯性约束的机会,同时还可以显着降低分析过程的成本。随着未来模型分辨率和分析的提高,后一个方面变得越来越重要。

未来发展方向

ML 与 DA 的结合推进了各个领域和应用中 ML 建模的最先进水平。这个快速发展领域的发展趋势和未来挑战包括学习 DA 中的状态观测映射或开发 DA 辅助的动力系统的 ML 替代品。工作组参与者达成了广泛共识,即传统的 DA 方法可用于改进 ML 算法,特别是在解决与噪声、不完整或有偏差数据相关的问题时。这些混合模型在可解释性和降噪方面具有优势。进一步突破性进展的巨大空间仍然存在,特别是在作战环境中应用这些方法时。

TA3:用于模型仿真和模型发现的机器学习

当前的机器学习应用

该工作组由 Massimo Bonavita 和 Matthew Chantry(均为 ECMWF)担任主席。在评估模型仿真领域的现状时,该小组看到了各种各样的方法,从学习模拟天气或气候模型的一个组成部分,到学习模拟整个现实天气模型。后一种方法在过去一年中取得了重大进展,据称一些机器学习模型已经与确定性预测的最先进的操作模型具有竞争力。模型发现目前不太常见,但在预测异常波浪等方面的成功工作为成功应用提供了蓝图。

限制、机遇和挑战

机器学习模型的训练被认为过度依赖均方误差(或类似构造的)损失函数,这有其缺点,因为针对该指标训练的模型会做出谨慎且过于平滑的预测,这可能会限制现实世界的应用。详细讨论了使用生成对抗网络(GAN)、扩散模型等的可能性。此外,使用概率损失函数而不是确定性损失函数来训练 ML 模型的一般方法被认为是一种有前途的前进方向。

未来发展方向

从演示和工作组讨论中可以明显看出,使用机器学习进行模型仿真,更广泛地说,用于一般预测目的正在迅速发展,主要商业参与者进入该领域将进一步加速该领域的进展。这些努力是否会对基于物理天气模拟器的传统数值天气和气候预测工作流程构成根本威胁还有待观察。

TA4:面向用户的地球科学应用的机器学习

当前的机器学习应用

该工作组由 Claudia Vitolo 和 Bertrand Le Saux(均来自 ESA)担任主席,并聚集了大批不同的专家,因为机器学习现在已渗透到地球系统科学和工业的所有领域。例如,在天气和气候领域,深度学习据报道可用于降水临近预报、极端天气事件检测、预测后处理(例如,降尺度,以及在较长时间尺度上分析气候和天气过程。在环境应用中,参与者报告称已使用 ML 从各个领域的 EO 数据中获取可操作的信息,包括公共卫生、农业、环境保护(陆地和海上)仅举几例。还提到了一些引人注目的工业应用,包括飞行期间规划(航空部门)、道路维护规划(交通运输部门)、能源需求和分配规划以及(再)保险。与会者还简要介绍了机器学习在不久的将来可能为安全或政策制定提供有希望的应用的新兴领域,这些应用建立在联邦学习、机载处理、数字孪生技术和量子机器学习的基础上。

限制、机遇和挑战

在面向用户的地球科学应用中,机器学习面临的一个巨大挑战是对黑盒模型缺乏信任,以及开发人员和领域专家之间缺乏通用语言。然而,许多参与者相信,可解释的人工智能的开发、混合建模、大型预训练模型的使用以及强大的社区建设将有助于弥合差距并降低机器学习采用的障碍。昂贵的计算资源和复杂的软件使用等技术问题也被认为是关键和潜在的限制因素,而提供可访问的云计算、开放和可重用的源代码的举措被视为潜在的推动因素。最后,生成模型(图像、文本和数据)需要谨慎审查,因为它们似乎在新应用方面具有巨大潜力,但同时也引发了透明度和道德问题。

未来发展方向

讨论和演示中出现了多种观点。新技术和框架的开发被认为对社会(用于复杂数值模型的低成本加速、快速模拟)和气候(用于改善早期预警并针对影响许多部门(例如能源)的挑战确定新的可持续环境解决方案)具有高度影响。据几位参与者称,Transformer 模型和可解释的 ML 被认为非常有希望克服当前对黑盒模型缺乏信任的问题。人工智能预计将越来越多地用于极端天气事件预测和耦合各种地球系统过程的数字孪生建模。从长远来看,需要研究地球系统科学中的绿色计算、操作化、透明的机器学习和过程理解。

TA5:边缘机器学习和高性能计算

当前的机器学习应用

在研讨会期间,具有变革能力的新型计算是普遍讨论的话题。随着计算技术的快速进步,机器学习增强型高性能计算已成为地球科学研究中越来越重要的工具,巴塞罗那超级计算中心的 Carlos Alberto Gómez Gonzalez 在其关于用于获得精细分辨率下的二氧化氮或降水场估计的经验降尺度的深度学习的演讲中阐述了这一点。在计算机功率谱的另一端,边缘机器学习的机载处理已被证明对地球观测有用,因为它可以实时处理卫星数据并对洪水等事件做出即时响应。它还有助于降低数据传输成本,因为数据在传输到地面之前会在卫星本身上进行处理。

限制、机遇和挑战

模块化计算环境,即集成不同类型计算资源的系统,被视为为大规模计算应用程序提供一定程度的灵活性和可扩展性的一种方式。因此,复杂模拟的程序部分可以分布在多个模块上,以便可以最佳地利用各种硬件属性。这还允许添加和删除组件,以满足不断变化的需求和要求,或集成量子计算或神经形态模块等未来技术。基于这一原理构建的更强大的超级计算机可能是进入百亿亿次计算时代的途径。面对本世纪的新挑战,可能需要这种能力:以足够的精度运行数值模型,以预测局部范围内的天气事件,或支持数字孪生的开发,以监测、预测和评估气候变化的影响,正如 NASA 的 Jacqueline Lemoigne 在她的演讲中提到的,并展示了 IDEAS等示例。

未来发展方向

许多令人兴奋的观点被提出和讨论。太空中的分布式计算可能会提供优化小型传感卫星和具有计算有效载荷的卫星之间的协作的可能性,并实现太空中的认知云计算(C3S)。德国航天中心的 Lisa Woerner 强调了量子技术在全球地球观测中减少气候变化影响的潜力。她特别强调了量子计算和量子机器学习的前景,通过进一步探索未充分利用的机器学习领域(例如强化学习)可以获得潜在的好处。来自 ESA 的 Bertrand Le Saux 详细介绍了将量子计算的力量带入地球观测的持续努力,并介绍了将量子机器学习用于此类经典数据的两个研究领域:量子内核和混合经典量子神经网络。他们已经为基于门的量子计算机或量子退火器上的图像分类以及时间序列分析提供了第一个概念证明。这些混合量子经典架构构成了可在模块化 HPC 上运行的下一代 ML 的基础。

结论

我们相信研讨会仍然是促进知识交流和促进 ML4ESOP 领域突破性发现的宝贵环境。机器学习技术在 ESOP 中的应用范围确实非常引人注目,并且还在不断增长(例如,将人工智能与量子计算联系起来的新应用领域以及使用人工智能解决方案封闭数据,例如机载轨道卫星)。机器学习输出的可重复性和可解释性,以及机器学习技术的可扩展性和可维护性等主题仍然主导着机器学习解决方案的操作应用程序的讨论。从工作组的成果来看,我们就需要和机会利用机器学习的优势来尝试填补我们基于知识的模型中的空白并改善当前操作方法中明显的弱点达成了明确的共识。另一方面,机器学习技术在员工持股计划中的应用开始出现哲学和实践上的分歧。一方面,在已建立的工作流程中逐步、增量地采用机器学习解决方案,旨在改进结果并降低计算成本,同时努力保持对建模系统的或多或少完整的理解。这是 ESOP 领域科学家和从业者通常选择的途径。另一方面,越来越多的研究旨在展示人工智能/机器学习通过端到端、完全数据驱动的机器学习/人工智能解决方案颠覆传统实践的潜力。在这些应用中,建模系统被视为黑(或灰)盒,但计算效率非常引人注目,并且预测的质量正在与最先进的技术相媲美。这是一些进入 ESOP 世界的机器学习研究人员所青睐的途径。 从长远来看,哪种方法会更加富有成效,这将是一件令人着迷的事情,但可以说,这种动态已经在 ESOP 社区中引发了一场关于当前方法及其长期可持续性的深远辩论。

翻译工具

Google翻译,翻译如有不当,欢迎批评指出,谢谢!

文章链接

Bonavita, M., Schneider, R., Arcucci, R. et al. 2022 ECMWF-ESA workshop report: current status, progress and opportunities in machine learning for Earth System observation and prediction. npj Clim Atmos Sci 6, 87 (2023). https://doi.org/10.1038/s41612-023-00387-2 IF: 9.0 Q1






声明:欢迎转载、转发本号原创内容,可留言区留言或者后台联系小编(微信:gavin7675)进行授权。气象学家公众号转载信息旨在传播交流,其内容由作者负责,不代表本号观点。文中部分图片来源于网络,如涉及作品内容、版权和其他问题,请后台联系小编处理。


往期推荐

 获取ERA5-Land陆面高分辨率再分析数据(32TB)

 1942-2022年中国地面气象站观测数据免费分享

 获取全球GPM降水数据,半小时/逐日(4TB)

  获取1998-2019 TRMM 3B42逐日降水数据

★ 获取最新版本CMIP6降尺度数据集30TB

★ 获取ERA5常用变量再分析数据26TB

 EC数据商店推出Python在线处理工具箱

★ EC打造实用气象Python工具Metview

★ 机器学习简介及在短临天气预警中的应用

★ Nature-地球系统科学领域的深度学习及理解

★ 采用神经网络与深度学习来预报降水、温度

★ 灵魂拷问:ChatGPT对气象人的饭碗是福是祸?

★  气象局是做啥的?气象局的薪水多少?

★ 一位气象学家尝试ChatGPT复现Nature子刊的研究,他真的会面临失业吗?!


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/158460