普林斯顿大学任智勇团队ES&T综述文章：环境研究中的机器学习——常见陷阱与最佳实践

‍英文原题：Machine Learning in Environmental Research: Common Pitfalls and Best Practices

第一作者：朱俊杰

通讯作者：朱俊杰、任智勇，普林斯顿大学

作者：Jun-Jie Zhu* (朱俊杰), Meiqi Yang (杨美琪)，Zhiyong Jason Ren* (任智勇)

近日，普林斯顿大学任智勇教授和朱俊杰副研究员团队结合文献分析与研究经验总结了环境研究中机器学习应用的常见陷阱和最佳实践。本研究基于148篇高被引研究文章，鉴定了30多个机器学习关键要点，进行了基于证据的数据分析。通过展示监督学习和参考建模范例中的良好示例，鼓励研究人员采用更严格的数据预处理和模型开发标准，实现在环境研究中运用更准确、稳健和实用的模型。

背景介绍

环境研究的性质复杂，通常涉及大量可挖掘的数据。机器学习（ML）可利用大数据分析来解读众多变量之间的复杂关系，为理解和解决环境问题提供帮助。然而，由于不熟悉和缺少相关知识，对于许多环境研究学者和评审专家来说，执行、解释和评估机器学习是一种挑战。虽然有相关工作对机器学习的基本原理、常见模型和工作流程进行了介绍，但对于机器学习工作的研究人员来说，迫切需要解释和分析使用机器学习工具时常见的误解和错误，以及如何避免这些问题。也因为同时掌握机器学习和环境领域知识的不易，由于不恰当的处理或方法而导致错误的结论并非罕见。一旦有缺陷的工作被发表，可能会误导其他研究人员，并损害其他高质量研究的可信度。本综述主要针对监督学习，但其中许多问题和好的实践范例也适用于其他机器学习类型。本研究首先通过文献挖掘从近2900篇发表在10个高影响力环境期刊上的监督学习论文中选取了148篇引用最高的论文。其次，我们识别和概括了机器学习开发周期中的常见陷阱，并通过示例、流程图的形式提供了类似教程的总结，概述了监督学习的最佳实践，架起传统环境领域和机器学习方法之间的知识桥梁。推荐的实践包含了适当的变量去除、足够和代表性的样本大小、数据丰富、特征选择、特征缩放、随机性评估、数据泄露管理（DLM）、适当的测试比例、多种监督学习方法、超参数优化（HPO）、多种评估指标、特征重要性分析（FIA）、模型解释性和因果性。研究人员可以以此在环境研究中采用、评估和比较机器学习模型和应用。

文章亮点

图1. 基于148篇高引用研究，数据收集和预处理中主要问题的定量评估。(a) 样本大小、特征大小和样本特征比（SFR）的分布；标记形状代表三种数据类型；发表时间由标记尺寸表示。蓝色、紫色和红色分别表示SFR比例范围为<10、10-100和≥100。(b)主要数据预处理步骤在实际研究中的应用百分比。(c) 缺失数据处理（MDM）的常用方法及使用频率。(d) 特征选择的常用方法及使用频率。(e) 基于不同数据拆分框架的测试比例分布（阴影：0.1-0.4）。(f) 数据拆分比例的三元图（颜色显示三种数据类型）。(g) 实际数据预处理的研究应用的百分比。

图2. 在监督学习模型开发中，当未涉及交叉验证时，常见且容易忽视的数据泄露问题，以及解决此类问题的相应方法范例。不当实施和良好实践之间的主要差异分别用蓝色和红色文字表示。

图3. 在监督学习模型开发中涉及交叉验证（CV）时，常见且容易忽视的数据泄露问题，以及解决此类问题的相应方法范例。不当实施和良好实践之间的主要差异分别用蓝色和红色文字表示。许多问题是由于在CV循环中错误地未包括数据预处理步骤而引起的。

图4. 基于148篇高引用研究，对模型开发、优化和解释中的主要问题进行定量评估。(a) 研究中使用的最终方法的比例。(b) 主要建模实践在实际研究中的应用百分比。(c) 采用机器学习和统计学习方法、进行HPO、实际建模实践的研究应用的百分比以及进行模型可解释性和因果性的研究百分比。(d) 用于回归和分类问题的十个常用评估指标及频率。(e) HPO的常用方法及使用频率。

图5. 监督式机器学习模型开发的三种常见超参数优化路径。(a) 采用网格搜索的训练-验证-测试（TVT）数据拆分；(b) 采用网格搜索的训练(交叉验证)-验证（CVT）数据拆分；以及(c) 采用元启发式的训练-验证-测试（TVT）数据拆分。流程图中简化了数据预处理，只显示了特征缩放。训练、预训练、验证和测试子集以不同颜色来显示。

总结与展望

图6. 环境研究中监督式机器学习模型开发的推荐（a）最低要求和（b）最佳实践。请注意，它们仅代表典型条件，实际流程应根据具体情况进行调整和应用。推荐要求以红色圆圈标示，三个可选的结束点以绿色标示。训练、预训练、验证和测试子集用不同颜色来显示。

总的来说，本研究讨论总结了机器学习在环境研究中，每个主要步骤中的主要陷阱和最佳实践，并举例说明了常见数据泄露管理、三种典型的HPO路径和两种监督机器学习模型开发的参考流程范例。我们真诚地希望这些资料能够帮助研究人员改进建模实践，从而可以在相关研究和应用中利用更准确和稳健的模型来解决环境问题。

扫描二维码阅读英文原文

Environmental Science & Technology 2023, ASAP

Publication Date: June 29, 2023

https://doi.org/10.1021/acs.est.3c00026

点击“阅读原文”

你“在看”我吗？