临床研究中滥用误用机器学习的风险

北京大学第三医院临床流行病学研究中心许璐

一、背景

机器学习是利用计算机算法实现的技术手段，它可以发现数据中的新模式和做出推断，并能自主学习和适应新情况。近十几年来，机器学习在工业、互联网、金融等领域得到广泛应用，成为开发利用大数据资源的有力工具。在医疗健康领域，临床医生和研究人员同样对机器学习具有强烈渴求，希望它能具备传统统计分析技术无法企及的性能，为临床解决更多问题。

然而，机器学习也有其局限性，并非在所有条件下都优于传统技术。因此，临床研究需要认真考虑应用机器学习（或人工智能）的必要性或适当性问题。近期，荷兰鹿特丹伊拉斯姆斯大学医学中心神经外科的Victor Volovici等学者撰文讨论了临床研究中滥用和误用机器学习的原因、危害和规避方法。

二、滥用机器学习的风险

“滥用”是指不必要地采用机器学习，即机器学习并非最佳选择但仍然采用。滥用问题产生的原因是不清楚机器学习的适用条件，没有认真考量采用机器学习的理由。比如，有些研究者在选择机器学习而非传统技术时，给出的理由是“使用新技术也许能得出有意义的新答案”。但这个理由其实并不成立。

首先，需要权衡模型的预测精确度与复杂程度。机器学习技术无疑提供了处理非线性、复杂或高维关系数据预测问题的强大方法。但许多简单的医学预测问题本质上是线性的，通过参考既有研究或者相关机制、选择已知的强预测因子作为预测变量，可以取得相对理想的预测效果，此时机器学习方法不具有明显优势。与工程领域不同，在临床领域，预测精度少许改善的实际意义不大。然而，机器学习模型却往往比传统模型复杂得多，这增加了临床医生和研究人员的理解（解释）难度。

其次，评价机器学习模型性能的指标有局限性。曲线下面积（AUC值）是衡量机器学习模型识别能力的常用指标，可以理解为模型将阳性样本（事件）排在阴性样本（事件）之前的可能性。但AUC值高的机器学习模型可能是过度拟合了。在具有罕见结局的数据集中，高AUC值模型可以准确预测阴性事件，却不能准确预测阳性事件。

三、误用机器学习的风险

“误用”指不适当地使用机器学习模型，从而做出错误推断。因此，“误用”的后果比“滥用”更加严重。出现误用的主要原因包括：

其一，没有仔细审视机器学习模型的内部运作机制。医疗决策应该由清晰、有逻辑、经得起推敲的推理过程来支持。用“黑匣子”支撑临床决策是与现代医学实践相悖的。新冠疫情大流行之初，即时检测新冠病毒的可靠方法尚未广泛应用，基于电子医疗记录中的数据元素（比如胸片），利用机器学习模型估计感染概率的研究活跃起来。起初，不少基于胸部X光片的神经网络算法取得了比较理想的验证结果。然而，当这些模型被应用于不同的医疗场景时，却大多没能成功复现，部分原因是模型并没有理解疾病背后的病理学原因，却试图利用缺乏生物学意义的变量“走捷径”，形成了伪因果关系。

其二，没有考虑数据约束。机器学习需要大量数据。但是和其他科技行业相比，许多医学文献介绍的机器学习技术所需数据量少得多、特征集规模小得多。比如，Facebook使用来自超过10亿名用户的照片训练人脸识别软件，而采用人工智能的临床研究一般只使用几千或者几百张放射学和病理学图像，开发手术阶段识别技术使用的外科手术视频往往不过几十条。使用有偏数据、小数据集训练出的机器学习算法可能无法对感兴趣的临床问题进行完整描述，甚至可能放大性别歧视和种族歧视。

四、关于避免滥用和误用机器学习的建议

目前已经有不少规范机器学习使用的指南，比如SPIRIT-AI、CONSORT-AI和最近的DECIDE-AI。但这些指南大多在“事后”（在做出使用机器学习技术的决定之后）指导机器学习的使用，却没有考虑在医疗环境中使用机器学习的必要性或适当性问题。基于前文分析，建议通过以下措施避免滥用和误用机器学习。

（一）以实际临床问题和需求为导向开展临床研究。机器学习的在医疗领域的兴起，会导致出现很多临床研究者盲目跟风的现象，甚至以机器学习方法为导向去构思自己的研究问题，这种本末倒置的思维方式无疑会引起机器学习的滥用。

（二）明白机器学习算法与传统统计技术各自的优势。机器学习算法应与一系列传统回归技术进行比较，比较的指标不仅包括整体性能、区分度和校准度，还要包括过度拟合相关指标。一般来说，无监督聚类分析非常适合发现隐藏的聚类模式，例如提出一种新的癌症分子分类法或者定义一种精神疾病的亚型。如果研究目标是建立一种新的预后列线图或者预测模型，那么即便是处理大型的高维数据集，也几乎没有证据表明机器学习比传统的统计方法更好。如果研究意图是推断某种治疗的疗效因果效应，许多成熟的传统统计技术，例如结构方程模型、倾向性评分法、工具变量分析和非连续回归分析，已经给出了易于解释且严格缜密的疗效效果估计。

（三）充分考虑可用数据集的类型、规模和维度。一是应该设法取得和使用大规模的、具有高清晰度数据的多中心或国际性数据集。如果数据规模很小，要避免使用机器学习技术。二是检查数据集是否有偏倚，采取必要措施解决偏倚。所以评估所构建机器学习模型的稳健性十分必要，若机器学习模型不够稳健，那么强行使用机器学习模型是不可取的。

（四）致力于开发可解释的和透明的机器学习算法。正如专家应该能够解释他们对于复杂议题的思考过程，机器也应该能够对它们发现特定模式的路径作出解释。只有理论模型和关注的临床问题本身规律保持一致性，才能有效防止机器学习的误用。

（五）算法的选择要受到审核和制衡。一是如果可行，在使用机器学习模型时，应辅之以传统统计模型的敏感性分析。二是公开研究方案并尽可能经过同行评审，对选择模型的理由进行说明。三是披露所有模型性能参数。理想情况下，公开数据集和分析脚本。

（六）加强人机协同。人和算法各有所长。算法帮助临床医生充分利用现有数据改进实践，但在临床医学的多个方面，从病史采集、体检到诊断、治疗决策和执行，机器学习只能辅助而不能替代医生。患者也希望由人类医生作出医疗决策。因此，应该把机器学习作为整体医疗系统的一部分进行研究和实施，打造一个利用大数据促进新一代人机协同的整体框架。

综上所述，机器学习和大数据即将改变临床医学研究，但机器学习研究者应该认识到算法和模型的局限，并合理解读所得的机器学习模型，不能仅以统计指标为依据来评估，而应结合临床实际从多角度进行评估，以防止滥用和误用机器学习，否则可能遭到质疑并伤害患者。

参考文献：Volovici V., Syn N. L., Ercole A., Zhao J. J.., Liu N. Steps to avoid overuse and misuse of machine learning in clinical research. Nat Med. 2022, doi: 10.1038/s41591-022-01961-6.