
人工智能软件已经有能力通过本应需要多年医学训练才能考过的考试。

图片来源:Pixabay
来源 PLOS
翻译 杨梦
编辑 魏潇
美国加利福尼亚州初创企业 AnsibleHealth 的 Tiffany Kung、Victor Tseng 及其同事 2 月 9 日在开放获取期刊 PLOS Digital Health 上发表的一项新研究显示:ChatGPT 在美国医生执业考试(USMLE)中的分数可以达到或接近 60% 的及格门槛,它的回答具有连贯性和内在意义,并包含频繁出现的见解。
ChatGPT 是一种被称为大规模语言模型(large language model, LLM)的新型人工智能(AI)系统,能够通过预测即将出现的单词序列来生成类似人类写出的文本。与大多数聊天机器人不同,ChatGPT 不能搜索互联网,而是通过其内部过程来预测单词关系用以生成文本。
Kung 和同事们测试了 ChatGPT 在 USMLE 上的表现。这是一套高度标准化和规范化的系列考试,囊括了在美国获得医生执照所需的三项考试(分别为 Steps 1、Step 2CK 和 Step 3)。USMLE 由医学生和实习医生参加,评估内容涵盖了大多数医学学科的知识:从生物化学到诊断推理,还有生物伦理学。
在筛选并删除了基于图像的问题后,研究人员们用 USMLE 在 2022 年 6 月发布的 376 个公共问题中的 350 个测试了该软件。
剔除掉不确定的回答后,ChatGPT 在三门 USMLE 考试中的得分率在 52.4% 到 75.0% 之间。每年通过考试的分数大概是 60%。ChatGPT 在所有回答中还表现出了 94.6% 的一致性,并在 88.9% 的回答中产生了至少一个重要见解(一些新的、并非显而易见但具有临床效果的见解)。值得注意的是,ChatGPT 的性能超过了专门针对生物医学领域文献训练的对应模型 PubMedGPT,后者在较旧的 USMLE 式问题数据集上的得分为 50.8%。
虽然相对较小的输入规模限制了分析的深度和范围,但作者指出,他们的发现让我们得以窥见 ChatGPT 在加强医学教育并最终促进临床实践发展等方面的潜力。他们补充道,比如 AnsibleHealth 诊所的临床医生们已经在使用 ChatGPT 重写一些包含繁多术语的报告,便于患者理解。
作者说:“在这个以困难著称的专门考试中,ChatGPT 在没有任何人工干预的情况下取得了及格的分数,这将成为标志着临床AI成熟的一个重要里程碑。”作者 Tiffany Kung 博士补充道,ChatGPT 在这项研究中的作用不仅仅是作为研究对象,“ChatGPT 对‘我们的’论文手稿写作也做出很大贡献......我们与 ChatGPT 的互动就像同事一样,要求它在研究过程中综合分析正在进行的方案、将其简化,并提供对照......所有合著者都很重视 ChatGPT 的参与。”
原文链接:
https://www.eurekalert.org/news-releases/978878
【标题】Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models
【作者】Tiffany H. Kung,Morgan Cheatham,Arielle Medenilla,Czarina Sillos,Lorie De Leon,Camille Elepaño,Maria Madriaga,Rimel Aggabao,Giezel Diaz-Candido,James Maningo,Victor Tseng
【期刊】PLoS Digital Health
【日期】February 9, 2023
【DOI】https://doi.org/10.1371/journal.pdig.0000198
【摘要】We evaluated the performance of a large language model called ChatGPT on the United States Medical Licensing Exam (USMLE), which consists of three exams: Step 1, Step 2CK, and Step 3. ChatGPT performed at or near the passing threshold for all three exams without any specialized training or reinforcement. Additionally, ChatGPT demonstrated a high level of concordance and insight in its explanations. These results suggest that large language models may have the potential to assist with medical education, and potentially, clinical decision-making.
【链接】
https://journals.plos.org/digitalhealth/article?id=10.1371/journal.pdig.0000198
本文来自微信公众号“科研圈”。如需转载,请在“科研圈”后台回复“转载”,或通过公众号菜单与我们取得联系。相关内容禁止用于营销宣传。
▽ 精彩回顾 ▽

