谷歌正式推出「医疗ChatGPT」——MedLM，达到医学专家水平，测试结果在Nature发表

本文来自微信公众号：生物世界（ID：ibioworld），作者：王聪

2022 年底，OpenAI 推出的基于大语言模型（Large language model，LLM）的聊天机器人 ChatGPT 展示了令人印象深刻的强大能力。

为应对异军突起的 OpenAI，谷歌在今日推出了其生成式人工智能模型——Gemini，谷歌表示，这是迄今为止功能最强大、最通用的人工智能大模型，其在许多测试中击败了 OpenAI 最近的 GPT-4。

除了与 OpenAI 的直接竞争外，谷歌还致力于开发其他更专业的生成式人工智能项目，其中就包括医疗人工智能大模型——MedLM。谷歌表示，该模型已经可以通过公司的 Vertex AI 平台向美国谷歌云客户提供，该平台使用机器学习工作流来指导用户通过训练、评估和部署生成式人工智能模型的过程。与此同时，美国以外的某些市场可以“预览”这些工具。

MedLM 模型基于 Med-PaLM 2，Med-PaLM 2 是谷歌进军医疗人工智能大模型的第二次尝试。去年，其开发的 Med-PaLM 模型因通过了美国医疗执照考试（USMLE）而成为头条新闻（准确率为 67%），而今年，Med-PaLM 2 进一步将准确率大幅提升至 86.5%，根据谷歌的说法，该分数相当于“专家”医生水平。

谷歌表示，MedLM 模型有两个版本，其用途之间的差异在于，第一个 MedLM 模型更大，专为复杂任务设计。第二个是中等模型，能够进行微调，最适合跨任务扩展。谷歌表示，在未来几个月会将基于 Gemini 的模型集成到 MedLM 模型中，以进一步扩展其人工智能功能。

谷歌表示，此次新推出的医疗人工智能大模型——MedLM，旨在用于整个医疗保健行业的各个方面，包括医院、药物开发、面向患者的聊天机器人等。例如，美国医疗保健巨头 HCA Healthcare 正在将 MedLM 模型用于记录临床医生与患者之间的对话，并将其自动转译为医疗记录，从而提高记录的质量。AI 药物发现平台 BenchSci 正在使用 MedLM 模型快速筛选大量临床数据并识别某些疾病和生物标志物之间的联系。

医学是一项人性化的事业，其中语言是临床医生、研究人员和患者之间的沟通互动的关键。近年来，人工智能的进步为其在医学领域的应用带来了新的希望。但 AI 模型主要是单任务系统，缺乏表达能力和交互能力，还可能会编造令人信服的医疗错误信息，或纳入偏见加剧健康不平等。因此，现有的 AI 模型所能做的和在现实世界的临床工作流程中对它们的期望之间存在着不一致，使其难以转化为真实世界的可靠性或价值。

2023 年 7 月，谷歌和谷歌旗下人工智能公司 DeepMind 的研究人员在国际顶尖学术期刊 Nature 上发表了题为：Large language models encode clinical knowledge 的研究论文。

该论文展示了谷歌开发的一个专精医学领域的大语言模型——Med-PaLM，其能够很好的回答医学问题。

为评估大语言模型（LLM）编码临床医学知识的能力，研究团队探讨了它们回答医学问题的能力。这项任务非常具有挑战性，因为为医学问题提供高质量的答案需要理解医学背景，回忆适当的医学知识，并根据专家信息进行推理。

在这项研究中，提出了一个基准，称为 MultiMedQA：它结合了 6 个涵盖专业医疗、研究和消费者查询的现有问题回答数据集以及 HealthSearchQA——这是一个新的数据集，包含 3173 个在线搜索的医学问题。通过这一基准来评估大语言模型回答医学问题的真实性、在推理中使用专业知识、有用性、准确性、健康公平性和潜在危害。

表现令人鼓舞

研究团队随后评估了 PaLM （5400 亿参数的大语言模型）及其变体 Flan-PaLM。他们发现，在一些数据集中 Flan-PaLM 达到了最先进水平的表现。在整合美国医师执照考试类问题的 MedQA 数据集中，Flan-PaLM 超过此前最先进的大语言模型达 17%，达到了 67.6% 的准确率，达到了通过考试的标准（60%）。不过，虽然 FLAN-PaLM 的多选题成绩优良，进一步评估显示，它在回答消费者的医疗问题方面存在差距。

为解决这一问题，研究团队使用一种称为设计指令微调（instruction prompt tuning）的方式进一步调试 Flan-PaLM 适应医学领域。设计指令微调是让通用大语音模型适用新的专业领域的一种有效方法。

结果产生的新模型 Med-PaLM 在试行评估中表现令人鼓舞。例如，Flan-PaLM 被一组医师评分与科学共识一致程度仅 61.9% 的长回答，Med-PaLM 的回答评分为 92.6%，相当于医师做出的回答（92.9%）。同样地，Flan-PaLM 有 29.7% 的回答被评为可能导致有害结果，Med-PaLM 仅 5.9%，相当于医师所作回答（6.5%）。

升级版——Med-PaLM 2

值得一提的是，这篇在 Nature 论文中描述的 Med-PaLM 模型于 2022 年 12 月推出，而在今年 5 月份，谷歌在预印本平台发表论文，推出了升级版的 Med-PaLM 2。

论文中显示，Med-PaLM 2 是第一个在美国医疗执照考试（USMLE）类问题上达到专家级表现的大语言模型，能够正确回答多项选择题和开放式问题，并对答案进行推理，准确率高达 86.5%，大幅超越了 Med-PaLM 以及 GPT3.5。

Med-PaLM 2 根据 14 项标准进行了测试，包括科学事实、准确性、医学共识、推理、偏见和危害，由来自不同背景和国家的临床医生和非临床医生进行评估。研究团队还发现该模型在回答医学问题方面仍存在一些差距，但并未具体说明，谷歌表示，进一步开发和改进该模型以解决这些差距，并了解大语言模型如何改善医疗保健。

已开展临床测试

据报道，Med-PaLM 2 目前正在世界顶尖的医疗机构梅奥医学中心进行初步试验。谷歌认为，这种模式在“看病机会有限”的国家尤其有用。他们还表示，在 Med-PaLM 2 试验期间提交的用户数据将被加密，谷歌无法访问，并由用户自己控制。

总的来说，Med-PaLM 是一个强大的专精医学领域的大语言模型，而设计指令微调是一种有效的数据和参数校准技术，能够提高大语言模型的准确性、真实性、一致性、安全性，减少危害和偏差等因素，有助于缩小模型与临床专家的差距，使这些模型更接近现实世界的临床应用。

参考资料：

1.https://www.nature.com/articles/s41586-023-06291-2

2.https://arxiv.org/pdf/2305.09617.pdf

3.https://the-decoder.com/google-is-testing-its-generative-medical-language-model-in-a-clinical-setting/

4.https://www.fiercebiotech.com/medtech/google-launches-medlm-generative-ai-models-healthcare-industry

免责声明：本文旨在传递生命科学和医疗健康产业最新讯息，不代表平台立场，不构成任何投资意见和建议，以官方/公司公告为准。本文也不是治疗方案推荐，如需获得治疗方案指导，请前往正规医院就诊。