社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
从入门到入魔,100个Python实战项目练习(附答案)!
Github 今日推荐 WebGL2神技!deck.gl:秒渲海量数据的可视化神器"
顶刊《Materials Today》最新成果:机器学习+增材制造
31 岁程序员,6 个月赚了 5.8 亿。 看到一个案例,在外网我搜了搜相关新闻,竟然是真...
Nginx和Apache要成旧爱了?PHP有了新搭档:缝合怪FrankenPHP!
郑州大学田芸/周震 | 下一代电池安全管理:机器学习辅助寿命预测与性能提升
【2025版附安装包】超详细Python+Pycharm安装保姆级教程,永久免费使用,Python环...
ChatGPT化身生活操作系统:奥特曼预告下一代顶级AI
西南交通大学张云辉团队JH|利用无监督机器学习和正定矩阵因子分解模型驱动煤矿农业区域的地下水化学成因...
懒人福音!5行Python代码让电脑自己干活,再也不用重复点鼠标了
关注
Py学习
»
chatgpt
谷歌正式推出“医疗ChatGPT”——MedLM,达到医学专家水平,测试结果在Nature发表
药时代
• 1 年前 • 212 次点击
点击立即预约精彩直播!
撰文丨王聪
2022年底
,
OpenAI
推出的基于
大语言模型
(Large language model,LLM)
的聊天机器人
ChatGPT
展示了令人印象深刻的强大能力。
为应对异军突起的
OpenAI
,谷歌在今日推出了其生成式人工智能模型——
Gemini
,谷歌表示,这是迄今为止
功能最强大、最通用的人工智能大模型,其在许多测试中击败了OpenAI最近的GPT-4。
除了与OpenAI的直接竞争外,谷歌还致力于开发其他更专业的生成式人工智能项目,其中就包括
医疗人工智能大模型——
MedLM
。谷歌表示,该模型已经可以通过公司的
Vertex AI平台向美国谷歌云客户提供,该平台使用机器学习工作流来指导用户通过训练、评估和部署生成式人工智能模型的过程。与此同时,美国以外的某些市场可以“预览”这些工具。
MedLM模型基于
Med-PaLM 2
,Med-PaLM 2是谷歌进军医疗人工智能大模型的第二次尝试。去年,其开发的
Med-PaLM
模型因通过了
美国医疗执照考试(USMLE)
而成为头条新闻
(准确率为67%)
,而今年,Med-PaLM 2进一步将准确率大幅提升至86.5%,根据谷歌的说法,该分数相当于“专家”医生水平。
谷歌表示,MedLM模型有两个版本,其用途之间的差异在于,第一个MedLM模型更大,专为复杂任务设计。第二个是中等模型,能够进行微调,最适合跨任务扩展。谷歌表示,在未来几个月会将基于Gemini的模型集成到
MedLM模型中
,以进一步扩展其人工智能功能。
谷歌表示,此次新推出的
医疗人工智能大模型——MedLM
,
旨在用于整个医疗保健行业的各个方面,包括医院、药物开发、面向患者的聊天机器人等。
例如,美国医疗保健巨头
HCA Healthcare
正在将
MedLM模型用于记录临床医生与患者之间的对话,并将其自动转译为医疗记录,从而提高记录的质量。AI药物发现平台
BenchSci
正在使用
MedLM模型快速筛选
大量临床数据并识别某些疾病和生物标志物之间的联系。
医学是一项人性化的事业,其中语言是临床医生、研究人员和患者之间的沟通互动的关键。近年来,人工智能的进步为其在医学领域的应用带来了新的希望。但AI模型主要是单任务系统,缺乏表达能力和交互能力,还可能会编造令人信服的医疗错误信息,或纳入偏见加剧健康不平等。因此,现有的AI模型所能做的和在现实世界的临床工作流程中对它们的期望之间存在着不一致,使其难以转化为真实世界的可靠性或价值。
2023年7月,谷歌和谷歌旗下人工智能公司DeepMind的研究人员在国际顶尖学术期刊
Nature
上发表了题为:
Large language models encode clinical knowledge
的研究论文。
该论文展示了谷歌开发的一个专精
医学领域的大语言模型——
Med-PaLM
,其能够很好的回答医学问题。
为评估
大语言模型
(LLM)
编码
临床医学知识
的能力,研究团队探讨了它们回答医学问题的能力。这项任务非常具有挑战性,因为为医学问题提供高质量的答案需要理解医学背景,回忆适当的医学知识,并根据专家信息进行推理。
在这项研究中,提出了一个基准,称为
MultiMedQA
:它结合了6个涵盖专业医疗、研究和消费者查询的现有问题回答数据集以及
HealthSearchQA
——这是一个新的数据集,包含3173个在线搜索的医学问题。通过这一基准来评估大语言模型回答医学问题的真实性、在推理中使用专业知识、有用性、准确性、健康公平性和潜在危害。
表现令人鼓舞
研究团队随后评估了
PaLM
(5400亿参数的大语言模型)
及其变体
Flan-PaLM
。他们发现,在一些数据集中
Flan-PaLM达到了最先进水平的表现
。
在整合美国医师执照考试类问题的MedQA数据集中,
Flan-PaLM超过此前最先进的大语言模型达17%,达到了67.6%的准确率
,达到了通过考试的标准
(60%)
。
不过,虽然FLAN-PaLM的多选题成绩优良,进一步评估显示,
它在回答消费者的医疗问题方面存在差距
。
为解决这一问题,研究团队使用一种称为
设计指令微调
(instruction prompt tuning)
的方式进一步调试Flan-PaLM适应医学领域。设计指令微调是让通用大语音模型适用新的专业领域的一种有效方法。
结果产生的新模型
Med-PaLM
在试行评估中表现令人鼓舞。例如,Flan-PaLM被一组医师评分与科学共识一致程度仅61.9%的长回答,Med-PaLM的回答评分为92.6%,相当于医师做出的回答
(92.9%)
。同样地,Flan-PaLM有29.7%的回答被评为可能导致有害结果,Med-PaLM仅5.9%,相当于医师所作回答
(6.5%)
。
升级版——
Med-PaLM 2
值得一提的是,这篇在
Nature
论文中描述的
Med-PaLM
模型于2022年12月推出,而在今年5月份,谷歌在预印本平台发表论文,推出了升级版的
Med-PaLM 2
。
论文中显示,Med-PaLM 2是第一个在
美国医疗执照考试
(USMLE)
类问题上
达到专家级表现
的大语言模型,能够正确回答多项选择题和开放式问题,并对答案进行推理,准确率高达
86.5%
,大幅超越了Med-PaLM以及GPT3.5。
Med-PaLM 2根据14项标准进行了测试,包括科学事实、准确性、医学共识、推理、偏见和危害,由来自不同背景和国家的临床医生和非临床医生进行评估。研究团队还发现该模型在回答医学问题方面仍存在一些差距,但并未具体说明,谷歌表示,进一步开发和改进该模型以解决这些差距,并了解大语言模型如何改善医疗保健。
已开展临床测试
据报道,Med-PaLM 2目前正在世界顶尖的医疗机构
梅奥医学中心
进行初步试验。谷歌认为,这种模式在“看病机会有限”的国家尤其有用。他们还表示,在Med-PaLM 2试验期间提交的用户数据将被加密,谷歌无法访问,并由用户自己控制。
总的来说,
Med-PaLM
是一个强大的专精医学领域的大语言模型,而设计指令微调是一种有效的数据和参数校准技术,能够提高大语言模型的准确性、真实性、一致性、安全性,减少危害和偏差等因素,有助于缩小模型与临床专家的差距,使这些模型更接近现实世界的临床应用。
参考资料:
https://www.nature.com/articles/s41586-023-06291-2
https://arxiv.org/pdf/2305.09617.pdf
https://the-decoder.com/google-is-testing-its-generative-medical-language-model-in-a-clinical-setting/
https://www.fiercebiotech.com/medtech/google-launches-medlm-generative-ai-models-healthcare-industry
封面图来源:123rf
“K药+肿瘤疫苗”疗效坚挺,可以称得上“双M组合”吗?
正式被收购的第二天,Seagen为辉瑞带来了……
点击
在看
共济新药研发浪潮
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/165816
212 次点击
登录后回复