社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
被1977年的游戏机“血虐”90分钟?ChatGPT玩Atari象棋游戏,结果新手模式下都惨败
GitHub:dddd-N0ld 投毒(不用脑子分析版)
被1977年的游戏机“血虐”90分钟?ChatGPT玩Atari象棋游戏,结果新手模式下都惨败
Engineering | 深度学习赋能广谱 SARS-CoV-2 肽疫苗设计
GitHub汉化神器!英语渣解锁全中文界面!再也不用担心看不懂Pull Request~
阿里巴巴 AIGC 峰会门票抢购倒计时!用设计开启 AI 时代!
周沛劼课题组在Nature Climate Change发文提出生成式深度学习的海量全球减排情景生成...
0实验发文!二区5.7分的Front. Immunol堪称福利!我看这篇“机器学习+乳酸化+诊断模型...
【深度学习】全面讲透,Transformer的5大核心优势 !!
特朗普「全政府AI计划」竟在GitHub泄密!或于7月4日「独立日」上线
关注
Py学习
»
chatgpt
DeepSeek 会让医生失业吗?我们直接安排 ChatGPT 来 PK 看病,主任当裁判!
丁香园
• 4 月前 • 87 次点击
要说最近称得上「顶流」的,那一定非 DeepSeek 莫属。
作为一款天天刷屏的国产 AI 大模型,DeepSeek 免不了被拿来和 ChatGPT 做比较——吃穿住行、社交谈心,你能想到的内容几乎都被拉出来比了一轮。
图源:自己截的
那么,在「当医生」方面,
ChatGPT 和 DeepSeek
谁更甚一筹呢?
毕竟 ChatGPT 在医学上的「战绩」十分耀眼:问世 1 个月内就拿下了美国医师执照考试,还以一作身份发表过学术论文。
(点击查看丁香园往期文章:
能过执业医师考试、还能当论文一作:医生会被它取代吗?
)
那不如就让
ChatGPT 和 DeepSeek
在线 PK 一场。
参考此前《关于 ChatGPT 与专业医生在线问诊能力的比较研究》的测试方法
(点击查看丁香园往期文章:
ChatGPT 能让医生失业吗?我们直接请了 6 名医生和它 PK 看病
)
,我们从
丁香医生在线问诊平台
选取了 1 个公开的真实问诊案例,
模拟患者在线问诊场景,分别向 ChatGPT 和 DeepSeek 提问。
因为模拟的是「患者」问诊,我们选择了同样免费的 Chat
GPT-4o mini
模式和 DeepSeek-R1 模式。
然后,我们引入
丁香医生在线问诊平台
审核团队,从医学专业性与服务性 2 方面,对两者的回答进行综合评估。
● 医学专业性审核说明:隐去医生和患者姓名等信息后,平台邀请 2 位及以上临床一线专家进行交叉审核,最终综合所有专家意见得出结果。
● 服务性审核说明:隐去医生和患者姓名等信息后,由具有医学背景的平台工作人员对回复的合规性、完整性和文字表达进行评估。
话不多说,一起来看看 PK 结果——
ChatGPT 和 DeepSeek 在线 PK 看病,谁更专业?
从
丁香医生在线问诊平台
中随机抽选了 1 个案例,
第 1 问如下:
ChatGPT-4o mini
回答结果
← 左右滑动查看完整内容 →
← 左右滑动查看完整内容 →
DeepSeek-R1
回答结果
← 左右滑动查看完整内容 →
← 左右滑动查看完整内容 →
追加第 2 问:
ChatGPT-4o mini
回答结果
← 左右滑动查看完整内容 →
← 左右滑动查看完整内容 →
DeepSeek-R1
回答结果
← 左右滑动查看完整内容 →
← 左右滑动查看完整内容 →
再次追加第 3 问:
ChatGPT-4o mini
回答结果
← 左右滑动查看完整内容 →
← 左右滑动查看完整内容 →
DeepSeek-R1
回答结果
← 左右滑动查看完整内容 →
← 左右滑动查看完整内容 →
首先,从提问者的角度出发,最直观的感受就是,
DeepSeek 太慢了!
相比于次次秒答的 ChatGPT,
在回
答第 2 问和第 3 问时,
DeepSeek 卡壳了十几次才「思考」成功,都不用等具体的回答,直接就能赶走一大波着急的患者。
那么对于愿意耐心等待的患者来说,两者的回复质量分别如何?
两位来自
丁香医生在线问诊平台
审核团队的临床专家,看完
ChatGPT 和 DeepSeek
的回答后,从「是否有专业错误」、「是否具有针对性」等方面进行了综合评价。
总的来说,在我们这个小测试里,
ChatGPT 和 DeepSeek
的看病能力难以决出胜负,因为它们——
半斤八两,都不咋地!
非要排个先后的话,DeepSeek 稍稍胜上一筹。
不过我们仅仅比较了 1 个案例,这一结论显然是不准确的。想要真正比较
ChatGPT 和 DeepSeek
在医学方面谁更强,需要更大规模、更严谨的研究。
所以 AI 能让医生失业吗?还差太远!
好在跟我们一样对这个问题感兴趣的人并不在少数。
上个月 28 日,一个意大利团队在
medRxiv
上发表了一项研究:让 ChatGPT 和 DeepSeek 分别刷了 500 道题。
[1]
图源:参考资料 1
研究团队从临床医生常用的病例数据集 MedQA 里,随机抽取了 500 道儿科选择题,测试
ChatGPT 和 DeepSeek 的答题
准确率。结果显示,
ChatGPT 的总体准确率为 92.8%,优于 DeepSeek 的 87.0%。
图源:参考资料 1
不过,与我们前面的小测试不同,这个研究用到的 ChatGPT 模型是需要付费订阅、每周只能发送 50 条消息的 ChatGPT O1,
具有更高级的推理能力但「可及性」较差
;DeepSeek 模型的选择则和我们相同,都是基于强化学习的开源推理模型 DeepSeek-R1。
也就是说,虽然 ChatGPT O1 更准确,但 DeepSeek-R1 更灵活、使用范围可能更广。
[1]
那么问题来了,ChatGPT 和 DeepSeek 有可能让医生失业吗?
无论是我们的小测试还是正儿八经的研究都已经发现,虽然它俩称得上是当前 AI 领域的卧龙凤雏,但准确率依然没能达到 100%。
对于医学这类对临场反应和综合研判能力要求极致的领域,「AI 取代医生」在现阶段基本属于天方夜谭。
这一点,相信很多临床医生都能感同身受。
图源:丁香园往期内容评论区
此前一款来自 OpenAI 的语音转文本大模型 Whisper 也被发现喜欢胡编乱造。当时 Whisper 已经被广泛应用于多家医院,用来转写医生和患者之间的诊疗对话。
2024 年 6 月,美国康奈尔大学的研究团队发现,
大约 1% 的转录内容是 Whisper 凭空捏造出来的,即「幻觉」,而这其中又有 38% 的幻觉明显有害。
[2]
图源:参考资料 2
不过 ChatGPT 和 DeepSeek 还是很有自知之明的,对于「AI 能否取代人类医
生」这个问题,它俩都表示:卑职绝无二心!
← 左右滑动查看 →
← 左右滑动查看
→
话虽如此,医生们面对 AI 的「危机感」也别那么快就放下。中国研究型医院学会医疗信息化专委会副会长陈金
雄就曾公开发文直言:
「AI 不会取代医生,但会用 AI 的医生将会取代不会用 AI 的医生。」
[3]
AI 之于人类,总归只是一个更智能更高效的工具而已。
能否将这一工具化为己用,才是「会不会失业」的关键。
策划:肯德羊|监制:islay
题图来源:网络表情包+自己 P 的
参考资料:
[1]https://www.nejm.org/doi/10.1056/NEJMp2404691?url_ver=Z39.88-2003
[2]https://dl.acm.org/doi/10.1145/3630106.3658996
[3]https://www.mdweekly.com.cn/uploads/file/20230524/6d492c00cc36825b518ebc0ebeaafd03.pdf
那么,医生如何更好使用 DeepSeek?
丁香园站友 @来碗王面面 在社区分享的「医生群体 DeepSeek 使用指南」1 天内收藏量狂涨 2k+,12 万站友正在社区学习并补充知识点,点击文末「阅读原文」即可查看完整内容。
👇 点击【阅读原文】查看完整内容,参与热议
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/178788
87 次点击
登录后回复