社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
【DeepSeek:比ChatGPT危险100倍?它正在中文互联-20250205085327
每日 GitHub 探索|大型语言模型、多代理 AI、AI 代理构建等开源项目盘点
2025必看AI干货!《大模型/AIGC/GPT-4/Transformer/DL/KG/NLP/C...
OpenAI:免费开放ChatGPT搜索,无需注册;“离境即退税”新政助力跨境电商出口海外仓发展
DeepSeek下棋忽 ChatGPT 认输/《哪吒 2》票房又破新纪录/OpenAI CEO 再谈...
DeepSeek上线20天日活超2000万是ChatGPT的40%,豆包推一年日活不到2000万|A...
ChatGPT o3-mini 国内直接用!
ChatGPT引爆战略革命:企业必须删除的3大传统战略模块(附转型路线图)
国浩视点 | 对比提问各大AI模型:如何看待DEEPSEEK被控侵犯ChatGPT的知识产权?
杨强院士领衔,2025 全球机器学习技术大会正式官宣!
关注
Py学习
»
chatgpt
JAMA子刊:ChatGPT vs. 医生,谁写的研究摘要更受好评?
医咖会
• 5 月前 • 170 次点击
2024年8月,《JAMA Network Open》(IF=10.5)发表了一项横断面研究,评估ChatGPT生成医学研究摘要的能力。结果显示,
经过适当训练的聊天机器人能够生成与人工极为相似的医学研究摘要
。
原文链接:https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2821876
研究方法
研究设计和参与者
这是一项横断面研究,于2023年8月至2024年2月在美国东南部一家三级医院进行。研究对象为实习医生、资深医生、以及聊天机器人生成的医学研究摘要。
聊天机器人的训练
研究者使用了两个版本的ChatGPT,即3.5版和4.0版。
训练的模型来自研究团队于2012-2022年在外科期刊上发表的10篇摘要
。每篇摘要的第一作者不同,通讯作者相同(B.T.H.)。研究团队使用特定的提示词(prompts),让聊天机器人注意摘要之间的相似之处,并确认它们已经保存了该研究小组的写作风格。
训练完成后,聊天机器人被要求根据提供的研究背景、提示语和数据生成摘要。研究者特别指示以一位拥有20多年经验的资深外科医生(类似于B.T.H.)的风格生成摘要。最终,
研
究者
将
ChatGPT3.5和4.0
生成的
摘要,与实习医生撰写的摘要,以及资深医生撰写的摘要进行比较
。
对摘要的评估
由丹麦、英国和美国的5位资深外科医生组成评审员,对4个版本的摘要进行盲评
。
评审员使用10分和20分量表对每版摘要进行独立评分
,并对四个版本的摘要进行排名。每一版本均包含10个摘要,一共40个。此外,研究者还要求ChatGPT3.5和4.0对40个摘要进行评分和排名,所有规定与人类评审相同。
研究结果
四个版本摘要的排名
评审员无法区分哪些摘要是由AI生成
。每位评审员至少有一次会将AI生成的摘要排在第一位,有一位评审员每次都会将ChatGPT3.5或4.0生成的摘要排在第一位。
合计5位评审员的50次排名中,实习医生的摘要有14次排在第一位,有14次排在最后一位。资深医生的摘要有13次排在第一位,有13次排在最后一位。ChatGPT3.5生成的摘要排在首位的次数最少(7次);排在最后的次数最多(16次);
ChatGPT4.0生成的摘要排在首位的次数最多(16次);排在最后的次数最少(7次)
。
图. 4版摘要的排名
四个版本摘要的评分
在10分和20分的量表中,无论是实习医生、资深医生还是GPT生成的摘要,
评审员给出的分数没有显著差异
。中位分数和IQR分别为:
10
分量表
:实习医生,7.0(6.0-8.0);资深医生,7.0(6.0-8.0);ChatGPT3.5,7.0(6.0-8.0);ChatGPT4.0,7.0(6.0-8.0);P=0.61
20
分量表
:实习医生,14.0(12.0-7.0);资深医生,15.0(13.0-17.0);ChatGPT3.5,14.0(12.0-16.0);ChatGPT4.0,14.0(13.0-16.0);P=0.50
图. 4版摘要的评分
人类评审 vs. 聊天机器人评审
ChatGPT3.5给出的摘要评分与医生评审的评分相当,在10分、20分量表和排名上没有差异。然而,ChatGPT4.0给出的评分高于医生评审员和ChatGPT3.5,特别是在20分量表中。
图. 外科医生评审员 vs. 聊天机器人评审员的评分
总结与讨论
这项横断面研究表明,
当研究者花时间去训练ChatGPT、为其提供背景信息和分析数据时,ChatGPT可以生成高质量的医学研究摘要
。本研究中的聊天机器人还展示了对摘要进行评分的能力,ChatGPT4的严格程度低于ChatGPT3.5。
研究存在的局限性包括
:(1)摘要以及评审员的数量小,可能影响结果的普遍性和外推性;(2)研究基于特定领域(外科)的摘要,因此其结果可能不适用于其他医学领域;(3)所用ChatGPT的知识更新截止于2021年9月,无法获取互联网上的最新信息;(4)ChatGPT依赖于训练数据,可能存在偏倚;(5)ChatGPT有字符限制。
参考文献:JAMA Netw Open.2024;7(8):e2425373.
点击左下角"
阅读原文
",学习70多篇SPSS
教程,30多篇R教程,以及更多科研教程!
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/173400
170 次点击
登录后回复