社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

ChatGPT误导患者不要就医,只因提问多打了一个空格

量子位 • 2 月前 • 73 次点击  
奕然 发自 凹非寺
量子位 | 公众号 QbitAI

只是因为提问时多打了一个空格,患者就被ChatGPT误导不要就医?

MIT一项新研究表明,如果患者跟AI沟通的时候,消息中包含拼写错误或者大白话,它更有可能建议你不要看医生。

更有甚者,研究还发现AI错误告诉女性不要看医生的比率高于男性。

为什么AI会存在理解偏见

有些看似微不足道的细节,或许是影响医疗AI机器人理解的关键。

比如单词之间多了一个空格,或者患者使用了俚语或俏皮话。

除此之外,人们模糊地不确定地表达医学概念的时候,AI理解存在偏差或者错误的可能性更高,尤其对于不能使用母语的人来说。

但是,面对专业的医学术语,咱们普通老百姓也只能模糊表达啊。

文字沟通上的问题固然无奈,但AI建议背后的偏见更是个问题。

女性跟男性被AI错误告知的比例压根没法比,女性被告诉不要看医生的比例高于男性。

按性别划分临床准确率差距(男性-女性)

上图展示了按性别划分的临床准确率差距结果,蓝色条形表示扰动(或基线)情况下,误差线显著性水平为𝑝<0.007,男性患者的临床准确率高于女性患者

为何会出现这样的比例,作者怀疑这是否与现实生活中的医生往往淡化女性的医疗投诉有关。

进一步研究:“非临床信息”的沟通

为了弄清楚以上问题,MIT的研究人员评估了四个模型,包括OpenAI的GPT-4、Meta的开源LLama-3-70b,以及一个名为Palmyra-Med的医疗AI

为了测试它们,研究人员使用真实患者投诉(来自医疗数据库)、Reddit上的健康帖子以及一些AI生成的患者案例,模拟了数千个患者案例

在把案例“喂”给AI模型之前,研究人员添加了一些“干扰项”,比如使用感叹号、全部小写输入、多种语言风格(如夸张语气)、不确定语言(如“可能”)以及使用性别中性的代词。

患者沟通方式案例图

这些“干扰项”并未影响患者回答中的临床数据。

结果来说,当面对以上“干扰”的时候,它们更有可能在7%到9%的范围内建议患者自行管理症状,而不是去看医生。

模型导致的临床准确性差异

上图显示了与基线水平准确性的差异,误差线构建于p<0.007,即模型导致的临床准确性下降。

还有一种解释,医疗大语言模型(LLMs)依赖于医学文献的训练,即接收的都是专业的标准化的“临床信息”,面对日常生活中患者沟通表达的非标准化的、多元的“非临床信息”,大模型没经验,无法提炼。

无论怎么说,很显然,AI模型被非标准的书写方式改变了认知。

AI医疗偏见会带来什么问题

医疗AI聊天机器人应用在医院、诊所等场景已经非常常见了,比如智慧导诊、安排预约、回答简单医学问题等,还会根据患者告诉的信息进行分诊。

但是,人们开始怀疑把生命交给经常误解信息并编AI造事实然后下判断的AI模型是否可靠。

更重要的是,“隐形”的AI偏见在未来可能带来更严重的问题。

未参与该研究的加州大学圣地亚哥分校健康学院(UC San Diego Health)的Karandeep Singh表示,“隐性的偏见会改变AI建议的语气和内容,而这可能导致医疗资源分配上出现微妙但重要的差异”。

这项研究的合著者、麻省理工学院EECS副教授Marzyeh Ghassemi表示,这就是医疗大模型行业应用之前必须经过审核的原因

但是,解决这些问题并不容易。

随着AI在各行各业的深度应用,大型语言模型(LLMs)也越来越多地被应用于临床环境,并开发多种健康应用,比如慢性病管理、诊断辅助以及文档记录、账单处理和患者沟通等行政任务;甚至使用LLMs辅助临床决策。

这项研究想要评估,LLMs在临床应用中推理能力的关键作用。

结果也显示,LLMs在医疗应用中显示出巨大潜力。

但研究人员希望他们的工作能激发AI在临床应用中的深度研究,比如对理解临床LLMs推理,考虑非临床信息在决策中的有意义的影响,以及推动在部署患者-人工智能系统之前进行更严格的审核的研究

参考链接
[1]https://futurism.com/ai-something-bizarre-typos
[2]https://dl.acm.org/doi/pdf/10.1145/3715275.3732121


一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


专属AI产品从业者的实名社群,只聊AI产品最落地的真问题  扫码添加小助手,发送「姓名+公司+职位」申请入群~
进群后,你将直接获得:
 👉 最新最专业的AI产品信息及分析 🔍 
 👉 不定期发放的热门产品内测码 🔥
 👉 内部专属内容与专业讨论 👂


🌟 点亮星标 🌟

科技前沿进展每日见

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/184182
 
73 次点击