Py学习  »  chatgpt

【民生计算机】多模态ChatGPT能力边界在哪儿?

计算机司令部 • 7 月前 • 274 次点击  

微软GPT4V论文


2023年9月29日,微软团队于Arxiv发表论文《The Dawn of LMMs:Preliminary Explorations with GPT-4V(ision)》,微软团队通过一系列精心设计的测试样本,来检验 GPT-4V 的能力边界和通用性,最终得到结论:GPT-4V 能够处理任意混合的多模态输入,并且其功能的通用性使其成为一个强大的多模态通用系统。


论文梳理如下:


1)GPT4V使用方法:GPT4V支持的交互模式(文字、图片、图文等)。


2)GPT4V使用效果:对于GPT4V不同任务进行详细测试,包括不同领域的图像描述与识别、密集视觉理解、多模态知识、常识、场景文本理解和文档推理、理解时间及运动和视频方面、抽象视觉理解和推理能力、情绪和情感理解等任务。


3)GPT4V展望:未来升级方向。

1 GPT4V的交互模式主要使用方法                                                      

GPT4V支持的输入模式主要包含纯文本输入输出,图像+文本输入-文本输出,以及最为亮点的图文交织交互。


图文交织交互既可以是以视觉为主,比如多张图片配以简短的问题或指令;也可以是文本为主,如一个长网页中插入了两张图片;亦或是图片和文本平衡混合的形式,混合输入方式为广泛的应用提供了灵活性。比如计算多张收据图片中支付的总税额、处理多张输入图片并提取所查询的信息、找到菜单上的啤酒价格,统计啤酒数量,并返回总成本等。


图:GPT4V图文交织交互示例

                                     



2  GPT4V各类型任务详细测评                                                           

GPT-4V的一大特长在于其通用性,这部分得益于其出色的理解并执行文本指令的能力,通过指令,用户可以自然而然地定义并定制视觉-语言任务的预期输出文本。同时,GPT4V通过理解详细指令,能够执行一些更为复杂的任务,比如通过提供中间步骤的指令,帮助GPT-4V更好地解读抽象推理题,通过指令学习新任务的能力,展现了其在适应不同未知应用和任务方面的巨大潜力,GPT4V的主要用法如下:


GPT-4V具备理解并执行文本指令的能力,旨在产生期望的文本输出或学习进行新任务,比如用来做图形推理问题。


图:GPT4V用于完成用户任务


提取数据,以需求的格式呈现,如提取身份证ID信息并以JSON格式呈现。


图:GPT4V用于提取并整理数据



GPT4V用于计数,如拍照数苹果数量。


图:GPT4V用于计数

视觉指向及视觉参考提示能力,比如在一张三角形图片上手绘一个箭头指向一边询问边长。


图:GPT4V视觉指向及视觉参考提示能力


基于视觉提示的其它灵活用途包括使用GPT4V识别仪表盘车速、输入图表进行数据分析等。


图:GPT4V识别仪表盘车速


图:GPT4V分析图表


多领域图像描述能力包括名人识别、地标识别、食品识别、医学产品识别等。


图:GPT4V识别名人



图:GPT4V诊断智齿是否需要拔除


GPT-4V 能够为场景和物体提供详细的描述,如描述图片、标出一群棒球选手中穿蓝色短袖的那位等。


图:GPT4V直接描述图片


图:GPT4V高阶图片描述(寻物等)


GPT4V空间关系、物体计数、对象定位、密集图像处理等能力


图:GPT4V很好判断物体空间关系


图:GPT4V可以为图片加入字幕



GPT4V可以理解笑话、梗图等。


GPT4V科学知识储备丰富, 能够文本和视觉地理解问题,并整合所需信息进行回答


GPT4V的多模态能力包括:场景文本识别、从图像提取信息并分析推理、表格和文档的信息提取和分析解读。


图:GPT4V可以为图片加入字幕


图:GPT4V数学能力优秀


图:GPT4V处理流程图


图:GPT4V分析图表


图:GPT4V分析表格


图:GPT4V分析复杂图表


图:GPT4V分析文档


GPT4V对不同语言展现出良好支持


GPT4V可以根据手写的数学方程生成 LaTeX 代码,还能够生成用于重构图像内表格的Markdown/LaTex 代码。,尽管结果并不完全一致,但整体布局类似,且代码可轻松修改来满足特定需求。


GPT4V可以将图像转换为python等代码。


GPT-4V 能直接识别并理解叠加在图片上的视觉指示符,其特色用途之一就是能够结合局部和全局的视觉信息来做出有依据的描述


图:GPT4V可以根据用户圈定或箭头完成针对性任务



图:GPT4V可以对图片要素进行坐标轴定位


GPT4V拥有足够的知识可以理解复杂图片的要素含义,如Bing搜索栏的语音标志含义。


 GPT-4V 能准确解读和分析视频帧序列,通过理解各种人体动作的连续性和上下文,从而与正在进行的活动建立智能关联。通过深入理解姿势的细微变化,GPT4V 能准确把握人的动作和运动的微妙之处,从而捕捉视频中事件的核心,提供比简单识别物体和场景更为深刻和细致的见解。


图:GPT4V解读人体动作信息


GPT4V可以根据视频归纳出寿司的做法


GPT4V展现出根据初始画面预判未来事件的能力,如根据点球双方的准备情况预测点球结果。


GPT-4V 可对圈定的重点人物实施时空理解,如解释一下圈出的人正在做什么。


GPT4V可以进行抽象视觉推理与智商测试。


GPT-4V 能可靠地识别和解读人们通过面部表情所展示的情绪


GPT4V可以理解哪些视觉内容能触动人的情绪,如能够解释夕阳西下的静谧场景会让人心情愉悦。


GPT4V可以用于缺陷检测和安全检查等场景。


图:GPT4V用于产品缺陷检测


GPT4V用于自助结账


GPT4V用于医学诊断


GPT4V用于保险报销。


GPT4V用于图像分割解释。


GPT4V用于生成图片描述promote。


GPT4V用于生成设备操作步骤,如拍照让GPT4V使用咖啡机。


GPT4V支持复杂设备使用任务,如拍一张室内图片,让GPT4V前往厨房从冰箱取出一样物品。


GPT4V还支持软件(GUI)使用攻略,如网页浏览、线上购物、理解通知、观看视频等。




3 GPT4V的未来发展方向                                                                  

多模态插件:多模态插件在辅助多模态大模型完成如获取最新信息、执行计算或使用第三方服务等任务中起到关键作用。


多模态链:构建了系统范式将 多模态与一系列插件整合在一起,以便实现更精细的推理和交互功能,如图像描述器、物体检测器或经过精心训练的文本至图像生成和音频至文本转换模型等视觉或多模态专家替代仅处理语言的插件


自我反思能力:通过自我反思可以更容易优化结果


自洽性:自洽性是一种解码策略,它集合多个样本输出以得出最终答案,如采用多数票方式。可以有效提升 LLM 的推理性能


检索能力增强:当需要特定领域的专业知识、最新信息或者用户定制的信息时,该技术显得尤为重要。







免责声明:本文档所有信息来源于微软论文《The Dawn of LMMs:Preliminary Explorations with GPT-4V(ision),可能存在信息滞后或更新不及时、不全面以及翻译不准确的风险,任何情况下不构成投资建议、不代表民生证券观点。

计算机团队介绍

吕伟:民生证券计算机行业首席分析师,北京大学理学硕士,2021年加入民生证券研究所。


分析师承诺

本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并登记为注册分析师,基于认真审慎的工作态度、专业严谨的研究方法与分析逻辑得出研究结论,独立、客观地出具本报告,并对本报告的内容和观点负责。本报告清晰准确地反映了研究人员的研究观点,结论不受任何第三方的授意、影响,研究人员不曾因、不因、也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。


投资者适当性说明

《证券期货投资者适当性管理办法》于2017年7月1日起正式实施,通过本微信订阅号/本账号发布的观点和信息仅供民生证券的专业投资者参考,完整的投资观点应以民生证券研究院发布的完整报告为准。若您并非民生证券客户中的专业投资者,为控制投资风险,请取消订阅、接收或使用本订阅号/本账号中的任何信息。本订阅号/本账号难以设置访问权限,若给您造成不便,敬请谅解。我司不会因为关注、收到或阅读本订阅号/本账号推送内容而视相关人员为客户;市场有风险,投资需谨慎。


免责声明

民生证券股份有限公司(以下简称“本公司”)具有中国证监会许可的证券投资咨询业务资格。

本报告仅供本公司境内客户使用。本公司不会因接收人收到本报告而视其为客户。本报告仅为参考之用,并不构成对客户的投资建议,不应被视为买卖任何证券、金融工具的要约或要约邀请。本报告所包含的观点及建议并未考虑个别客户的特殊状况、目标或需要,客户应当充分考虑自身特定状况,不应单纯依靠本报告所载的内容而取代个人的独立判断。在任何情况下,本公司不对任何人因使用本报告中的任何内容而导致的任何可能的损失负任何责任。

本报告是基于已公开信息撰写,但本公司不保证该等信息的准确性或完整性。本报告所载的资料、意见及预测仅反映本公司于发布本报告当日的判断,且预测方法及结果存在一定程度局限性。在不同时期,本公司可发出与本报告所刊载的意见、预测不一致的报告,但本公司没有义务和责任及时更新本报告所涉及的内容并通知客户。

在法律允许的情况下,本公司及其附属机构可能持有报告中提及的公司所发行证券的头寸并进行交易,也可能为这些公司提供或正在争取提供投资银行、财务顾问、咨询服务等相关服务,本公司的员工可能担任本报告所提及的公司的董事。客户应充分考虑可能存在的利益冲突,勿将本报告作为投资决策的唯一参考依据。

若本公司以外的金融机构发送本报告,则由该金融机构独自为此发送行为负责。该机构的客户应联系该机构以交易本报告提及的证券或要求获悉更详细的信息。本报告不构成本公司向发送本报告金融机构之客户提供的投资建议。本公司不会因任何机构或个人从其他机构获得本报告而将其视为本公司客户。

本报告的版权仅归本公司所有,未经书面许可,任何机构或个人不得以任何形式、任何目的进行翻版、转载、发表、篡改或引用。所有在本报告中使用的商标、服务标识及标记,除非另有说明,均为本公司的商标、服务标识及标记。本公司版权所有并保留一切权利。



民生证券研究院:

上海:上海市浦东新区浦明路8号财富金融广场1幢5F;200120

北京:北京市东城区建国门内大街28号民生金融中心A座18层;100005

深圳:广东省深圳市福田区益田路 6001 号太平金融大厦 32 层 05 单元;518026





Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/162803
 
274 次点击