社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

华泰 | 计算机:多模态ChatGPT——AGI更进一步

华泰睿思 • 2 年前 • 312 次点击  

我们认为,大模型向智能终端侧部署是模型应用的重要方向之一。从OpenAI官方介绍视频和文档看,多模态ChatGPT已能够较为全面的覆盖用户的生活和工作场景。未来随着模型多模态能力的迭代完善,或能赋能机器人、汽车等更加复杂的智能终端,AGI更进一步。


核心观点

新版ChatGPT:落地语音对话和识图功能

9月25日,OpenAI官宣即将在ChatGPT中推出语音和多模态功能,支持用户直接与ChatGPT进行语音对话和多模态图像问答。未来两周,新功能将向ChatGPT Plus和Enterprise用户开放,其中语音对话(需开启设置)将在手机的iOS和Android客户端推出,识图功能将面向包含网页端的所有平台。OpenAI在3月提出的GPT-4多模态识图能力正式落地。安全性上,OpenAI通过Red Team测试模型在极端主义和科学领域的风险,且拒绝对图片中的人进行分析,从而实现负责任的AI。完整版的多模态ChatGPT将在手机端率先实现,或将开启智能终端时代。


情理之中:复盘OpenAI的多模态之路

3月14日,OpenAI官宣GPT-4,并在演示和技术报告中展示了多模态识图能力(仅展示了单图识别)。9月18日,据The Information信息,出于视觉功能可能被不良利用等安全原因,多模态功能早期仅向Be My Eyes公司提供,近期OpenAI正准备将其广泛推出。9月25日,OpenAI官宣验证了该信息。值得注意的是,The Information还指出OpenAI正在训练新的多模态模型Gobi来抗衡Google即将推出的多模态模型Gemini,而本次的GPT-4V(ison)并非多模态的Gobi模型。此外,5月18日,ChatGPT iOS发布时,已支持语音多模态,即Whisper语音转文本输入。


意料之外:多图识别、聚焦分析和语音对话

结合官方发布的视频和博客,我们总结了新版ChatGPT超预期的多模态能力:1)支持用户同时上传多张图像,并以自然语言的方式提问,ChatGPT将结合文字与图像多模态进行理解和回答,帮助用户分析日常生活中的问题和工作中的图表等复杂数据。2)ChatGPT手机App内置了绘图工具,支持用户标注图像中的具体对象,让ChatGPT聚焦性的推理作答。3)赋予了ChatGPT语音输出能力,结合之前已集成的Whisper语音识别能力,实现了ChatGPT和用户的完整语音对话,并支持5种音色。


技术解析:语音新模型+多模态涌现能力

语音模态,语音输出功能基于新的文本到语音模型,能够从文本和样本语音中生成人类音频。图像模态,OpenAI公开了GPT-4V的system card:1)GPT-4V于2022年训练完成。2)GPT-4V训练方式与GPT-4相同,先使用互联网图像和文本数据进行混合预训练,来预测下一个单词;然后通过InstructGPT沿用至今的RLHF(基于人类反馈的强化学习)技术来用额外数据对模型进行微调,实现与人类的对齐。3)在文本和图像多模态的混合,以及大规模模型提供的智能和推理能力下,模型能够涌现新的能力。


未来布局:多模态ChatGPT开启智能终端时代AGI更进一步

我们认为,大模型向智能终端侧部署是模型应用的重要方向之一。本次ChatGPT更新,完整的语音和多模态识图能力率先在手机端实现,而PC端的语音功能将被延后,智能终端对多模态的支持能力优势开始显现。从OpenAI官方介绍视频和文档看,多模态ChatGPT已能够较为全面的覆盖用户的生活和工作场景。未来随着模型多模态能力的迭代完善,或能赋能机器人、汽车等更加复杂的智能终端,AGI更进一步。


风险提示:宏观经济波动,技术进步不及预期。本报告内容均基于客观信息整理,不构成投资建议。




风险提示

宏观经济波动。若宏观经济波动,产业变革及新技术的落地节奏或将受到影响,宏观经济波动还可能对AI投入产生负面影响,从而导致整体行业增长不及预期。


技术进步不及预期。若AI技术和大模型技术进步不及预期,或将对相关的行业落地情况产生不利影响。


本报告内容均基于客观信息整理,不构成投资建议。



相关研报

研报:《计算机:多模态ChatGPT:AGI更进一步》2023年9月26日

谢春生 S0570519080006 | BQZ938



关注我们


华泰证券研究所国内站(研究Portal)

https://inst.htsc.com/research

访问权限:国内机构客户


华泰证券研究所海外站

https://intl.inst.htsc.com/mainland

访问权限:美国及香港金控机构客户
添加权限请联系您的华泰对口客户经理

免责声明

▲向上滑动阅览

本公众号不是华泰证券股份有限公司(以下简称“华泰证券”)研究报告的发布平台,本公众号仅供华泰证券中国内地研究服务客户参考使用。其他任何读者在订阅本公众号前,请自行评估接收相关推送内容的适当性,且若使用本公众号所载内容,务必寻求专业投资顾问的指导及解读。华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。

本公众号转发、摘编华泰证券向其客户已发布研究报告的部分内容及观点,完整的投资意见分析应以报告发布当日的完整研究报告内容为准。订阅者仅使用本公众号内容,可能会因缺乏对完整报告的了解或缺乏相关的解读而产生理解上的歧义。如需了解完整内容,请具体参见华泰证券所发布的完整报告。

本公众号内容基于华泰证券认为可靠的信息编制,但华泰证券对该等信息的准确性、完整性及时效性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。

在任何情况下,本公众号中的信息或所表述的意见均不构成对任何人的投资建议。订阅者不应单独依靠本订阅号中的内容而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。订阅者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。

本公众号版权仅为华泰证券所有,未经华泰证券书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。华泰证券具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/162237