Py学习  »  chatgpt

华泰 | 传媒:ChatGPT多模态功能升级,促AI应用

华泰睿思 • 1 年前 • 354 次点击  

我们认为,随相应功能开放后,头部大模型公司的多模态道路有望加速推进,AI生态企业的垂直应用有望受益于语音、图像等多模态能力的完善。


核心观点

OpenAI官宣ChatGPT将上线语音和图像等功能,多模态能力升级

据OpenAI官网,ChatGPT将在未来两周内对Plus用户与企业用户开放新功能,包括语音对话能力以及图像读取与理解(图生文)能力。语音对话的功能针对ios及安卓客户端开放,图生文能力将向全平台开放。我们看到ChatGPT 在语音对话及图生文等功能上的更新是其在多模态化上的进一步迭代,提升用户的使用便捷性和场景范围。AI生态企业的垂直应用有望受益于AI工具在语音、图像等多模态领域的完善,由文本、语音、图像向更复杂模态的视频、3D模型的AIGC也将持续推进。


语音功能:面向移动端提供实时直接语音交互,提升使用体验便捷度

新的语音功能能够让ChatGPT与用户实现纯语音的实时互动对话。ChatGPT的最新语音功能由文本到语音(TTS)模型提供支持,能够仅通过文字和几秒时长的样本语音直接生成模拟人声音频,OpenAI与专业配音演员合作创建了5种合成语音可供选择。语音对话的功能将针对iOS及安卓客户端开放。另外,功能中使用了OpenAI此前自研的开源语音识别模型工具 Whisper,也提供将用户的语音转录成文本的功能。据OpenAI官网,Spotify正在使用ChatGPT的声音转换功能帮助平台上的播客创作者以自己的声音将博客内容进行更多语言的翻译录制。


图生文功能:支持多图问答理解分析,扩大使用场景范围

GPT-4多模态识图功能OpenAI在3月就已经提出,此次正式发布的版本中,图生文能够支持用户上传一张或多张图片,并为移动端用户提供画笔工具,让用户圈出图中的要点,ChatGPT从而能够聚焦具体图片细节进行进一步分析。图像读取理解能力由多模态模型GPT-3.5和GPT-4支持,能够理解的图像类型包括照片、截图等,可以同时包含文本及图案。因而图生文功能的加入有望助力ChatGPT能够应用于更多用户日常的使用场景中。据OpenAI官网,服务盲人和视力低下人群的移动APP Be My Eyes目前已经使用ChatGPT的图像功能,帮助用户识别视野范围内具体的人或物。


多模态能力或加速AI场景化应用,迈向安全有益的AGI(通用人工智能)

此外,OpenAI于9月20日在官网宣布推出文生图AI工具的最新迭代版本DALL·E 3。相较于前代,DALL·E 3在提示词辅助生成及文本理解、图片生成细节丰富度上有显著的提升。DALL·E 3将于10月初面向ChatGPT Plus和企业用户开放。OpenAI在官网指出希望能够构建安全并且有益的AGI,因而逐步丰富目前的产品功能,包括此次的语音及图像相关的能力。另外,据The Information,谷歌也将推出最新多模态AI大模型Gemini。我们认为,随相应功能开放后,头部大模型公司的多模态道路有望加速推进,AI生态企业的垂直应用有望受益于语音、图像等多模态能力的完善。


风险提示:AI技术瓶颈难以突破、AI相关法规仍待完善、AI应用落地不及预期。





相关研报

研报:《传媒:ChatGPT多模态功能升级,促AI应用》2023年9月26日

朱珺 S0570520040004 | BPX711

吴晓宇 S0570522100002



关注我们


华泰证券研究所国内站(研究Portal)

https://inst.htsc.com/research

访问权限:国内机构客户


华泰证券研究所海外站

https://intl.inst.htsc.com/mainland

访问权限:美国及香港金控机构客户
添加权限请联系您的华泰对口客户经理

免责声明

▲向上滑动阅览

本公众号不是华泰证券股份有限公司(以下简称“华泰证券”)研究报告的发布平台,本公众号仅供华泰证券中国内地研究服务客户参考使用。其他任何读者在订阅本公众号前,请自行评估接收相关推送内容的适当性,且若使用本公众号所载内容,务必寻求专业投资顾问的指导及解读。华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。

本公众号转发、摘编华泰证券向其客户已发布研究报告的部分内容及观点,完整的投资意见分析应以报告发布当日的完整研究报告内容为准。订阅者仅使用本公众号内容,可能会因缺乏对完整报告的了解或缺乏相关的解读而产生理解上的歧义。如需了解完整内容,请具体参见华泰证券所发布的完整报告。

本公众号内容基于华泰证券认为可靠的信息编制,但华泰证券对该等信息的准确性、完整性及时效性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。

在任何情况下,本公众号中的信息或所表述的意见均不构成对任何人的投资建议。订阅者不应单独依靠本订阅号中的内容而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。订阅者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。

本公众号版权仅为华泰证券所有,未经华泰证券书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。华泰证券具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/162287
 
354 次点击