▍多模态大模型GPT-4V发布,视觉信息处理+Agent推动模型进一步迈向智能体。
GPT-4V等新版本增加图像和语音模态,具备视觉和听觉的感知处理能力。结合自身丰富的知识储备与推理能力,GPT-4可充当强大的智能代理(Agent)灵活调用浏览器搜索、高级数据分析、DALLE 3文生图模型等多种工具,从而解决更复杂的问题。具备PCA(感知-认知-行为)的大模型已展现出智能体雏形,能够通过行动与环境进行互动。
▍大模型赛道或加码多模态研发,打通文本与图像的语义空间。
视觉模态是人类直接从现实世界获取信息的主要初级模态,相比语言模态更直观且信息量更大。多模态大模型通过联合训练各种感知模态能够学习到更通用和抽象的特征表示,具有更高的泛化能力、更强的可迁移性和更广泛的应用范围。因此多模态正得到各大厂商的高度重视,技术投入有望加码。
▍GPT-4V本质是扩充了模型的可接收信息模态,有望催生众多行业应用创新,其中智能硬件新入口与机器人或将成为受影响最深的部分产业。
GPT4-V作为“智慧大脑”已具备多模态信息理解与表达能力,智能硬件新入口将提供更高效地交互效率,可以在生活辅助与残障人士帮助等场景提供切实地帮助。面向机器人产业,多模态模型可铺设起机器人感知信息与机器人决策系统间高效反馈的闭环通路,未来有望催生较大的产业革新。
▍对于金融投研场景,GPT-4V的逻辑与技术分析能力超预期,但复杂图表细节的抽取欠佳。
通过实测,GPT-4V能结合图像和prompt(提示)输入,兼具图片信息提取、深度语义挖掘和逻辑梳理能力,进而催生更多应用场景。以金融场景为案例,GPT-4V在我们预设的研报图表分析、财务模型分析、财务报表信息理解与点评、股价走势预测中均表现出较强的逻辑构建与数理分析性能。但我们也发现GPT-4V在从图像提取数值时并非能够做到完全精准,后续能力提升值得期待。
▍文心4.0等国内大模型已经逐渐具备较强实战性能,特定应用下中外差距有望逐步收窄。
我们以投研流程中常见应用场景为例,构建了结构化提取信息、语义理解、逻辑归纳、指标量化等多个prompt,对GPT4、GPT3.5、文心大模型4.0进行横向对比。结果显示,文心大模型4.0在部分场景中的文本分析性能接近GPT3.5具备较强实战性能,与GPT4仍存在一定差距,垂直领域应用中国头部大模型能力差距有望逐步收窄。
▍风险因素:
大模型产业应用落地进度不及预期;国际关系恶化导致算力限制加剧;大模型性能评测样本集中于金融投研应用不代表所有场景。