Py学习  »  chatgpt

AnyGPT看视频Demo有点东西↓看起来像是ChatGPT的最-20240223073324

黄建同学 • 2 月前 • 133 次点击  

2024-02-23 07:33

AnyGPT看视频Demo有点东西↓看起来像是ChatGPT的最终形态,可以输入和输出任何数据:文本,图像,视频,音频……实现真正的多模态。

AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling(具有离散序列建模的统一多模态LLM)

项目:junzhan2000.github.io/AnyGPT.github.io/
论文:arxiv.org/abs/2402.12226

论文摘要:

我们介绍 AnyGPT,这是一种任意对任意的多模态语言模型,它利用离散表示来统一处理各种模态,包括语音、文本、图像和音乐。

AnyGPT 可以稳定地训练,无需对当前的大语言模型(LLM)架构或训练范式进行任何改变。相反,它完全依赖于数据级预处理,促进新模式无缝集成到LLM中,类似于新语言的合并。

我们构建了一个以文本为中心的多模态数据集,用于多模态对齐预训练。利用生成模型,我们合成了第一个大规模任意对任意多模式指令数据集。它由 108k 个多轮对话样本组成,这些对话错综复杂地交织着各种模态,从而使模型能够处理多模态输入和输出的任意组合。

实验结果表明,AnyGPT 能够促进任意对任意的多模态对话,同时在所有模态中实现与专用模型相当的性能,证明离散表示可以有效且方便地统一语言模型中的多种模态。

ChatGPT 黄建同学的微博视频
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/167149
 
133 次点击