全面AIGC时代，豆包模型家族准备好了

头图由豆包生成
提示词：金属质感，赛博朋克，显示AIGC字样，高清细节

作者｜Yoky
邮箱｜yokyliu@pingwest.com

AI时代，大模型更新的速度是多少？

火山引擎的答案是：两个月。

今年5月，火山引擎一口气推出了9款豆包大模型家族；紧接着，7月在「AI创新巡展」成都站中发布了豆包·图生图模型；9月24日，「AI创新巡展」深圳站中，豆包模型家族再次全新发布两款豆包·视频生成模型：豆包视频生成-PixelDance、豆包视频生成-Seaweed，并面向企业市场开启邀测。

活动中，火山引擎总裁谭待同时发布了豆包·音乐模型及豆包·同声传译模型，豆包通用模型pro和豆包·文生图模型、豆包·语音合成模型等模型性能也迎来大幅升级。

一句话总结：豆包模型家族已经集齐了文本、语音、图片、音乐、视频的AIGC全家桶共计13款模型，不断增加各类模态，并进入规模化调用时代。

在4个月2次迭代的过程中，据火山引擎披露，截至9月，豆包语言模型的日均tokens使用量超过1.3万亿，相比5月首次发布时猛增十倍，多模态数据处理量也分别达到每天5000万张图片和85万小时语音。

这些真实数据背后，是豆包大模型通过火山引擎不断深入产业的结果。同时，也证明了AIGC能力在企业中并非找不到场景落地，而是在基础版图未完整之前，很难综合性地解决企业存在的痛点。

多家企业曾向硅星人反馈到：“企业内部做了很多AIGC的尝试，但文本是一个工具、生图是另一个工具、做视频又要换，步骤仍然非常繁琐、数据更加碎片化了。”

在AIGC发展的早期，功能的多样性往往比性能更重要。而豆包的这次升级后，一站式打通各个内容场景，持续深耕细作，让AIGC真正落到实处。

让视频生成真正做到可商用

今年2月Sora爆火后，国内外视频生成模型和产品迎来了迭代高潮，但大多都存在于2C的娱乐场景中，并不能被应用到企业或者严肃的商业环境，核心的痛点在于生成效果不稳定和生成结果不可用。

这也是豆包·视频生成模型要攻克的难题。

过往的视频生成模型已经完成了单个主体的单场景和多场景变化，但物理环境往往更加复杂有多个主体间的相互作用，这对于人和AI来说都是更强的挑战。

经测试，豆包·视频生成模型能够遵循更复杂的指令，让不同人物完成多个动作指令的互动，精确理解语义关系，解锁时序性多拍动作指令，而非单一主体的简单动作。

如镜头前一位喝咖啡的男士，在他端起咖啡杯的同时身后一名女士从画面右侧出现，两个主体的大幅度动作符合物理世界的规律和逻辑。

同时，基于DiT架构，豆包视频模型通过高效地融合计算单元，让视频在大动态与运镜中自由切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。

在这个过程中，根据剪映、即梦AI等业务场景打磨出来的经验，让豆包·视频生成模型对于专业级光影布局、色彩调和、画面视觉美感和真实感都有了更成熟的判断。

简单的说，以前的视频生成模型生成的是单一拍摄素材，而豆包·视频生成模型则直接生成了有导演、美术指导、后期的大片片段，让生成结果变得更可用。

在风格方面，基于深度优化的Transformer结构，则大幅提升了豆包视频生成的泛化能力，支持3D动画、2D动画、国画、黑白、厚涂等多种风格，适配电影、电视、电脑、手机等各种设备的比例，不仅适用于电商营销、动画教育、城市文旅、微剧本等企业场景，也能为专业创作者和艺术家们提供创作辅助。

同时，在技术层面全新的扩散模型训练方法攻克了多镜头切换的一致性难题，在镜头切换时可同时保持主体、风格、氛围的一致性，可10秒讲述一个起承转合的故事。在一个prompt的多个镜头切换时，保持主体，风格，氛围和逻辑的一致性。

目前，新款豆包·视频生成模型正在通过火山引擎邀测中，未来将逐步开放给所有用户。

多主体、多风格、丰富的运镜切换、保持一致性，以上种种的技术手段，都大大增加了生成结果的信息密度，让AIGC的效果变得真正可用。

举几个例子，在电商营销场景的商品详情视频，能够快速把商品变成3D多角度展示，基于一致性的功能，切换中秋、七夕、春节等不同营销节点的风格，即不同尺寸快速上架。

在动画教育行业：动画制作成本较高，并且内容有大量超现实想象，同时文生视频可以降低动画的制作成本，低门槛地实现童话故事中的想象情景等超现实画面。

沿着这个思路，能快速衍生到游戏、城市文旅、音乐MV、短剧等更多的应用场景中。

大模型toB，要做六边形战士

今年5月，豆包进行了史上最大规模的降价，彼时，价格是影响大模型落地最难的大山。

作为基础设施提供商，谭待曾在采访中提到，火山引擎的核心目的是通过更低的价格，让企业拥有更低的试错成本，从而敢尝试、有创新。

从这个角度来看，无论是视频生成模型还是音乐、同声传译模型，虽然模型种类复杂，但其核心目的还是在解决企业智能化的问题：即将企业的使用门槛降到最低，把创造力提到最高。

而之所以会推出当前的几款能力各异的模型，谭待总曾经告诉过我们，豆包团队在后台观察企业调用模型能力的token次数，最高频的也是使用最多的模型，将单独打造为一款模型为企业提供服务。

在AI1.0时代，翻译一直是检验AI能力的一个实战场景，但经过多年迭代，也只能做到异步翻译或者说延时翻译，但在大部分的应用场景中，如跨国会议、线上直播、跨境电商客服等等都需要的都是更准确的实时翻译，在严肃的商业场景中，一个细微的不准确可能会带来严重误差。

豆包·同声传译模型便是从企业的场景出发，但这却给模型层提出了更大的挑战。

据谭待介绍，传统的AI同声传译通常采用级联模型方法，即先进行语音识别再进行机器翻译。但准确率低，实时性差，且翻译的声音体验不好。而豆包·同声传译模型采用了端到端模型架构，让翻译更加精准、质量更高、时延更低。同时会模拟说话人的真人发音，媲美真人同传效果。

而对于音乐场景而言，是一个更复杂的场景，也是对多种技术的综合考验。从歌词、旋律、编曲到音调唱法，因此豆包的音乐模型采用了全新的方案，实现了音乐生成的框架，从词、曲、唱三个方面来生成高质量的音乐。

无论用户是给出一段文字描述还是上传一张图片，基于豆包的文本能力都可以给出与旋律节奏匹配的歌词，更注重情感表达和与音乐风格高度契合。

同时，全新的音乐模型支持10余种不同的音乐风格和情绪表现，尤其在民谣、国风和流行方向适合国内听众的审美听感，包括民谣、流行、摇滚、国风、嘻哈、R&B、朋克、电子、爵士、雷鬼、DJ等，风格可以自由切换。

配合匹配真人效果的音色延长，真实呈现气口和真假音转换，并支持高质量音质听感。

目前，火山引擎AI创新巡展已经完成了第五站，在每一站中，模型的能力都会进一步提升。除了推出新的模型，基模能力也在不断进步。

随着企业大规模应用，大模型支持更大的并发流量正在成为一个新的挑战，据谭待介绍，业内多家大模型目前最高仅支持300K甚至100K的TPM（每分钟token数），难以承载企业生产环境流量。为此，豆包大模型默认支持800K的初始TPM，远超行业平均水平，客户还可根据需求灵活扩容。

除了本身模型的更新，火山在模型的应用落地上，也提供了全套的方案，包括火山方舟、扣子专业版和HiAgent平台，帮助企业打通拥抱大模型的最后一公里。

全模态的模型能力、市场更低的模型价格、超出行业的模型性能、配套的工具箱和生态，至此，豆包模型家族成为了真正的「六边形战士」。

但活动中谭待也坦言大模型toB过程中的挑战：“在企业应用场景里，挑战会更加复杂。我们不仅仅要考虑模型能力，还要考虑成本、性能、安全和易用性。”

这不仅需要突出的模型能力，对于企业来说，模型厂商的综合能力意味着企业自由度、创造力各方面都会更高。

从企业中来，到企业中去

从企业痛点出发打磨出来的模型能力，最终，还是要回到企业中去，真正发挥效用。

有了更强的模型、更易落地的方式和更低的价格，让企业开始能够“用得上”，而这只是AIGC落地产业中的第一步。在探索的早期，不断的试错成本、新的模型、配套的生态能力，是培育的土壤，接下来才是真正的实战。

这不仅仅是模型厂商独立能够完成的挑战，还需要与企业客户更紧密的合作。

此前，火山引擎已经在重点行业：零售、汽车、智能终端成立了行业大模型联盟，通过与合作伙伴一起探索大模型的产业应用。

比如，在零售大模型生态联盟，通过AI交互重构零售效率和体验。在商城导购助手、VOC（消费者需求）洞察分析、客服质检、客服陪练、直播洞察、商品知识库等场景中，都与联盟成员展开了多维度的合作。

在模型能力上，豆包大模型作为技术提供商独立研发，但在产业落地中，却一个个场景精细化打磨。

独行快。众行远。这次升级后，豆包模型家族能力正式进入了get ready的状态，也意味着开启了下一个艰难的新赛段。

点个“在看”，再走吧