社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

AI日报:快手推出AI视频制作助手Kwali;字节跳动推出USO模型;OpenAI推出ChatGPT开发者模式

AIbase基地 • 4 天前 • 98 次点击  

AI日报

9月11日•AIbase

1、快手推出 AI 视频制作助手 Kwali,轻松一语生成短视频!

2、字节跳动推出 USO 模型,打破 AI 图像生成的 “风格与主题” 对立

3、微软推出全新 Copilot Audio音频模式,体验更具个性化的语音交互

4、Stability AI发布 Stable Audio2.5,专业音频生成技术再升级

5、阿联酋推出全球最快开源 AI 模型 K2 Think,拥有 320 亿个参数

6、微信公众号上线智能回复功能:数字分身7*24小时陪聊

7、OpenAI推出ChatGPT开发者模式,首次支持AI直接控制外部工具

8、字节Seed推出全新 AgentGym-RL 框架:提升大规模语言模型的决策能力

9、重磅!月之暗面开源革命性中间件 “Checkpoint Engine”,为 LLM 推理引擎带来新生机!

10、B 站开源文本转语音模型IndexTTS-2.0,情感与时长可控

11、Replit推出更自主的Agent 3,自主性提高了10倍、编程效率飙升!



1. 快手推出 AI 视频制作助手 Kwali,轻松一语生成短视频!


快手推出的 Kwali AI 视频制作助手通过云端多 Agent 框架,简化了视频制作流程。用户只需输入需求,Kwali 即可自动拆解卖点、受众和情境标签,并生成脚本、匹配镜头、剪辑合成,大幅提升了效率。


image.png


亮点提要:

🌟 Kwali 是快手推出的 AI 视频制作助手,帮助用户快速生成高质量短视频。

🎬 多 Agent 系统自动处理脚本、素材和剪辑,提升视频制作效率。

💰 降低视频制作成本,商家可以更快推向市场并提升资金回笼。

详情入口:

🔗 https://kc.kuaishou.com/kwali




2. 字节跳动推出 USO 模型,打破 AI 图像生成的 “风格与主题” 对立


字节跳动推出的 USO 模型成功解决了风格驱动和主题驱动图像生成之间的矛盾,通过创新的训练方式和庞大的数据集,提升了图像生成的灵活性与精准度。该模型已全面开源,为数字艺术和商业设计带来了新的可能。


image.png


亮点提要:

🎨 USO 模型打破了风格与主题的对立,实现了两者的完美结合。

📊 USO 模型通过创新的训练方式和庞大的数据集,提升了图像生成的灵活性与精准度。

🌍 USO 已全面开源,鼓励开发者探索其在创意内容和商业设计中的应用。

详情入口:

🔗 https://github.com/bytedance/USO




3. 微软推出全新 Copilot Audio音频模式,体验更具个性化的语音交互


微软推出了全新的Copilot Audio音频模式,该模式基于自主研发的MAI-Voice-1模型,提供情感、故事和脚本三种语音模式,以满足不同场景下的表达需求。同时,该功能还提供了丰富的声音和风格选择,增强了用户的交互体验。


image.png


亮点提要:

🎭 新增的Copilot Audio音频模式支持情感、故事和脚本三种语音模式,满足不同场景需求。

🎙️ 提供多种声音和风格选择,如莎士比亚朗读和体育评论,增强交互趣味性。

🔍 微软推出MAI-1模型并集成到Office应用中,显示其在AI领域寻求独立发展的决心。

详情入口:

🔗 https://copilot.microsoft.com/labs/audio-expression




4. Stability AI发布 Stable Audio2.5,专业音频生成技术再升级


Stability AI推出了最新音频生成模型 Stable Audio2.5,该模型能够快速生成高质量、可定制的音频作品,支持复杂的音乐创作,并引入了音频修补功能。同时,它与 WPP 合作,致力于提供一致的品牌音频识别服务。


image.png


亮点提要:

🎵 新模型 Stable Audio2.5 支持生成复杂的音乐作品,快速生成最长三分钟的音轨。

🖌️ 引入音频修补功能,用户可以上传音频文件,让 AI 完成或扩展录音。

🤝 Stability AI 与 WPP 等大型客户合作,致力于提供一致的品牌音频识别服务。




5. 阿联酋推出全球最快开源 AI 模型 K2 Think,拥有 320 亿个参数


K2Think 是由阿联酋穆罕默德・本・扎耶德人工智能大学和 G42AI 联合推出的一款开源大语言模型,以其 320 亿参数和每秒 2000 个 tokens 的生成速度而闻名。它在复杂数学、编程和科学基准测试中表现出色,并采用了高效的推理设计。


image.png


亮点提要:

🧠 K2Think 是阿联酋推出的全球最快开源 AI 模型,拥有 320 亿个参数。

⚡ 每秒可生成 2000 个 tokens,速度远超其他模型。

🚀 该模型专注于复杂推理,设计上高效且开放,支持广泛商业应用。

详情入口:

🔗 https://www.k2think.ai/guest




6. 微信公众号上线智能回复功能:数字分身7*24小时陪聊


微信公众号上线智能回复功能,通过人工智能技术为运营者提供高效、个性化的互动服务,提升了用户体验和公众号的运营效率。


亮点提要:

🤖 公众号运营者可轻松开启智能回复功能,提升互动效率。

💡 数字分身能学习历史文章和语言风格,提供个性化回复。

🌐 智能回复支持7*24小时在线,增强用户黏性和互动体验。




7. OpenAI推出ChatGPT开发者模式,首次支持AI直接控制外部工具


OpenAI推出的ChatGPT开发者模式标志着AI助手从对话工具向自动化代理的重要转型,支持AI直接控制外部工具,提升开发效率与安全性。


亮点提要:

🧠 ChatGPT开发者模式首次支持AI直接控制外部工具,实现自动化代理功能。

🔧 开发者可创建自定义连接器,让ChatGPT执行写入操作和复杂任务。

🔒 功能加入多层安全防护措施,确保操作的准确性和安全性。

详情入口:

🔗 https://platform.openai.com/docs/mcp https://platform.openai.com/docs/guides/developer-mode




8. 字节Seed推出全新 AgentGym-RL 框架:提升大规模语言模型的决策能力


字节跳动Seed研究团队推出的AgentGym-RL框架,该框架专注于通过强化学习训练大规模语言模型代理,使其能够进行多轮互动决策。同时,他们还提出了一种名为ScalingInter-RL的训练方法,以优化代理的学习效果。


image.png


亮点提要:

🌐 AgentGym-RL 框架提供了一种新方法,旨在通过强化学习训练大规模语言模型代理,提升其复杂任务的决策能力。

🔄 ScalingInter-RL 训练方法通过阶段性调整交互,帮助代理在训练中实现有效的探索与利用平衡。

🏆 实验结果显示,AgentGym-RL 框架显著提升了代理的表现,超越了多个商业模型,具备了与顶尖专有大模型相当的能力。

详情入口:

🔗 https://agentgym-rl.github.io/




9. 重磅!月之暗面开源革命性中间件 “Checkpoint Engine”,为 LLM 推理引擎带来新生机!


月之暗面开源的 'Checkpoint Engine' 中间件,专为大规模语言模型(LLM)推理引擎设计,实现了高效的原地热更新。其性能卓越,可在20秒内完成1万亿参数模型的权重同步,并支持数千个GPU并行处理,显著降低停机时间,提升训练效率。


亮点提要:

🚀 Checkpoint Engine 实现了LLM推理引擎中模型权重的高效实时更新。

⚡ 支持数千个GPU并行处理,大幅减少强化学习训练中的停机时间。

🌐 开放设计便于未来扩展至其他框架,如SGLang,推动技术进步。




10. B 站开源文本转语音模型IndexTTS-2.0,情感与时长可控


B站开源了其自主研发的文本转语音系统IndexTTS-2.0,该系统具备情感可控和时长可调的特点,标志着零样本TTS技术的实用化迈出了重要一步。通过引入时间编码机制和音色与情感解耦建模,提升了语音合成的自然性和表现力,并广泛应用于AI配音、有声读物、视频翻译等多个场景。


image.png


亮点提要:

🕒 引入时间编码机制,提升语音时长控制精度。

🎭 音色与情感解耦建模,增强语音表现力。

🌍 支持全球内容出海,实现跨语言视频本地化体验。

详情入口:

🔗 https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo




11.  Replit推出更自主的Agent 3,自主性提高了10倍、编程效率飙升!


Replit推出的Agent3是一款具有更高自主性的智能编程助手,其在代码生成、调试和项目管理方面的能力显著提升,能够根据用户需求生成高质量代码,并主动提供优化建议,从而提高开发效率。


image.png


亮点提要:

🧠 Agent3能够根据自然语言需求生成代码,并主动分析项目上下文,提出优化建议。

⚙️ 支持多种编程语言,具备全流程辅助能力,包括代码生成、调试和项目管理。

🚀 提升开发效率,减少重复工作,专注于创造性问题解决。

详情入口:

🔗 https://replit.com/agent3




点击阅读原文,进AIbase官网.

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/186621
 
98 次点击