A日报：Kimi开放平台上线Kimi Playground；OpenAI发布ChatGPT Agent；Suno推人声替换功能

AI日报

7月18日•AIbase

1、月之暗面Kimi开放平台上线Kimi Playground

2、OpenAI重磅发布ChatGPT Agent：会主动思考，浏览、购物、做PPT！

3、Suno发布v4.5+ 推出人声替换功能，可将原唱人声换为其他人声音

4、AI 视频成本新高?Google Veo3通过 Gemini API 现已上线

5、首个直播流扩散AI模型MirageLSD震撼发布，实时视频转换开启无限可能！

6、VSCode的AI编程利器 Traycer，处理大型代码库表现出色

7、ART框架发布！用Python一键训练AI Agent，邮件搜索到游戏操控全能搞定！

8、5.63%错误率创历史新低:NVIDIA AI推出商用级超高速语音识别模型Canary-Qwen-2.5B

9、Mistral AI 推出新功能 Le Chat，全面追赶 ChatGPT

10、百度小度上线首个支持与物理世界交互的MCP Server

11、Lightricks 发布 LTXV 模型更新:图像到视频生成突破60秒

12、LTX-Video 13B发布！30倍速生成高清视频，开源AI让创作无界限！

1. 月之暗面Kimi开放平台上线Kimi Playground

Kimi Playground的发布标志着AI技术从对话助手向智能助理的转变，其工具调用功能使AI能够主动解决问题。平台为开发者提供了一站式工具调用体验，支持多种工具接入和调试，提升了开发效率。

亮点提要：

✨ Kimi Playground通过工具调用功能让AI主动解决问题，实现从被动信息提供者到智能助手的转变。

🛠️ 提供直观的工具调用界面，支持内置和第三方工具接入，提升开发效率。

📊 在数据分析和旅游行程规划等场景中展现出强大的自动化能力，简化复杂任务。

详情入口：

🔗 https://platform.moonshot.cn/playground

2. OpenAI重磅发布ChatGPT Agent：会主动思考，浏览、购物、做PPT！

OpenAI正式推出ChatGPT Agent，标志着人工智能从对话助手向自主任务执行者的重大飞跃。该工具整合了Operator和Deep Research功能，能够通过虚拟浏览器、终端和API完成复杂任务，提升用户效率。

亮点提要：

🚀 ChatGPT Agent具备自主浏览、点击、填写表单及执行代码的能力，可处理多样任务如婚礼服装挑选或旅行行程制定。

📈 在多项基准测试中表现优异，准确率远超竞争对手，展现出强大的实用性。

🔒 强调安全性，涉及高后果操作时需用户授权，并实施严格防护措施以防止恶意攻击。

详情入口：

🔗 https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/

3. Suno发布v4.5+ 推出人声替换功能，可将原唱人声换为其他人声音

Suno v4.5+ 推出了多项创新功能，包括人声替换、伴奏生成和灵感激发功能，显著提升了音乐创作的灵活性和个性化体验。同时，音质和创作体验也得到了全面优化，为音乐创作者提供了更强大的工具。

亮点提要：

🎧 人声替换功能允许用户上传伴奏或使用内置乐器伴奏，并输入歌词生成完整歌曲。

🎵 Add Instrumentals功能可以将用户的歌声或哼唱转化为完整的音乐作品。

🎼 Inspire功能从播放列表中汲取灵感，快速生成符合用户审美的新歌曲。

4. AI 视频成本新高?Google Veo3通过 Gemini API 现已上线

谷歌的旗舰级视频生成模型 Veo3 已通过 Gemini API 向开发者开放，提供文本转视频功能并支持同步音频生成。这标志着 AI 视频制作进入新阶段，但同时也伴随着较高的成本。Veo3 是首款能通过单个文本提示生成高分辨率视频并同步生成对话、音乐和音效的模型。

亮点提要：

🔥 谷歌推出旗舰视频生成模型 Veo3，支持文本转视频与同步音频生成。

💰 Veo3 的价格较高，720p 视频每秒 0.75 美元，可能带来高昂成本。

🚀 Veo3 主要应用于专业领域，如 Cartwheel 和游戏工作室 Volley 的项目中。

5. 首个直播流扩散AI模型MirageLSD震撼发布，实时视频转换开启无限可能！

MirageLSD作为全球首个人工智能直播流扩散模型，凭借其超低延迟和实时视频转换能力，为直播、游戏开发、动画制作等场景带来了革命性的变化。该技术突破了传统视频生成模型的时延和长度限制，同时具备简单交互和高度灵活性，展现了巨大的应用潜力。

亮点提要：

✨ MirageLSD实现了24帧/秒的运行速度和小于40毫秒的响应延迟，打破了传统视频生成模型的瓶颈。

🕹️ 支持手势控制和连续提示编辑，用户可实时改变视频中的外观、场景或服装，降低技术门槛。

🚀 在游戏开发领域展现出惊人潜力，开发者可在30分钟内快速构建一款游戏，并由模型自动处理所有图形效果。

详情入口：

🔗 https://mirage.decart.ai/

6. VSCode的AI编程利器 Traycer，处理大型代码库表现出色

Traycer是一款专为Visual Studio Code设计的AI编程助手工具，通过智能任务拆解、代码规划与实时分析能力，显著提升了开发者的编码效率。其多代理协作和与VSCode Agent模式的高度兼容性，使其在处理复杂项目时表现尤为出色。

亮点提要：

🧠 任务拆解与规划：根据高级任务描述生成详细的编码计划。

🔄 多代理协作：支持多个AI代理异步执行任务，提升复杂项目的处理效率。

🔍 实时代码分析：持续跟踪代码库，识别潜在错误并提出优化建议。

详情入口：

🔗 https://traycer.ai

7. ART框架发布！用Python一键训练AI Agent，邮件搜索到游戏操控全能搞定！

文章介绍了ART框架的发布及其在强化学习领域的应用价值。该框架为开发者提供了便捷的工具，支持多种语言模型，并适用于多场景任务，如邮件检索和游戏开发。其模块化设计和易用性使得中小型团队和个人开发者也能快速构建高性能Agent。

亮点提要：

🧠 ART框架通过集成GRPO技术，提升AI Agent性能，使其能从经验中学习并优化任务执行。

📦 框架支持多种语言模型，如Qwen2.5、Qwen3、Llama和Kimi，提供广泛的选择。

🚀 开发者可轻松集成ART，通过简单命令实现强化学习功能，降低使用门槛。

详情入口：

🔗 https://github.com/openpipe/art

8. 5.63%错误率创历史新低:NVIDIA AI推出商用级超高速语音识别模型Canary-Qwen-2.5B

NVIDIA推出的Canary-Qwen-2.5B模型在自动语音识别和语言处理领域实现了重大突破，以5.63%的词错率登顶Hugging Face OpenASR排行榜。该模型结合了高效的转录与语言理解能力，支持直接从音频执行摘要和问答等任务，具有广泛的商业应用潜力。

亮点提要：

🧠 技术突破：统一语音理解与语言处理，实现单一模型架构。

⚡ 性能卓越：5.63% WER，实时处理速度达418倍，参数仅25亿。

💼 应用广泛：适用于企业转录、知识提取、会议总结及合规文档处理等场景。

详情入口：

🔗 https://huggingface.co/nvidia/canary-qwen-2.5b

9. Mistral AI 推出新功能 Le Chat，全面追赶 ChatGPT

Mistral AI 的 Le Chat 新功能包括深度研究模式、语音交互和高级图像编辑，旨在提升用户体验并挑战 OpenAI 的 ChatGPT。其语音识别基于 Voxtral 模型，具备自然、低延迟的特性，而图像编辑功能在实际使用中表现出色。

亮点提要：

🧠 **深度研究模式**：快速生成结构化研究报告，帮助用户追踪市场趋势和撰写商业策略书。

🗣️ **语音交互功能**：基于 Voxtral 模型实现自然、低延迟的语音识别，便于用户随时随地获取信息。

🎨 **高级图像编辑**：通过简单提示即可创建和编辑图像，表现优于 OpenAI 的产品。

10. 百度小度上线首个支持与物理世界交互的MCP Server

百度小度上线首个支持与物理世界交互的MCP Server，为AI应用开发带来全新变革，引领行业迈向“万物智能互联”新时代。

亮点提要：

💡小度上线首个支持与物理世界交互的MCP Server，实现终端设备与核心IoT能力的MCP化升级。

🌐小度开放平台推出两大核心服务，降低开发者门槛，提升智能设备操控效率。

🚀小度MCP Server推动智能家居从“单点控制”向“主动服务”进化，开启“全民智能开发”新纪元。

详情入口：

🔗 https://dueros.baidu.com/dbp/mcp/console

11. Lightricks 发布 LTXV 模型更新:图像到视频生成突破60秒

Lightricks 推出的 LTXV 模型实现了从图像生成长达 60 秒高质量视频的突破，采用自回归流式架构和多尺度渲染技术，支持实时控制与创作灵活性，并在消费级 GPU 上高效运行。

亮点提要：

🎥 LTXV 支持生成最长 60 秒的高质量 AI 视频，打破行业常规限制。

⚙️ 引入动态场景控制功能，允许用户实时调整视频内容细节。

⚡ 高效运行于消费级 GPU，显著降低计算成本，适合广泛创作者使用。

12. LTX-Video 13B发布！30倍速生成高清视频，开源AI让创作无界限！

LTX-Video 13B凭借多尺度渲染技术、高效生成速度和开源特性，为创作者提供了强大的视频生成工具，显著提升了视频的连贯性和细节表现。

亮点提要：

🚀 多尺度渲染技术提升生成速度与画质，支持消费级GPU运行。

🎨 支持多种视频生成模式，提供精准控制与创意灵活性。

🌐 开源模型赋能开发者，降低使用门槛并推动AI民主化。

详情入口：

🔗 https://ltx.studio

↓点击阅读原文，进AIbase官网.