AI 早报 2025-12-11 概览 Adobe将Photoshop等功能集成至ChatGPT #1 Google更新Gemini 2.5 TTS模型 #3 Qwen发布Qwen3-Omni-Flash-2025-12-01模型 #4 Claude Code发布新功能并升级Agent SDK #5 Visual Studio Code Agent体验重大升级 #6 Cursor发布2.2版本引入Debug Mode #7 Google Labs为Pomelli引入动画功能 #10 阿里通义实验室开源Wan-Move视频模型 #11 Motif Technologies发布12.7B推理模型 #12
thu-pacman发布PCMind-2.1-Kaiyuan-2B模型 #14 Arcee AI发布Trinity Mini模型 #15 Starcloud在太空首次成功训练AI模型 #16 Orchids发布vibe coding IDE #17 Google DeepMind发布FACTS基准测试套件
#19 Google推出网络生态系统新工具与AI合作试点 #20 OpenAI强化网络安全准备应对高能力模型风险 #21 DeepSeek据报使用禁售英伟达芯片训练模型 #22
Adobe将Photoshop等功能集成至ChatGPT #1 Adobe 宣布将 Photoshop 、 Express 和 Acrobat 的功能引入
ChatGPT ,用户可通过自然语言指令让聊天机器人使用这些应用编辑图像、修改PDF或制作动画,且这些新功能对 ChatGPT 用户免费开放。
用户在使用过程中,可以随时选择在 Adobe 的原生应用中继续工作,以完成任务或使用 ChatGPT 中未提供的功能。这些功能将在全球范围内提供。
在 ChatGPT 的桌面版、网页版和 iOS 应用上,来自这三个 Adobe 应用的功能均已可用,而在 ChatGPT 的 Android 版本上,目前仅支持
Adobe Express , Photoshop 和 Acrobat 的支持即将推出。
https://news.adobe.com/news/2025/12/adobe-photoshop-express-acrobat-chatgpt 智谱AI开源GLM-TTS模型
#2 智谱AI 开源了 GLM-TTS ,这是一个基于大语言模型的高质量文本转语音系统,支持零样本语音克隆、流式推理,并采用多奖励强化学习框架来增强情感表达。
该系统具备多项关键功能。零样本语音克隆功能仅需 3 至 10 秒的提示音频即可克隆任意说话人的声音。通过强化学习增强的情感控制功能,能实现更自然的情感表达和韵律控制。系统支持实时流式音频生成,适用于交互式应用。高质量合成能力可生成与商业系统相媲美的自然且富有表现力的语音,同时降低了字符错误率。其对中文和英文混合文本进行了优化,并支持音素级别的文本转语音转换,特别是通过“混合音素+文本”输入机制,解决了多音字和罕见字的自动发音歧义问题,实现了对特定词汇发音的精确控制。
项目已正式开源,提供了推理脚本和一系列模型权重。用户可以从 HuggingFace 或 ModelScope 下载完整的模型权重。
https://github.com/zai-org/GLM-TTS https://huggingface.co/zai-org/GLM-TTS https://audio.z.ai/ Google更新Gemini 2.5 TTS模型 #3 Google 发布了
Gemini 2.5 Flash 和 Gemini 2.5 Pro Text-to-Speech (TTS) 预览模型的重大更新,这些新模型已经取代了之前 五月份 发布的TTS模型,核心改进包括增强的风格与语调多样性、精准的语速控制以及无缝的多说话人对话能力。
新推出的 Gemini 2.5 Flash TTS 预览模型针对低延迟进行了优化,而 Gemini 2.5 Pro TTS 预览模型则侧重于高质量输出。模型在表现力方面有显著提升,能够更忠实地遵循风格提示词,生成从“欢快乐观”到“严肃阴沉”等多种真实语调,极大地增强了角色扮演的贴合度。
在语速控制方面,模型现在能够根据文本内容的上下文智能调整速度,例如在需要强调时放慢语速,在表现激动时加快。模型对明确的语速指令的遵循度也更高。对于需要多个说话人互动的场景,如播客或多角色叙事,更新后的模型能够更好地保持角色声音的一致性,并使说话人之间的切换更自然。此外,模型的多语言能力也得到了增强,可以在其支持的 24 种语言中保持每个角色的独特音调、音高和风格。
开发者可以通过 Google AI Studio 和
Gemini API 访问最新的 Gemini 2.5 Flash TTS 和 2.5 Pro TTS 模型。
https://blog.google/technology/developers/gemini-2-5-text-to-speech/ Qwen发布Qwen3-Omni-Flash-2025-12-01模型
#4 Qwen 发布了 Qwen3-Omni-Flash-2025-12-01 ,这是在 Qwen3-Omni 基础上进行全面升级的新一代原生全模态大模型,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音输出。
此次升级在音视频交互、系统提示控制、多语言支持和语音生成方面均有显著提升。
https://qwen.ai/blog?id=qwen3-omni-flash-20251201
Claude Code发布新功能并升级Agent SDK #5 Claude 发布了针对其开发者工具的多项更新,主要包括 Claude Code CLI 的新功能、自定义规则支持,以及 Claude Agent SDK 的增强。
Claude Code 现已支持通过 .claude/rules/ 目录加载自定义规则,开发者可以将代码风格、测试规范和安全需求等以 .md 文件形式放入该目录,这些文件会自动加载,且优先级与 CLAUDE.md 文件相同。
Claude Code CLI 也获得了多项功能升级,包括异步子代理、即时上下文压缩、自定义会话名称和使用统计。
异步子代理功能允许任务生成在后台独立运行的子代理,即使主代理完成任务后,子代理仍可继续工作,适用于监控日志或等待构建等长时间运行的任务。上下文压缩速度得到指数级提升,现在仅需数秒即可完成,不会中断用户工作流。用户现在可以使用 /rename 命令为会话重命名以便后续查找和恢复,并在 /resume 界面使用键盘快捷键'R'重命名或'P'预览会话。新增的
/stats 命令可以可视化显示每日 Claude Code 使用情况,并提供关于会话、使用连续天数和偏好模型的数据。
所有上述功能均已在当前版本的 Claude Code 中提供,用户可通过运行 claude update 命令获取最新版本。
与此同时, Claude Agent SDK 也进行了三项更新以简化自定义Agent的构建过程:支持 100万 token的上下文窗口、引入沙盒机制,并发布了第二版 TypeScript 接口。
https://x.com/claudeai/status/1998830338735485239 Visual Studio Code Agent体验重大升级 #6
Visual Studio Code 发布了Agent体验的重大升级,通过集成会话管理、隔离后台运行和无缝任务委托三项核心功能,重构了开发者在编辑器中与AI Agent协作的方式。
新版本中Agent sessions直接集成到Chat视图,提供统一的管理界面。开发者可以在此查看所有会话的状态、任务进度和文件更改情况,支持会话归档以保持界面整洁,并能随时选择任意会话查看完整的对话历史记录。新版本支持基于 Git worktrees 的isolated background agents,使多个后台Agent能够在各自独立的工作区中并行运行而互不干扰。升级实现了跨agents的无缝任务委托功能。开发者可在本地Agent中启动任务,通过"Continue in"选项随时将工作交接给后台或云端Agent,聊天上下文会自动转移,原会话在完成交接后自动归档。
https://aka.ms/VSCodeRelease Cursor发布2.2版本引入Debug Mode
#7 Cursor 2.2 版本发布,引入 Debug Mode 、 Plan Mode 改进、 Multi-agent judging 和 Pinned chats 功能。 Debug Mode 通过运行时日志帮助复现和修复复杂错误;
Plan Mode 支持内联 Mermaid 图表生成; Multi-agent judging 可自动评估并行Agent并推荐最佳方案; Pinned chats 功能允许在Agent侧边栏置顶聊天记录。
Debug Mode 是一个围绕运行时信息和人工验证构建的全新Agent循环,旨在修复以往难以解决的错误。该功能通过研究顶级调试人员的最佳实践而开发,集成了为代码添加运行时日志、生成多个错误假设以及回调用户以复现问题和验证修复的工具。整个过程包含人机交互验证,确保修复的有效性和代码的整洁性。
Plan Mode 现已支持内联 Mermaid 图表,使Agent能够自动生成并在计划中实时流式传输可视化内容。用户在构建计划时拥有更多控制权,可以将选定的待办事项发送给新的Agent进行处理。
Multi-agent judging 功能在运行多个并行Agent时,会自动评估所有运行结果并推荐最佳解决方案。被选中的Agent会附带解释其被选中的原因。评估过程仅在所有并行Agent完成任务后进行。
在Agent侧边栏中,用户可以将聊天记录固定在顶部,以便未来参考。
https://cursor.com/changelog/2-2 https://cursor.com/blog/debug-mode https://ptht05hbb1ssoooe.public.blob.vercel-storage.com/assets/changelog/changelog-2-2-plans.mp4 Google发布Jules主动编程功能 #8
Google 为其自主编程Agent Jules 发布了多项更新,新功能包括 Suggested Tasks 、 Scheduled Tasks 和 Render 集成。
Suggested Tasks 会持续扫描用户代码并提出改进建议,初期从处理 #todos 注释开始,用户可以审查、批准或驳回这些建议。
Scheduled Tasks 允许用户定义任务频率, Jules 将在指定时间执行任务,例如依赖项检查或每周清理工作,以帮助降低维护成本。此功能现已对所有用户开放。
新的 Render 集成旨在缩短从部署失败到修复的循环。用户可通过单个API密钥连接其 Render 账户。当由 Jules 创建的PR部署失败时, Jules 会立即介入,分析日志、识别问题、编写修复代码,并创建一个拉取请求供用户审查,用户无需手动复制粘贴日志到提示输入中。
Google 表示,
Suggested Tasks 功能作为实验性功能开始向 Google AI Pro 和 Ultra 订阅用户推出,而 Scheduled Tasks 和新的 Render 集成则从即日起对所有用户开放。用户可以访问 jules.google.com 进行尝试。
https://blog.google/technology/developers/jules-proactive-updates/
智谱AI发布智谱AI输入法 #9 智谱AI 正式发布基于 GLM-ASR 系列模型打造的桌面端智谱AI输入法,旨在实现“指尖即模型,语音即指令”的交互体验。
智谱AI输入法基于 GLM-ASR 系列模型打造,支持在PC端通过语音实现精准转文字、翻译、改写等智能操作。该输入法提供“所选即所改”的一体化改写功能,无需在多个应用间切换;支持千人千面的人设切换,如“面对老板”、“面对伴侣”等不同风格表达;针对开发者推出
Vibe Coding 功能,可通过语音输入代码逻辑、查找 Linux 指令或指挥AI完成计算;具备耳语捕捉能力,能区分环境噪声并精准识别微弱声音;支持用户导入专属词汇、项目代号及生僻人名地名。
智谱AI输入法现面向所有用户开放,并免费提供 2000 积分,相当于 28 天使用时长。
https://mp.weixin.qq.com/s/38C-ujrXM9ckbVLqbH8tVQ Google Labs为Pomelli引入动画功能
#10 Google Labs 在 Pomelli 中引入了动画功能。通过名为“Animate”的新功能,用户可以将使用 Pomelli 创建的内容转换为符合品牌调性的动画,该功能由 Veo 3.1 模型提供支持。
该功能目前在美国、加拿大、澳大利亚和新西兰免费提供。
https://x.com/GoogleLabs/status/1998830445103054961 https://labs.google/pomelli 阿里通义实验室开源Wan-Move视频模型 #11 阿里通义实验室 开源了 Wan-Move 视频模型,这是一个用于可控制视频生成的开源框架,通过潜在轨迹引导实现细粒度运动控制,能够生成长达 5 秒、
480p 分辨率的高质量视频。
该框架无需修改现有图像到视频模型(如 Wan-I2V-14B )的架构,即插即用,并通过密集点轨迹实现区域级精确控制。项目发布了模型权重、推理代码及名为 MoveBench 的大规模评测基准。
https://github.com/ali-vilab/Wan-Move https://huggingface.co/Ruihang/Wan-Move-14B-480P https://arxiv.org/abs/2512.08765
Motif Technologies发布12.7B推理模型 #12 Motif Technologies ,一家韩国人工智能实验室,发布了 Motif-2-12.7B-Reasoning 模型,这是一个 127亿 参数规模的开源权重推理增强模型,在 Artificial Analysis 智能指数中获得 45 分,成为当前韩国领先的AI模型。
该模型在竞赛数学和指令遵循基准测试中表现尤为突出,与 Claude 4.5 Haiku 在相应评估中表现可比。
https://huggingface.co/Motif-Technologies/Motif-2-12.7B-Reasoning https://huggingface.co/Motif-Technologies/Motif-2-12.7B-Base Nanbeige发布Nanbeige4-3B模型 #13
Nanbeige 发布了 Nanbeige4-3B 系列开源模型,该系列包含Base和Thinking两种变体,均为 30亿 参数规模,旨在为消费级硬件提供具有强大推理能力的轻量级部署方案。
Nanbeige4-3B-Base 模型在多项基准测试中表现超越同规模及更大规模的模型,而 Nanbeige4-3B-Thinking-2511 作为增强版本,在数学、工具使用及创意写作等任务上达到了新的水平。
https://huggingface.co/Nanbeige/Nanbeige4-3B-Base https://huggingface.co/Nanbeige/Nanbeige4-3B-Thinking-2511 thu-pacman发布PCMind-2.1-Kaiyuan-2B模型 #14 thu-pacman 发布了完全开源的语言模型 PCMind-2.1-Kaiyuan-2B ,该模型拥有
20亿 参数,在 Ascend 910A 集群上训练,使用了 2.2万亿 个token。
所有资产包括模型权重、数据和代码均在 Apache 2.0 许可证下发布。
https://arxiv.org/abs/2512.07612 https://huggingface.co/thu-pacman/PCMind-2.1-Kaiyuan-2B https://huggingface.co/datasets/thu-pacman/PCMind-2.1-Kaiyuan-2B Arcee AI发布Trinity Mini模型 #15
Arcee AI 近日发布了 Trinity Mini 模型,这是一个 26B 参数的稀疏MoE模型,激活参数仅为 3B ,在多步推理中的表现优于大多数中型MoE模型。
该模型拥有 128 个专家,其中 8 个为激活专家加 1 个共享专家,其路由在数学和工具调用任务上比典型的 2/4
专家MoE更稳定。模型基于 Datology 数据集堆栈构建,训练数据量达到 10T curated tokens 。 Trinity Mini 支持 128k 上下文,且在长上下文处理中表现稳定。在零样本测试中,该模型在 MMLU 上取得 84.95% 的成绩,在 Math-500 上获得 92.10%
的成绩,表现突出。用户可以通过 Clarifai 和 OpenRouter 平台体验该模型。
https://clarifai.com/arcee_ai/AFM/models/trinity-mini https://openrouter.ai/arcee-ai/trinity-mini Starcloud在太空首次成功训练AI模型 #16
Nvidia 支持的 Starcloud 公司宣布,已在轨道上的 Starcloud-1 卫星上,使用一块 Nvidia H100 GPU 成功进行了AI模型的训练与推理,标志着“轨道服务器农场”概念的实现。
该公司运行了两个模型,一个是在太空中直接训练的 nano-GPT 模型,另一个是预加载的 Google Gemma 模型,后者首次输出被解码为“Greetings, Earthlings! ... I'm Gemma, and I'm here to observe...”。 Starcloud 认为,将计算移至太空的核心优势在于能源,轨道可提供全天候太阳能(效率比地球高 5 倍)和通过向深空辐射热量的免费冷却,这有望将训练成本降低
10 倍,是为减轻地球能源负担的重要一步。
https://www.cnbc.com/2025/12/10/nvidia-backed-starcloud-trains-first-ai-model-in-space-orbital-data-centers.html Orchids发布vibe coding IDE #17 名为
Orchids 的AI IDE发布,该工具宣称能够像人类开发者一样进行构建、观察和聆听,并在 App Bench 这一端到端软件开发的最严格基准测试中排名第一。
Orchids 集成了Agent、IDE、内置浏览器、 Supabase 和 Stripe 于单一工具内,支持本地运行,无锁定且无浏览器限制。
与 Cursor 等工具相比, Orchids 在从头开始提示新项目时更快更流畅,拥有 Cursor 不具备的聆听和录制功能,并原生的集成了 Supabase 和
Stripe 。该工具虽然默认使用 Supabase ,但也灵活支持如 NeonDB 或 Postgres 等其他数据库,只需用户明确指定即可。 Orchids Agent 能够看到用户的整个屏幕及所有操作,并支持鼠标手势作为指示位置的方式。
https://www.orchids.app/ https://x.com/orchidsapp/status/1998426257504006222
Unsloth发布新内核加速LLM训练 #18 Unsloth AI 发布了新的 Triton 内核和智能自动打包支持,旨在将大语言模型的训练速度提升 3 倍,在某些情况下甚至可达 5 倍,同时减少 30% 至 90% 的VRAM使用,且不损失模型准确性。
这些优化包括定制的 RoPE 和 MLP Triton 内核,以及智能自动无污染打包集成,使得在低至 3.9GB VRAM 的设备上训练 Qwen3-4B 等模型成为可能。新功能默认启用,提供了更稳定的SFT损失和更可预测的GPU利用率。
https://docs.unsloth.ai/new/3x-faster-training-packing
Google DeepMind发布FACTS基准测试套件 #19 Google DeepMind 与 Kaggle 合作推出了 FACTS 基准测试套件,旨在系统性评估大型语言模型(LLM)的事实准确性,在评估的 15 个领先模型中, Gemini 3 Pro 以
68.8% 的综合得分位居榜首。
该套件包含四个独立的基准测试,覆盖了模型内部知识、搜索工具使用、多模态理解及上下文依存回答能力。 FACTS 基准测试套件共有 3513 个样本,分为公共与私有数据集。其综合得分( FACTS Score )为四个基准测试的公共与私有集准确率平均值。该套件由 Kaggle 管理,负责私有数据集保管、模型测试与排行榜维护。
在首次评估结果中, Gemini 3 Pro 综合排名第一,得分为 68.8% 。与上一代模型 Gemini 2.5 Pro 相比,其在Search基准上的错误率降低了
55% ,在Parametric基准上的错误率降低了 35% 。 GPT-5 模型得分为 61.8% ,排名第三,位列 Gemini 2.5 Pro ( 62.1% )之后。所有模型在多模态事实性方面的表现均不理想,未达到 70% 的准确率。
https://deepmind.google/blog/facts-benchmark-suite-systematically-evaluating-the-factuality-of-large-language-models/ https://www.kaggle.com/benchmarks/google/facts/leaderboard Google推出网络生态系统新工具与AI合作试点 #20 Google 宣布推出多项新功能与合作伙伴计划以支持网络生态系统发展,这些更新包括全球推广 Preferred Sources 功能、为订阅用户高亮付费内容、改进AI搜索体验中的链接展示机制,并与全球新闻出版商启动AI试点项目。
该公司表示其搜索产品每天向网络发送数十亿次点击,为各类规模的网站和创作者带来收入。新功能的推出基于用户希望更快获取信息、获得更多上下文帮助以及对可信来源真实连接的需求。
https://blog.google/products/search/tools-partnerships-web-ecosystem/?utm_source=tw&utm_medium=social&utm_campaign=nfg&utm_content=&utm_term= OpenAI强化网络安全准备应对高能力模型风险 #21 OpenAI 正在加强其网络安全准备工作,以应对AI模型能力快速提升带来的双重用途风险,同时发挥其在网络防御方面的益处。
公司预计即将推出的AI模型可能达到其 Preparedness Framework 中定义的“高”水平网络安全能力,因此正在实施多层次保障措施,确保这些能力主要用于防御目的,为资源不足的防御者提供优势。
https://openai.com/index/strengthening-cyber-resilience/ DeepSeek据报使用禁售英伟达芯片训练模型 #22 The Information 援引了六位知情人士的独家报道, DeepSeek 正在为其下一个主要大模型使用数千颗
英伟达Blackwell 芯片,而该系列芯片已被美国禁止出口至中国。
同时,有社交媒体消息称, DeepSeek 的下一版本模型,即 DeepSeek V4 ,其发布目标时间定于 2025年2月 ,具体可能为农历新年假期期间( 2月17日 )。
https://finance.yahoo.com/news/china-deepseek-uses-banned-nvidia-131207746.html
Nvidia开发芯片位置验证技术 #23 Nvidia 正在开发一项能够验证其AI芯片物理位置的技术,该功能是一个可由客户安装的软件选项,利用图形处理器的机密计算能力。
技术上,定位不依赖GPS,而是通过测量与 Nvidia 服务器通信的时间延迟来实现。系统根据这些数据推断位置。 Nvidia 官方将该工具描述为一项旨在让数据中心运营商监控其整个AI GPU机群的健康状况和库存的服务。这一开发是为了响应美国政策制定者的要求,白宫和国会正在推动采取措施切断向中国非法出口高性能芯片。
https://the-decoder.com/nvidia-develops-location-tracking-for-ai-chips/
亚马逊未来五年在印度投资350亿美元 #24 亚马逊 公司承诺未来五年在印度投资 350亿美元 ,以扩大其在关键增长市场的业务布局,涵盖即时零售到云计算等多个领域。
资金将投向人工智能和物流基础设施等领域,并预计在印度额外创造 100万 个就业岗位。作为新目标的一部分, 亚马逊 还计划到
2030年 将印度的电商出口额提升至 800亿美元 。此前, 亚马逊 曾宣布到 2030年 在印度追加投资 150亿美元 ,其中包括云计算业务 AWS 计划投入 127亿美元 用于加强其在南亚地区的基础设施建设。
https://www.ithome.com/0/903/866.htm
提示 :内容由AI辅助创作,可能存在 幻觉 和 错误 。
作者 橘鸦Juya ,视频版在同名 哔哩哔哩 。欢迎 点赞、关注、分享 。