Py学习  »  chatgpt

Adobe将Photoshop等功能引入ChatGPT【AI 早报 2025-12-11】

橘鸭Juya • 3 月前 • 148 次点击  

AI 早报 2025-12-11

概览

  • Adobe将Photoshop等功能集成至ChatGPT #1
  • 智谱AI开源GLM-TTS模型  #2
  • Google更新Gemini 2.5 TTS模型 #3
  • Qwen发布Qwen3-Omni-Flash-2025-12-01模型 #4
  • Claude Code发布新功能并升级Agent SDK #5
  • Visual Studio Code Agent体验重大升级 #6
  • Cursor发布2.2版本引入Debug Mode #7
  • Google发布Jules主动编程功能  #8
  • 智谱AI发布智谱AI输入法 #9
  • Google Labs为Pomelli引入动画功能 #10
  • 阿里通义实验室开源Wan-Move视频模型 #11
  • Motif Technologies发布12.7B推理模型 #12
  • Nanbeige4-3B模型发布 #13
  • thu-pacman发布PCMind-2.1-Kaiyuan-2B模型 #14
  • Arcee AI发布Trinity Mini模型 #15
  • Starcloud在太空首次成功训练AI模型 #16
  • Orchids发布vibe coding IDE #17
  • Unsloth发布新内核加速LLM训练 #18
  • Google DeepMind发布FACTS基准测试套件  #19
  • Google推出网络生态系统新工具与AI合作试点 #20
  • OpenAI强化网络安全准备应对高能力模型风险 #21
  • DeepSeek据报使用禁售英伟达芯片训练模型 #22
  • Nvidia开发芯片位置验证技术 #23
  • 亚马逊未来五年在印度投资350亿美元 #24

Adobe将Photoshop等功能集成至ChatGPT #1

Adobe宣布将PhotoshopExpressAcrobat的功能引入 ChatGPT,用户可通过自然语言指令让聊天机器人使用这些应用编辑图像、修改PDF或制作动画,且这些新功能对ChatGPT用户免费开放。

用户在使用过程中,可以随时选择在Adobe的原生应用中继续工作,以完成任务或使用ChatGPT中未提供的功能。这些功能将在全球范围内提供。

ChatGPT的桌面版、网页版和iOS应用上,来自这三个Adobe应用的功能均已可用,而在ChatGPTAndroid版本上,目前仅支持 Adobe ExpressPhotoshopAcrobat的支持即将推出。

https://news.adobe.com/news/2025/12/adobe-photoshop-express-acrobat-chatgpt

智谱AI开源GLM-TTS模型  #2

智谱AI开源了GLM-TTS,这是一个基于大语言模型的高质量文本转语音系统,支持零样本语音克隆、流式推理,并采用多奖励强化学习框架来增强情感表达。

该系统具备多项关键功能。零样本语音克隆功能仅需310秒的提示音频即可克隆任意说话人的声音。通过强化学习增强的情感控制功能,能实现更自然的情感表达和韵律控制。系统支持实时流式音频生成,适用于交互式应用。高质量合成能力可生成与商业系统相媲美的自然且富有表现力的语音,同时降低了字符错误率。其对中文和英文混合文本进行了优化,并支持音素级别的文本转语音转换,特别是通过“混合音素+文本”输入机制,解决了多音字和罕见字的自动发音歧义问题,实现了对特定词汇发音的精确控制。

项目已正式开源,提供了推理脚本和一系列模型权重。用户可以从HuggingFaceModelScope下载完整的模型权重。

https://github.com/zai-org/GLM-TTS
https://huggingface.co/zai-org/GLM-TTS
https://audio.z.ai/

Google更新Gemini 2.5 TTS模型 #3

Google发布了 Gemini 2.5 FlashGemini 2.5 Pro Text-to-Speech (TTS)预览模型的重大更新,这些新模型已经取代了之前五月份发布的TTS模型,核心改进包括增强的风格与语调多样性、精准的语速控制以及无缝的多说话人对话能力。

新推出的Gemini 2.5 Flash TTS预览模型针对低延迟进行了优化,而Gemini 2.5 Pro TTS预览模型则侧重于高质量输出。模型在表现力方面有显著提升,能够更忠实地遵循风格提示词,生成从“欢快乐观”到“严肃阴沉”等多种真实语调,极大地增强了角色扮演的贴合度。

在语速控制方面,模型现在能够根据文本内容的上下文智能调整速度,例如在需要强调时放慢语速,在表现激动时加快。模型对明确的语速指令的遵循度也更高。对于需要多个说话人互动的场景,如播客或多角色叙事,更新后的模型能够更好地保持角色声音的一致性,并使说话人之间的切换更自然。此外,模型的多语言能力也得到了增强,可以在其支持的24种语言中保持每个角色的独特音调、音高和风格。

开发者可以通过Google AI Studio Gemini API访问最新的Gemini 2.5 Flash TTS2.5 Pro TTS模型。

https://blog.google/technology/developers/gemini-2-5-text-to-speech/

Qwen发布Qwen3-Omni-Flash-2025-12-01模型  #4

Qwen发布了Qwen3-Omni-Flash-2025-12-01,这是在Qwen3-Omni基础上进行全面升级的新一代原生全模态大模型,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音输出。

此次升级在音视频交互、系统提示控制、多语言支持和语音生成方面均有显著提升。

https://qwen.ai/blog?id=qwen3-omni-flash-20251201

Claude Code发布新功能并升级Agent SDK #5

Claude发布了针对其开发者工具的多项更新,主要包括Claude Code CLI的新功能、自定义规则支持,以及Claude Agent SDK的增强。

Claude Code现已支持通过.claude/rules/目录加载自定义规则,开发者可以将代码风格、测试规范和安全需求等以.md文件形式放入该目录,这些文件会自动加载,且优先级与CLAUDE.md文件相同。

Claude Code CLI也获得了多项功能升级,包括异步子代理、即时上下文压缩、自定义会话名称和使用统计。

异步子代理功能允许任务生成在后台独立运行的子代理,即使主代理完成任务后,子代理仍可继续工作,适用于监控日志或等待构建等长时间运行的任务。上下文压缩速度得到指数级提升,现在仅需数秒即可完成,不会中断用户工作流。用户现在可以使用/rename命令为会话重命名以便后续查找和恢复,并在/resume界面使用键盘快捷键'R'重命名或'P'预览会话。新增的 /stats命令可以可视化显示每日Claude Code使用情况,并提供关于会话、使用连续天数和偏好模型的数据。

所有上述功能均已在当前版本的Claude Code中提供,用户可通过运行claude update命令获取最新版本。

与此同时,Claude Agent SDK也进行了三项更新以简化自定义Agent的构建过程:支持100万token的上下文窗口、引入沙盒机制,并发布了第二版TypeScript接口。

https://x.com/claudeai/status/1998830338735485239

Visual Studio Code Agent体验重大升级 #6

Visual Studio Code发布了Agent体验的重大升级,通过集成会话管理、隔离后台运行和无缝任务委托三项核心功能,重构了开发者在编辑器中与AI Agent协作的方式。

新版本中Agent sessions直接集成到Chat视图,提供统一的管理界面。开发者可以在此查看所有会话的状态、任务进度和文件更改情况,支持会话归档以保持界面整洁,并能随时选择任意会话查看完整的对话历史记录。新版本支持基于Git worktrees的isolated background agents,使多个后台Agent能够在各自独立的工作区中并行运行而互不干扰。升级实现了跨agents的无缝任务委托功能。开发者可在本地Agent中启动任务,通过"Continue in"选项随时将工作交接给后台或云端Agent,聊天上下文会自动转移,原会话在完成交接后自动归档。

https://aka.ms/VSCodeRelease

Cursor发布2.2版本引入Debug Mode  #7

Cursor 2.2版本发布,引入Debug ModePlan Mode改进、Multi-agent judgingPinned chats功能。Debug Mode通过运行时日志帮助复现和修复复杂错误; Plan Mode支持内联Mermaid图表生成;Multi-agent judging可自动评估并行Agent并推荐最佳方案;Pinned chats功能允许在Agent侧边栏置顶聊天记录。

Debug Mode是一个围绕运行时信息和人工验证构建的全新Agent循环,旨在修复以往难以解决的错误。该功能通过研究顶级调试人员的最佳实践而开发,集成了为代码添加运行时日志、生成多个错误假设以及回调用户以复现问题和验证修复的工具。整个过程包含人机交互验证,确保修复的有效性和代码的整洁性。

Plan Mode现已支持内联Mermaid图表,使Agent能够自动生成并在计划中实时流式传输可视化内容。用户在构建计划时拥有更多控制权,可以将选定的待办事项发送给新的Agent进行处理。

Multi-agent judging功能在运行多个并行Agent时,会自动评估所有运行结果并推荐最佳解决方案。被选中的Agent会附带解释其被选中的原因。评估过程仅在所有并行Agent完成任务后进行。

在Agent侧边栏中,用户可以将聊天记录固定在顶部,以便未来参考。

https://cursor.com/changelog/2-2
https://cursor.com/blog/debug-mode
https://ptht05hbb1ssoooe.public.blob.vercel-storage.com/assets/changelog/changelog-2-2-plans.mp4

Google发布Jules主动编程功能 #8

Google为其自主编程AgentJules发布了多项更新,新功能包括Suggested TasksScheduled TasksRender集成。

Suggested Tasks会持续扫描用户代码并提出改进建议,初期从处理#todos注释开始,用户可以审查、批准或驳回这些建议。

Scheduled Tasks允许用户定义任务频率,Jules将在指定时间执行任务,例如依赖项检查或每周清理工作,以帮助降低维护成本。此功能现已对所有用户开放。

新的Render集成旨在缩短从部署失败到修复的循环。用户可通过单个API密钥连接其Render账户。当由Jules创建的PR部署失败时,Jules会立即介入,分析日志、识别问题、编写修复代码,并创建一个拉取请求供用户审查,用户无需手动复制粘贴日志到提示输入中。

Google表示, Suggested Tasks功能作为实验性功能开始向Google AI ProUltra订阅用户推出,而Scheduled Tasks和新的Render集成则从即日起对所有用户开放。用户可以访问jules.google.com进行尝试。

https://blog.google/technology/developers/jules-proactive-updates/

智谱AI发布智谱AI输入法 #9

智谱AI正式发布基于GLM-ASR系列模型打造的桌面端智谱AI输入法,旨在实现“指尖即模型,语音即指令”的交互体验。

智谱AI输入法基于GLM-ASR系列模型打造,支持在PC端通过语音实现精准转文字、翻译、改写等智能操作。该输入法提供“所选即所改”的一体化改写功能,无需在多个应用间切换;支持千人千面的人设切换,如“面对老板”、“面对伴侣”等不同风格表达;针对开发者推出 Vibe Coding功能,可通过语音输入代码逻辑、查找Linux指令或指挥AI完成计算;具备耳语捕捉能力,能区分环境噪声并精准识别微弱声音;支持用户导入专属词汇、项目代号及生僻人名地名。

智谱AI输入法现面向所有用户开放,并免费提供2000积分,相当于28天使用时长。

https://mp.weixin.qq.com/s/38C-ujrXM9ckbVLqbH8tVQ

Google Labs为Pomelli引入动画功能  #10

Google LabsPomelli中引入了动画功能。通过名为“Animate”的新功能,用户可以将使用Pomelli创建的内容转换为符合品牌调性的动画,该功能由Veo 3.1模型提供支持。

该功能目前在美国、加拿大、澳大利亚和新西兰免费提供。




    
https://x.com/GoogleLabs/status/1998830445103054961
https://labs.google/pomelli

阿里通义实验室开源Wan-Move视频模型 #11

阿里通义实验室开源了Wan-Move视频模型,这是一个用于可控制视频生成的开源框架,通过潜在轨迹引导实现细粒度运动控制,能够生成长达5秒、 480p分辨率的高质量视频。

该框架无需修改现有图像到视频模型(如Wan-I2V-14B)的架构,即插即用,并通过密集点轨迹实现区域级精确控制。项目发布了模型权重、推理代码及名为MoveBench的大规模评测基准。

https://github.com/ali-vilab/Wan-Move
https://huggingface.co/Ruihang/Wan-Move-14B-480P
https://arxiv.org/abs/2512.08765

Motif Technologies发布12.7B推理模型 #12

Motif Technologies,一家韩国人工智能实验室,发布了Motif-2-12.7B-Reasoning模型,这是一个127亿参数规模的开源权重推理增强模型,在Artificial Analysis智能指数中获得45分,成为当前韩国领先的AI模型。

该模型在竞赛数学和指令遵循基准测试中表现尤为突出,与Claude 4.5 Haiku在相应评估中表现可比。

https://huggingface.co/Motif-Technologies/Motif-2-12.7B-Reasoning
https://huggingface.co/Motif-Technologies/Motif-2-12.7B-Base

Nanbeige发布Nanbeige4-3B模型 #13

Nanbeige发布了Nanbeige4-3B系列开源模型,该系列包含Base和Thinking两种变体,均为30亿参数规模,旨在为消费级硬件提供具有强大推理能力的轻量级部署方案。

Nanbeige4-3B-Base模型在多项基准测试中表现超越同规模及更大规模的模型,而Nanbeige4-3B-Thinking-2511作为增强版本,在数学、工具使用及创意写作等任务上达到了新的水平。




    
https://huggingface.co/Nanbeige/Nanbeige4-3B-Base
https://huggingface.co/Nanbeige/Nanbeige4-3B-Thinking-2511

thu-pacman发布PCMind-2.1-Kaiyuan-2B模型 #14

thu-pacman发布了完全开源的语言模型PCMind-2.1-Kaiyuan-2B,该模型拥有 20亿参数,在Ascend 910A集群上训练,使用了2.2万亿个token。

所有资产包括模型权重、数据和代码均在Apache 2.0许可证下发布。

https://arxiv.org/abs/2512.07612
https://huggingface.co/thu-pacman/PCMind-2.1-Kaiyuan-2B
https://huggingface.co/datasets/thu-pacman/PCMind-2.1-Kaiyuan-2B

Arcee AI发布Trinity Mini模型 #15

Arcee AI近日发布了Trinity Mini模型,这是一个26B参数的稀疏MoE模型,激活参数仅为3B,在多步推理中的表现优于大多数中型MoE模型。

该模型拥有128个专家,其中8个为激活专家加1个共享专家,其路由在数学和工具调用任务上比典型的2/4 专家MoE更稳定。模型基于Datology数据集堆栈构建,训练数据量达到10T curated tokensTrinity Mini支持128k上下文,且在长上下文处理中表现稳定。在零样本测试中,该模型在MMLU上取得84.95%的成绩,在Math-500上获得92.10% 的成绩,表现突出。用户可以通过ClarifaiOpenRouter平台体验该模型。

https://clarifai.com/arcee_ai/AFM/models/trinity-mini
https://openrouter.ai/arcee-ai/trinity-mini

Starcloud在太空首次成功训练AI模型 #16

Nvidia支持的Starcloud公司宣布,已在轨道上的Starcloud-1卫星上,使用一块Nvidia H100 GPU成功进行了AI模型的训练与推理,标志着“轨道服务器农场”概念的实现。

该公司运行了两个模型,一个是在太空中直接训练的nano-GPT模型,另一个是预加载的Google Gemma模型,后者首次输出被解码为“Greetings, Earthlings! ... I'm Gemma, and I'm here to observe...”。Starcloud认为,将计算移至太空的核心优势在于能源,轨道可提供全天候太阳能(效率比地球高5倍)和通过向深空辐射热量的免费冷却,这有望将训练成本降低 10倍,是为减轻地球能源负担的重要一步。

https://www.cnbc.com/2025/12/10/nvidia-backed-starcloud-trains-first-ai-model-in-space-orbital-data-centers.html

Orchids发布vibe coding IDE #17

名为 Orchids的AI IDE发布,该工具宣称能够像人类开发者一样进行构建、观察和聆听,并在App Bench这一端到端软件开发的最严格基准测试中排名第一。

Orchids集成了Agent、IDE、内置浏览器、SupabaseStripe于单一工具内,支持本地运行,无锁定且无浏览器限制。

Cursor等工具相比,Orchids在从头开始提示新项目时更快更流畅,拥有Cursor不具备的聆听和录制功能,并原生的集成了Supabase Stripe。该工具虽然默认使用Supabase,但也灵活支持如NeonDBPostgres等其他数据库,只需用户明确指定即可。Orchids Agent能够看到用户的整个屏幕及所有操作,并支持鼠标手势作为指示位置的方式。

https://www.orchids.app/
https://x.com/orchidsapp/status/1998426257504006222

Unsloth发布新内核加速LLM训练 #18

Unsloth AI发布了新的Triton内核和智能自动打包支持,旨在将大语言模型的训练速度提升3倍,在某些情况下甚至可达5倍,同时减少 30% 至 90% 的VRAM使用,且不损失模型准确性。

这些优化包括定制的RoPEMLP Triton内核,以及智能自动无污染打包集成,使得在低至3.9GB VRAM的设备上训练Qwen3-4B等模型成为可能。新功能默认启用,提供了更稳定的SFT损失和更可预测的GPU利用率。

https://docs.unsloth.ai/new/3x-faster-training-packing

Google DeepMind发布FACTS基准测试套件 #19

Google DeepMindKaggle合作推出了FACTS基准测试套件,旨在系统性评估大型语言模型(LLM)的事实准确性,在评估的15个领先模型中,Gemini 3 Pro以  68.8% 的综合得分位居榜首。

该套件包含四个独立的基准测试,覆盖了模型内部知识、搜索工具使用、多模态理解及上下文依存回答能力。FACTS基准测试套件共有3513个样本,分为公共与私有数据集。其综合得分(FACTS Score)为四个基准测试的公共与私有集准确率平均值。该套件由Kaggle管理,负责私有数据集保管、模型测试与排行榜维护。

在首次评估结果中,Gemini 3 Pro综合排名第一,得分为 68.8% 。与上一代模型Gemini 2.5 Pro相比,其在Search基准上的错误率降低了  55% ,在Parametric基准上的错误率降低了35% 。GPT-5模型得分为61.8% ,排名第三,位列Gemini 2.5 Pro62.1% )之后。所有模型在多模态事实性方面的表现均不理想,未达到70% 的准确率。




    
https://deepmind.google/blog/facts-benchmark-suite-systematically-evaluating-the-factuality-of-large-language-models/
https://www.kaggle.com/benchmarks/google/facts/leaderboard

Google推出网络生态系统新工具与AI合作试点 #20

Google宣布推出多项新功能与合作伙伴计划以支持网络生态系统发展,这些更新包括全球推广Preferred Sources功能、为订阅用户高亮付费内容、改进AI搜索体验中的链接展示机制,并与全球新闻出版商启动AI试点项目。

该公司表示其搜索产品每天向网络发送数十亿次点击,为各类规模的网站和创作者带来收入。新功能的推出基于用户希望更快获取信息、获得更多上下文帮助以及对可信来源真实连接的需求。




    
https://blog.google/products/search/tools-partnerships-web-ecosystem/?utm_source=tw&utm_medium=social&utm_campaign=nfg&utm_content=&utm_term=

OpenAI强化网络安全准备应对高能力模型风险 #21

OpenAI正在加强其网络安全准备工作,以应对AI模型能力快速提升带来的双重用途风险,同时发挥其在网络防御方面的益处。

公司预计即将推出的AI模型可能达到其Preparedness Framework中定义的“高”水平网络安全能力,因此正在实施多层次保障措施,确保这些能力主要用于防御目的,为资源不足的防御者提供优势。




    
https://openai.com/index/strengthening-cyber-resilience/

DeepSeek据报使用禁售英伟达芯片训练模型 #22

The Information援引了六位知情人士的独家报道,DeepSeek正在为其下一个主要大模型使用数千颗 英伟达Blackwell芯片,而该系列芯片已被美国禁止出口至中国。

同时,有社交媒体消息称,DeepSeek的下一版本模型,即DeepSeek V4,其发布目标时间定于2025年2月,具体可能为农历新年假期期间(2月17日)。

https://finance.yahoo.com/news/china-deepseek-uses-banned-nvidia-131207746.html

Nvidia开发芯片位置验证技术 #23

Nvidia正在开发一项能够验证其AI芯片物理位置的技术,该功能是一个可由客户安装的软件选项,利用图形处理器的机密计算能力。

技术上,定位不依赖GPS,而是通过测量与Nvidia服务器通信的时间延迟来实现。系统根据这些数据推断位置。Nvidia官方将该工具描述为一项旨在让数据中心运营商监控其整个AI GPU机群的健康状况和库存的服务。这一开发是为了响应美国政策制定者的要求,白宫和国会正在推动采取措施切断向中国非法出口高性能芯片。

https://the-decoder.com/nvidia-develops-location-tracking-for-ai-chips/

亚马逊未来五年在印度投资350亿美元 #24

亚马逊公司承诺未来五年在印度投资350亿美元,以扩大其在关键增长市场的业务布局,涵盖即时零售到云计算等多个领域。

资金将投向人工智能和物流基础设施等领域,并预计在印度额外创造100万个就业岗位。作为新目标的一部分,亚马逊还计划到 2030年将印度的电商出口额提升至800亿美元。此前,亚马逊曾宣布到2030年在印度追加投资150亿美元,其中包括云计算业务AWS计划投入127亿美元用于加强其在南亚地区的基础设施建设。

https://www.ithome.com/0/903/866.htm

提示:内容由AI辅助创作,可能存在幻觉错误

作者橘鸦Juya,视频版在同名哔哩哔哩。欢迎点赞、关注、分享

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/190308