Py学习  »  chatgpt

OpenAI 推出 GPT-5.5 Instant 模型,ChatGPT 增强记忆功能【AI 早报 2026-05-06】

橘鸦Juya • 1 周前 • 40 次点击  

AI 早报 2026-05-06

概览

要闻

  • OpenAI 推出 GPT-5.5 Instant,ChatGPT 增强记忆功能 #1

模型发布

  • Google DeepMind 为 Gemma 4 系列模型开源了 MTP drafter #2
  • Subquadratic 推出 SubQ,上下文窗口达 1200 万 token #3
  • Inworld AI 发布 Realtime TTS-2,支持跨语言实时对话 #4
  • Luma 开放 UNI-1.1 系列模型 API,Image Arena 排名全球实验室第三 #5

开发生态

  • AI Studio 更新 Build 模块,集成 Nano Banana 与编辑模式 #6
  • 字节跳动 TRAE 上线 SOLO 移动端,支持跨设备协同 #7
  • Augment Code 发布 Augment Cosmos 公开预览 #8
  • 谷歌更新 Gemini API 文件搜索,支持多模态检索与精确引用 #9
  • OpenClaw 发布 2026.5.4 版,优化启动插件,传将发长期支持版 #10

产品应用

  • Claude 推出系列金融 Agent 模板,多家机构已落地采用 #11
  • Google NotebookLM 更新 Mind Maps,移动端开发计划确认 #12
  • Google Finance 推出 AI 关键瞬间功能解析股价波动 #13
  • Google 推出 Pomelli Catalog,免费向全球用户开放体验 #14

技术与洞察

  • OpenAI 重构 WebRTC,实现语音 AI 低延迟传输 #15
  • OpenRouter 分析 GPT-5.5 涨价,用户成本增 49% 至 92%。 #16

行业动态

  • OpenAI 升级 ChatGPT 广告,开放自助管理及 CPC 竞价 #17
  • OpenAI 与普华永道合作,以 AI Agent 重构财务职能 #18

前瞻与传闻

  • 消息称谷歌 Gemini 3.2 Flash 现身 iOS 应用及 AI Studio #19
  • 传 OpenAI 首款 AI 手机 2027 上半年量产 联发科独供 #20

OpenAI 推出 GPT-5.5 Instant,ChatGPT 增强记忆功能 #1

OpenAI宣布向所有 ChatGPT 用户推出 GPT-5.5 Instant 作为新默认模型。它在提升智能与图像分析能力的同时大幅减少幻觉,写作风格也更简洁直白。 ChatGPT还增强了记忆功能的效果,并上线了记忆源功能。用户可直接查看和管理个性化回复的具体上下文来源。

OpenAI从近日起开始向所有ChatGPT用户推出GPT-5.5 Instant,将其作为新的默认模型并替代GPT-5.3 Instant,同时在 API 中以 gpt-5.5-chat-latest提供。

官方称这是一次重大升级,该模型在通用智能、事实准确性、图像分析、STEM问题解答以及何时使用网络搜索方面均有提升。写作风格更加简洁直白,减少了冗余和表情符号。其内部评估显示,在医学、法律、金融等高风险领域,GPT-5.5 Instant相比前代模型减少了52.5%的幻觉声明,并将用户标记的事实错误对话中的不准确声明降低了37.3%

与此同时,ChatGPT的记忆与个性化功能得到加强,能够更有效地利用保存的记忆、历史对话、文件和已连接的 Gmail账户上下文来提供个性化回答。并新推出记忆源功能,让用户可查看、更新或删除用于个性化回复的具体上下文来源。

个性化改进已向 Plus和 Pro网页端用户推出,移动端即将上线。未来数周内将推广至FreeGoBusiness Enterprise用户;记忆源功能则覆盖所有消费者套餐的网页端。对于付费用户,GPT-5.3 Instant将保留三个月后淘汰。

https://openai.com/index/gpt-5-5-instant/

Google DeepMind 为 Gemma 4 系列模型开源了 MTP drafter #2

Google DeepMind 为 Gemma 4 系列模型开源了 MTP drafter。它通过推测解码和共享 KV cache,能够并行预测多个 token。这一技术在不降低输出质量的前提下,将推理速度最高提升至原来的 3 倍。

Google DeepMind 为 Gemma 4 全系列模型发布  Multi-Token Prediction (MTP) drafter。

该草稿模型基于推测解码,通过共享主模型 KV cache,单次前向并行预测并验证多个 token。

官方明确,在不牺牲输出质量和推理逻辑前提下,推理速度最高提升至原来的 3 倍;26BMoE 模型在 Apple Silicon 上可实现约 2.2 倍本地加速。

MTP drafter 均以 Apache 2.0 协议开源,首日即获 Hugging FaceKagglevLLM 等主流框架支持,并可通过 Google AI Edge Gallery 在 Android 和 iOS 端体验。




    
https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/
https://huggingface.co/collections/google/gemma-4

Subquadratic 推出 SubQ,上下文窗口达 1200 万 token #3

Subquadratic公司宣布推出基于Subquadratic Sparse Attention架构的大语言模型 SubQ。该模型具备 1200万 token 上下文窗口,在百万 token 任务中实现最高 52 倍预填充加速。现已开放早期访问,提供 API 与编码 Agent 两种使用方式。

Subquadratic 推出基于亚二次方稀疏注意力(Subquadratic Sparse Attention)架构的 SubQ,已开放早期访问。

官方称,SubQ 具备 1200 万 token 上下文窗口。1M 长度较 FlashAttention-2  实现 52.2 倍 预填充加速,成本据称为其他领先模型的 1/5

测试中,SubQ 在 RULER128K)得 95.0%SWE-Bench Verified 为 81.8%

模型提供 API 与编码 Agent。团队预告将发布模型卡。

https://subq.ai/how-ssa-makes-long-context-practical

Inworld AI 发布 Realtime TTS-2,支持跨语言实时对话 #4

Inworld AI发布了新一代实时对话语音模型Realtime TTS-2。该模型能听取完整对话音频,提供对话感知等核心能力。它支持在超 100种语言中维持同一音色。

Inworld AI 发布新一代语音模型 Realtime TTS-2。该模型能在完整对话中听取音频、捕捉语气,接受自然语言指令,并在超 100 种语言中保持同一说话人身份。

其具备语音方向、对话感知、跨语言和高级语音设计四大核心能力,支持 5-15 秒语音克隆。

该模型串联 STTLLM 路由与 TTS 实现端到端连接,TTS 层中位首音频延迟低于 200 毫秒。

https://inworld.ai/blog/realtime-tts-2

Luma 开放 UNI-1.1 系列模型 API,Image Arena 排名全球实验室第三 #5

Luma正式开放UNI-1.1UNI-1.1-Max的 API。相关模型采用 decoder-only 自动回归 transformer 架构。在 Arena.ai 评测中,Luma 凭借该系列模型位列全球实验室第三名。

Luma宣布正式开放“统一智能”推理模型UNI-1.1-MaxUNI-1.1的 API 访问权限,标志其进入生产环境。该模型采用 decoder-only架构,同步处理文本与图像 token,具备推理能力,在RISEBench测试中领先。API 提供图像生成(支持至多 9 张参考图)与自然语言修改两大端点。

Arena.ai评测中,Luma位列全球实验室第三 UNI-1.1-Max以 1193 分Text-to-Image榜单第六。官方称其成本与延迟不到同类模型一半。

https://lumalabs.ai/news/uni-1-1-api
https://x.com/arena/status/2051688029522436295

AI Studio 更新 Build 模块,集成 Nano Banana 与编辑模式 #6

Google AI Studio 的 Vibe Coding 功能正式上线了编辑模式,并集成了 Nano Banana 图像生成能力。用户可以直接在界面上进行批注、快速编辑组件。在生成应用时,系统将自动创建并替换自定义图像资产。

近日,Google AI Studio 为 Vibe Coding 推出系列更新,核心为上线编辑模式并集成  Nano Banana 图像生成能力。

据官方社交账号,此次更新主要包括:一是集成 Nano Banana,支持在应用生成时自动创建自定义图像资产;二是推出重新设计的编辑模式,用户可直接在 UI 界面用笔注释、绘制与选择元素,以快速编辑组件并替换图像资产。

三是显著简化了图像上传操作。此外,据透露后续还将有更多更新。

https://x.com/GoogleAIStudio/status/2051679127824998762

字节跳动 TRAE 上线 SOLO 移动端,支持跨设备协同 #7

字节跳动旗下 AI 编程产品"TRAE SOLO"移动端现已正式上线,支持跨设备同步与手机端向电脑派发任务。同时,官方联合星巴克推出限时咖啡兑换活动。

字节跳动旗下 AI 编程产品 TRAE 宣布 TRAE SOLO 移动端正式上线,支持跨设备同步,实现“移动端派发、桌面端执行”的协同工作,已开放下载。

配合发布,TRAE星巴克推限时福利: 2026 年 5 月 5 日 8:00 至 8 日 12:00,用户下载 APP 并下达一次指令,可领限量美式咖啡券。

该券限5 月 8 日 11:00-12:00 在北上深杭广蓉六城指定门店兑换。

此外,官方将于5 月 6 日6 月 15 日每周末在北京嘉里中心主题店举办"SOLO COFFEE TALK"AI 线下分享会,首场5 月 9 日开启。

https://mp.weixin.qq.com/s/g0hMDh5PPQWbp_HmXePi0A
https://x.com/Trae_ai/status/2051456450837590419

Augment Code 发布 Augment Cosmos 公开预览 #8

Augment Code 宣布推出 Augment Cosmos 公开预览版。该产品支持多模型运行,通过引入 Prism 路由技术与专业 Agent,让人类在软件开发生命周期中专注关键节点引导。现已向 Max 计划用户开放。

Augment Code 近日宣布将其面向 Agent 软件开发的操作系统  Augment Cosmos 推向公开预览版。

该系统专为团队协作设计,支持 Agent 在本地环境或云端运行,并全面覆盖整个软件开发生命周期(SDLC)。

目前,该系统已向 MAX 计划用户开放。

其旨在通过模型路由技术(如 Prism)和专业化智能体(如 Milo),帮助企业在模型能力飞速迭代的背景下,实现组织级的效能转化。

https://www.augmentcode.com/product/cosmos
https://x.com/augmentcode/status/2051350118360891584

谷歌更新 Gemini API 文件搜索,支持多模态检索与精确引用 #9

Google宣布更新 Gemini API 的 File Search 工具。该工具现支持基于 Gemini Embedding 2 的图文跨模态检索、自定义元数据过滤和精确到页码的引用功能。

Google近日更新 Gemini APIFile Search工具,推三项功能助开发者构建高效多模态RAG系统。

一是基于Gemini Embedding 2模型引入多模态支持,实现图文跨模态检索;二是新增自定义元数据过滤,允许附加键值标签限定搜索范围,提升检索速度与准确性。

三是支持精确引用,将回答关联至原始文档具体页码,增强结果可验证性。

据早期测试者反馈,新功能在混合模态语料库上无需预处理即表现优异。Google现已在AI Studio提供示例应用及API文档。

https://blog.google/innovation-and-ai/technology/developers-tools/expanded-gemini-api-file-search-multimodal-rag

OpenClaw 发布 2026.5.4 版,优化启动插件,传将发长期支持版 #10

OpenClaw 发布了 2026.5.4 版本,重点优化了插件安装体验与  Gateway 启动速度。此次更新同时修复了 Windows 和 Discord 的稳定性问题。此外,官方计划在五月下旬推出 StableClaw 长期支持版本。

近日,OpenClaw 发布 2026.5.4 版本。

本次更新重点优化了插件安装与更新流程,加速了 Gateway 启动路径,改进了诊断提示,并修复了 Windows 与 Discord 的可靠性问题。

同时,该版本新增了 Twilio 实时 Gemini 语音桥及模型认证查看功能。

此外,据报道,为回应此前更新导致的性能下降,OpenClaw 计划在 五月下旬 推出长期支持版本。

https://openclaw.ai/blog/openclaw-rough-week
https://x.com/openclaw/status/2051582130417721696

Claude 推出系列金融 Agent 模板,多家机构已落地采用 #11

Claude 面向金融行业推出投行推介、月终结账及 KYC 筛查等预构建 Agent 模板。这些模板内嵌连接器与子 Agent,可作为插件安装到 Claude Cowork 或 Claude Code。用户也能在 Managed Agents 中直接投产运行。

Anthropic近日面向金融服务行业推出了一系列预构建Agent模板,覆盖投行推介材料制作、估值复核、月终结账、信用承保、KYC筛查及对账等关键任务。

这些模板可作为插件安装于 Claude Cowork 和Claude Code,或通过官方 CookbooksManaged Agents中生产化运行。每个模板均内嵌所需的连接器、技能与子Agent,支持直接使用或按机构标准定制。

与此同时,Anthropic官方在金融服务解决方案页面展示了Claude在银、保险、资管及金融科技领域的广泛采用。CoinbaseCitadelFISBNYCarlyleWalleye CapitalCiti等多家机构已将其用于工程加速、投资分析、合规流程自动化等场景。

该平台具备原生ExcelPowerPoint集成、预构建接入LSEGFactSet等数据源、满足SOC 2FedRAMP合规要求等企业级能力,且在金融推理基准上表现领先。

https://claude.com/solutions/financial-services

Google NotebookLM 更新 Mind Maps,移动端开发计划确认 #12

NotebookLMMind Maps功能已推送重大更新。用户现在能通过输入提示词来定制生成思维导图,还能即时重命名与分享导图,节点导航动画也变得更加丝滑。

Google NotebookLM 的 Mind Maps 功能正在迎来一次重大更新,近日已向用户推出。此次更新引入了三项核心改进。

首先是定制化(Customization)能力,让用户可以使用特定提示“驾驶”思维导图的生成,并能将导图范围限定至特定主题或来源。

其次是组织(Organization)功能,支持即时重命名和分享已创建的思维导图。

最后是导航(Navigation)方面的提升,为节点之间的切换带来丝滑的过渡动画。NotebookLM 官方称移动版本正在推进中。

https://x.com/NotebookLM/status/2051715594697977870

Google Finance 推出 AI 关键瞬间功能解析股价波动 #13

Google Financebeta版上线了AI驱动的“关键瞬间”功能。用户查看一个月及以上的股票走势图时,AI会自动标记并解释股价波动原因。

Google 近日在 Google Finance 测试版中上线了 AI 驱动的“关键瞬间”功能。

用户在查看 1 个月及以上股票走势图时,AI 会自动标注并解释导致股价显著波动的关键事件。

用户可点击相关文章链接或利用内置工具进行深入追问。

此外,该功能还支持直接跳转至公司财报电话会议的核心段落,免去了手动检索的繁琐。

http://finance.google.com/beta

Google 推出 Pomelli Catalog,免费向全球用户开放体验 #14

Google 为 Pomelli 项目推出了免费的  Pomelli Catalog 新功能。全球用户只需在官网添加并编辑产品或服务信息,该 Agent 就会基于品牌 DNA 自动生成产品集合。系统将持续产出个性化的营销活动与摄影棚级高质量图片。

Google宣布为Pomelli营销Agent实验项目推出Pomelli Catalog新功能,该功能免费向全球用户开放。

用户可通过Google Labs官网 labs.google.com/pomelli 进行体验。Pomelli Catalog支持添加产品或服务信息,并允许对产品描述进行编辑。

随后该智能体将基于品牌DNA生成一系列产品集合,用于持续产出个性化的营销活动与高质量摄影棚级图片。

https://x.com/joshwoodward/status/2051698440690889108
http://labs.google.com/pomelli

OpenAI 重构 WebRTC,实现语音 AI 低延迟传输 #15

为了让 语音AI跟上自然语速,OpenAI发文介绍其重建了 WebRTC 堆栈。引入薄中继与有状态收发器架构,为 ChatGPT 语音和 Realtime API 实现了大规模低延迟的实时媒体传输。

OpenAI近日发布技术博文,阐述其如何为 ChatGPT 语音和 Realtime API 等产品提供大规模、低延迟的语音 AI 能力。

为使语音 AI 对话跟上自然语速,OpenAI重新设计了 WebRTC 技术栈。

该团队未采用厚重的传统媒体服务器,而是构建了“薄中继结合有状态收发器”的系统架构。

https://openai.com/index/delivering-low-latency-voice-ai-at-scale/

OpenRouter 分析 GPT-5.5 涨价,用户成本增 49% 至 92%。 #16

OpenRouter 发布成本分析指出,由于 token 价格翻倍,用户从 GPT-5.4 切换到 GPT-5.5 后,实际支出成本大幅增加了 49% 到 92%

OpenRouter 近期发布的一项成本分析显示,在 OpenAI 推出 GPT-5.5 模型后,从 GPT-5.4 切换至该新模型的用户实际支出成本增加了 49% 到 92%

OpenRouter 的分析证实,对于超过 1 万 token 的较长提示,GPT-5.5 的输出长度确实减少了 19% 至 34%,在一定程度上抵消了价格上涨的影响。

但在较短提示的场景下,成本增幅更为显著。该研究选取了在 GPT-5.5  发布前后主要使用模型发生切换的用户群体作为样本。

https://openrouter.ai/announcements/gpt55-cost-analysis

OpenAI 升级 ChatGPT 广告,开放自助管理及 CPC 竞价 #17

OpenAI宣布扩展 ChatGPT 广告功能,面向美国广告主推出测试版自助 Ads Manager,并新增单次点击付费的 CPC 竞价模式。平台还上线了 Conversions API 等工具,在保障对话隐私的前提下提供聚合转化洞察。

OpenAI近日宣布,正进一步扩展ChatGPT广告功能,推出新的购买和管理方式。

同时,OpenAI新增了按点击付费(CPC)竞价模式,与此前仅有的 CPM 千次展示付费形成互补。

针对广告主对更强大效果衡量的需求,该公司推出了Conversions API和像素级测量工具,可提供聚合转化洞察(如购买、线索、注册等)。

同时强调对话隐私,确保广告与ChatGPT回答分离,广告主无法获取个人对话数据。

https://openai.com/index/new-ways-to-buy-chatgpt-ads/

OpenAI 与普华永道合作,以 AI Agent 重构财务职能 #18

OpenAI普华永道合作,帮企业CFO利用AI Agent自动化财务工作流并强化风控。双方已在OpenAI内部验证,通过Codex把合同处理量提升五倍。正将这些经验转化为企业部署路径,让财务团队能在既有工具中规模化应用AI Agent

OpenAI普华永道(PwC)近期宣布合作,共同帮助企业的 CFO 部门利用 AI Agent 自动化财务工作流、增强预测能力、强化风险控制,从而重构财务职能。

该合作以实际生产环境为先导,双方围绕规划、预测、报告、采购、支付、资金、税务及会计关账等核心财务节奏构建 AI Agent,并率先在 OpenAI 内部财务组织落地验证:

其团队借助 Codex 工具,在人员规模不变的情况下将合同处理量提升至原来的 5倍

并利用 IR-GPT 在近期的一轮融资中管理了超过 200次 投资者互动。

https://openai.com/index/openai-pwc-finance-collaboration/

消息称谷歌 Gemini 3.2 Flash 现身 iOS 应用及 AI Studio #19

多名用户发现,模型标识为 Gemini 3.2 Flash 的模型曾现身 Gemini app iOS 端及 Google AI Studio,但很快又消失。有体验到该模型的用户反馈,其性能接近 Gemini 3.1 Pro

近日,据多名非官方社区用户报告及截图显示,Google未发布的 Gemini 3.2 Flash 模型已现身部分用户的 iOS 版 Gemini 应用及 AI Studio 中。

因并非全员可见,社区推测这可能是早期灰度测试或 UI 泄露。

据一名自称参与测试的用户称,该模型实测性能惊人地接近 Gemini 3.1 Pro

https://x.com/Waguri_Kaoruko8/status/2051488074589167704
https://x.com/Xplo8E/status/2051573739200901315

传 OpenAI 首款 AI 手机 2027 上半年量产 联发科独供 #20

分析师郭明錤透露,OpenAI计划最早于2027年上半年量产首款 AI Agent 手机。该设备预计独家采用联发科定制版 天玑9600 处理器。

OpenAI正在加速其首款 AI Agent 手机的推进工作。

据行业分析师郭明錤称,该设备目标最早于 2027 年 上半年量产。

预计将采用联发科天玑 9600定制版处理器作为唯一供应方案。

https://x.com/mingchikuo/status/2051523855286776034

提示:内容由AI辅助创作,可能存在幻觉错误

作者橘鸦Juya,视频版在同名哔哩哔哩。欢迎点赞、关注、分享。 mo

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/195901