OpenAI 前 CTO 创业大模型首秀，第一剑先斩 ChatGPT 聊天框

2013 年的科幻电影《Her》中，操作系统 Samantha（萨曼莎）让观众首次具象化了理想的 AI 存在方式：不等你说完即可开口、能感知语气迟疑，且始终「在场」，而非被动等待唤醒。

十三年后，由 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 发布了一篇研究预览，其构建的交互模型在底层追求上，与 Samantha 的逻辑高度契合。

这篇题为《交互模型：人机协作的可扩展方案》的博客，全篇反复强调的核心便是一个词：「presence」——持续在场。

博客链接地址：https://thinkingmachines.ai/blog/interaction-models/

颇有意思的是，2024 年正是 Mira Murati 在 OpenAI 主持发布了 GPT-4o 的高级语音模式，让人机交互开始更接近人与人的自然交流。

OpenAI debuts GPT-4o 'omni' model now powering ChatGPT | TechCrunch

两年后，她带着出走的团队另起炉灶，却又把这件事从头做了一遍。

评论区的吐槽也是一条比一条犀利。

人类已被移出 AI 协作群聊

文章开篇指出，结合 METR 在 2025 年的研究报告，主流 AI 公司普遍倾向将「模型自主完成长任务」作为最重要的能力指标，导致目前的交互界面几乎没给人类留出持续参与的空间。

但在实际工作中，需求极少能在最初就交代得完美无缺。高质量产出往往需要人持续介入与反复调整，而现有的「回合制」机制恰恰缺乏这样的通道。

语言学者 Clark 和 Brennan 在 1991 年的研究表明：高效沟通依赖共在、同时性和并发性。双方需共处同一情境，同步接收和表达信息；同时，如 Walter Ong 在 1982 年关于「口语稍纵即逝性」的研究所示，对话的本质在于高频参与。结合哈耶克 1945 年的理论，真正有价值的知识正存在于这类即时的细节传递中。

现在的模型工作时，用户输入，AI 等待；AI 输出时，则对用户的即时反应一无所知。Thinking Machines 将此比喻为：面对紧迫分歧不去当面沟通，而是靠发邮件来回拉扯。

目前的实时语音市场存在两条存在局限的路线：大多数主流商业系统是靠在模型外接入语音活动检测（VAD）等组件拼接出的「伪实时」。

这种外挂组件的管理方式局限性明显：模型无法主动打断对话，无法对屏幕报错等视觉变化作即时反应，更难以胜任「边听边同传」这类高频并发任务。而另一方面，市场上虽然也出现了 Moshi、PersonaPlex 等无需 VAD 的原生全双工系统，但它们多为较小规模的模型，为了低延迟在综合智能水平上做出了妥协。

Thinking Machines 认同强化学习学者 Richard Sutton 的观点：依赖人工设计组件的系统最终会被通用学习赶超。交互能力必须成为模型原生的一部分。

为此，他们参考了业界在全双工语音交互与异步智能体上的探索（如 Seeduplex、Qwen-omni、MoshiRAG 等），从头训练了原生支持实时交互的系统。该系统由感知时间的「交互模型」（前台）和异步运行的「后台模型」（负责深层推理）协同工作。

基于时间对齐的微轮次分析 / 微轮次机制：模型以 200 毫秒为处理单元，持续交替处理输入与输出。用户的沉默、抢话均作为真实信息保留。

打破人为轮次边界后，模型能隐式追踪用户是在思考、让步、自我纠正还是邀请回应，无需独立的对话管理模块。它不仅能同步说话、中途插话，甚至能在边听边看的同时，并行调用工具、搜索网页或生成 UI 界面。

在模态处理上，他们省去了独立的大型编码器，音视频经轻量处理后直接与 Transformer 主体联合训练。同时，为满足高频处理要求，团队实现了「流式会话」机制并优化了底层算力与通信，避免反复重分配内存，确保了低延迟的稳定运行。

当遇到复杂任务时，前台会把完整上下文抛给后台，后台将结果流式返回，前台再伺机自然地融入对话，在保证实时响应的同时兼顾深度推理。针对新衍生的安全挑战，模型也进行了拒绝对话的拟真训练与防越狱的鲁棒性测试。

一份让主流模型集体关注的成绩单

测试中，这款名为 TML-Interaction-Small（活跃参数 12B）的模型表现亮眼。

在评估打断、背景音干扰的 FD-bench v1.5 基准中，TML 获 77.8 分，远超 GPT Realtime-2.0（46.8 分）和 Gemini（54.3 分），轮次切换延迟仅 0.40 秒。在需深度推理的 FD-bench v3 中，其响应质量/Pass@1（82.8/68.0）也稳压竞品高延迟版本。

在其他综合测试中，TML 同样展现了极强的平衡性：QIVD 音视频问答（54.0 分）、BigBench Audio（75.7/96.5 分）以及 IFEval 指令遵循（82.1/89.7 分），并在 Harmbench 保持了 99.0% 的安全拒绝率。虽然在部分纯智力单项上略微落后于 Qwen 3.5 Omni 或 GPT-2.0 极高延迟版，但它是唯一在响应速度与智能水平上实现双优的模型。

为了更精准地衡量原生交互能力，Thinking Machines 自建了多项评测。

对比学术界现有的 StreamBridge、AURA 等文本输出原型，TML 实现了真正的语音并发输出。在考察主动发言的 TimeSpeak（得分 64.7）、同步纠错的 CueSpeak（得分 81.7）、持续视觉追踪的 RepCount-A（得分 35.4）以及看视频抢答的 ProactiveVideoQA 等单项测试中，TML 均取得有效成绩，而对比的主流模型在这些场景下几乎全部得零分或沉默以对。

当然，这套架构目前也有局限：长会话的上下文积累难以管理，且流式音视频高度依赖网络稳定性。此外，该架构尚未扩展至更大参数量的版本，计划于今年晚些时候发布。

和 AI 说话，越来越像在和人说话

参与这项工作的研究员 Neal Wu 概括了他们的初衷：「如果和 AI 协作不再是对着聊天框输入，而更像在和另一个人说话，会怎样？」原生支持交互的模型，就是他们给出的初步尝试。

Thinking Machines CTO Soumith Chintala 则将整体路线图分为三步：第一步，提升人与 AI 之间的信息带宽；第二步，拉高人类加 AI 的智能上限；第三步，帮助人类在未来的体系中继续发挥核心作用。

在许多 AI 研发方向倾向于让模型更自主、减少人类介入的当下，Thinking Machines 选择了一条不同的路径：让人类的介入变得更流畅，让沟通带宽本身成为一种基础设施。

翁荔更是在推文中提到：「写了 137 页日志，产出了 12 个版本。结果发现，人与人之间的协作，对于改善人与 AI 之间的协作至关重要。」这或许意味着，要研发出一个能理解人类沟通节奏的模型，研究者首先需要深刻体会人类沟通的本质。

不过，一个持续在场、能即时感知情绪和状态的 AI，与传统的工具型 AI 带来的心理感受是截然不同的。当模型在每次交互中的在场感越来越强，人们对它的认知和依赖会发生怎样的改变？

这些触及灵魂的拷问，论文并没有作答，只是留下了一个关于「实时对齐与安全」的开放性方向。但可以预见的是，当科幻电影里的情节真正降临桌面，AI 变成一个一个始终陪伴左右的「存在」时，我们真正需要对齐的，或许不只是模型，更是人类自己在新世界中的位置。

我们正在招募伙伴

📮 简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」（请随简历附上项目/作品或相关链接）

更多岗位信息请点击这里🔗