社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
机器学习学术速递[5.21]
机器学习学术速递[5.22]
2026必看AI干货!《大模型/AIGC/GPT-4/Transformer/DL/KG/NLP/C...
GitHub帝国崩塌前夜:源码泄露、18年老粉决裂,微软失去1.5亿开发者
Python+机器学习实战:材料筛选|HER预测|d带中心|高通量计算全搞定!
2026必看AI干货!《大模型/AIGC/GPT-4/Transformer/DL/KG/NLP/C...
GitHub 上 1.6 万人点赞,组会、答辩PPT轻松搞定!
说出来我都不信:Linux 漏洞第4爆了 / Nginx 也继续爆漏洞
CVPR 2026:深度学习的「标准件」,正在被逐个拆掉
大裁员前夜Meta员工疯狂「薅羊毛」;腾讯操作系统层级AI助手“马维斯”正式上工;GitHub确认遭...
关注
Py学习
»
chatgpt
OpenAI 前 CTO 创业大模型首秀,第一剑先斩 ChatGPT 聊天框
AppSo
• 2 周前 • 45 次点击
2013 年的科幻电影《Her》中,操作系统 Samantha(萨曼莎)让观众首次具象化了理想的 AI 存在方式:不等你说完即可开口、能感知语气迟疑,且始终「在场」,而非被动等待唤醒。
十三年后,由 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 发布了一篇研究预览,其构建的交互模型在底层追求上,与 Samantha 的逻辑高度契合。
这篇题为《交互模型:人机协作的可扩展方案》的博客,全篇反复强调的核心便是一个词:「presence」——持续在场。
博客链接地址:https://thinkingmachines.ai/blog/interaction-models/
颇有意思的是,
2024 年正是 Mira Murati 在 OpenAI 主持发布了 GPT-4o 的高级语音模式,让人机交互开始更接近人与人的自然交流。
两年后,她带着出走的团队另起炉灶,却又把这件事从头做了一遍。
评论区的吐槽也是一条比一条犀利。
人类已被移出 AI 协作群聊
文章开篇指出,结合 METR 在 2025 年的研究报告,主流 AI 公司普遍倾向将「模型自主完成长任务」作为最重要的能力指标,导致目前的交互界面几乎没给人类留出持续参与的空间。
但在实际工作中,需求极少能在最初就交代得完美无缺。高质量产出往往需要人持续介入与反复调整,而现有的「回合制」机制恰恰缺乏这样的通道。
语言学者 Clark 和 Brennan 在 1991 年的研究表明:高效沟通依赖共在、同时性和并发性。双方需共处同一情境,同步接收和表达信息;同时,如 Walter Ong 在 1982 年关于「口语稍纵即逝性」的研究所示,对话的本质在于高频参与。结合哈耶克 1945 年的理论,真正有价值的知识正存在于这类即时的细节传递中。
现在的模型工作时,用户输入,AI 等待;AI 输出时,则对用户的即时反应一无所知。Thinking Machines 将此比喻为:面对紧迫分歧不去当面沟通,而是靠发邮件来回拉扯。
目前的实时语音市场存在两条存在局限的路线:大多数主流商业系统是靠在模型外接入语音活动检测(VAD)等组件拼接出的「伪实时」。
这种外挂组件的管理方式局限性明显:模型无法主动打断对话,无法对屏幕报错等视觉变化作即时反应,更难以胜任「边听边同传」这类高频并发任务。 而另一方面,市场上虽然也出现了 Moshi、PersonaPlex 等无需 VAD 的原生全双工系统,但它们多为较小规模的模型,为了低延迟在综合智能水平上做出了妥协。
Thinking Machines 认同强化学习学者 Richard Sutton 的观点:依赖人工设计组件的系统最终会被通用学习赶超。交互能力必须成为模型原生的一部分。
为此,他们参考了业界在
全双工语音交互与异步智能体
上的探索(如 Seeduplex、Qwen-omni、MoshiRAG 等),从头训练了原生支持实时交互的系统。该系统由感知时间的「交互模型」(前台)和异步运行的「后台模型」(负责深层推理)协同工作。
基于时间对齐的微轮次分析 / 微轮次机制
:模型以 200 毫秒为处理单元,持续交替处理输入与输出。用户的沉默、抢话均作为真实信息保留。
打破人为轮次边界后,模型能隐式追踪用户是在思考、让步、自我纠正还是邀请回应,无需独立的对话管理模块。它不仅能同步说话、中途插话,甚至能在边听边看的同时,并行调用工具、搜索网页或生成 UI 界面。
在模态处理上,他们省去了独立的大型编码器,音视频经轻量处理后直接与 Transformer 主体联合训练。同时,为满足高频处理要求,团队实现了「流式会话」机制并优化了底层算力与通信,避免反复重分配内存,确保了低延迟的稳定运行。
当遇到复杂任务时,前台会把完整上下文抛给后台,后台将结果流式返回,前台再伺机自然地融入对话,在保证实时响应的同时兼顾深度推理。针对新衍生的安全挑战,模型也进行了拒绝对话的拟真训练与防越狱的鲁棒性测试。
一份让主流模型集体关注的成绩单
测试中,这款名为 TML-Interaction-Small(活跃参数 12B)的模型表现亮眼。
在评估打断、背景音干扰的 FD-bench v1.5 基准中,TML 获 77.8 分,远超 GPT Realtime-2.0(46.8 分)和 Gemini(54.3 分),轮次切换延迟仅 0.40 秒。在需深度推理的 FD-bench v3 中,其响应质量/Pass@1(82.8/68.0)也稳压竞品高延迟版本。
在其他综合测试中,TML 同样展现了极强的平衡性:QIVD 音视频问答(54.0 分)、BigBench Audio(75.7/96.5 分)以及 IFEval 指令遵循(82.1/89.7 分),并在 Harmbench 保持了 99.0% 的安全拒绝率。虽然在部分纯智力单项上略微落后于 Qwen 3.5 Omni 或 GPT-2.0 极高延迟版,但它是唯一在响应速度与智能水平上实现双优的模型。
为了更精准地衡量原生交互能力,Thinking Machines 自建了多项评测。
对比学术界现有的 StreamBridge、AURA 等文本输出原型,TML 实现了真正的语音并发输出。在考察主动发言的 TimeSpeak(得分 64.7)、同步纠错的 CueSpeak(得分 81.7)、持续视觉追踪的 RepCount-A(得分 35.4)以及看视频抢答的 ProactiveVideoQA 等单项测试中,TML 均取得有效成绩,而对比的主流模型在这些场景下几乎全部得零分或沉默以对。
当然,这套架构目前也有局限:
长会话的上下文积累难以管理,且流式音视频高度依赖网络稳定性。此外,该架构尚未扩展至更大参数量的版本,计划于今年晚些时候发布。
和 AI 说话,越来越像在和人说话
参与这项工作的研究员 Neal Wu 概括了他们的初衷:「如果和 AI 协作不再是对着聊天框输入,而更像在和另一个人说话,会怎样?」原生支持交互的模型,就是他们给出的初步尝试。
Thinking Machines CTO Soumith Chintala 则将整体路线图分为三步:
第一步,提升人与 AI 之间的信息带宽;第二步,拉高人类加 AI 的智能上限;第三步,帮助人类在未来的体系中继续发挥核心作用。
在许多 AI 研发方向倾向于让模型更自主、减少人类介入的当下,Thinking Machines 选择了一条不同的路径:让人类的介入变得更流畅,让沟通带宽本身成为一种基础设施。
翁荔更是在推文中提到:「写了 137 页日志,产出了 12 个版本。结果发现,人与人之间的协作,对于改善人与 AI 之间的协作至关重要。」这或许意味着,要研发出一个能理解人类沟通节奏的模型,研究者首先需要深刻体会人类沟通的本质。
不过,一个持续在场、能即时感知情绪和状态的 AI,与传统的工具型 AI 带来的心理感受是截然不同的。当模型在每次交互中的在场感越来越强,人们对它的认知和依赖会发生怎样的改变?
这些触及灵魂的拷问,论文并没有作答,只是留下了一个关于「实时对齐与安全」的开放性方向。但可以预见的是,
当科幻电影里的情节真正降临桌面,AI 变成一个一个始终陪伴左右的「存在」时,我们真正需要对齐的,或许不只是模型,更是人类自己在新世界中的位置。
我们正在招募伙伴
📮 简历投递邮箱
hr@ifanr.com
✉️ 邮件标题
「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
更多岗位信息请点击这里🔗
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/196204
登录后回复