早期各种 AI 大模型呈现爆发性增长时,人们关注点大都落在文本交互上。通过文字与 AI 进行沟通交流,下达指令,让其帮忙撰写报告,编写代码。
随着技术进展的不断突破,以及各种真实需求的挖掘。大家开始意识到,要使 AI 理解人类意图,变得更为智能,首先要让它具备各种人类感官,其中包括视觉、听觉,甚至触觉。
于是,多模态模型开始涌现,而 AI 语音,便是近年里面备受关注的一个重点方向。
在我看来,现实世界中,人与人之间交流最频繁、信息密度最高的,还是语音。
在这个星球上,每天有数十亿人在开口交流并产生大量信息,这些源自于真实场景的数据,是 AI 学习人类活动极佳的第一手资料。
因此,站在开发者角度,要拥抱 AI 浪潮,智能语音无疑是一个最好的切入口。AI 口语陪练、情感陪伴、语音助手、实时翻译等等,都已经在资本市场上获得了认可。
话虽如此,但当你实际上手开发时,便会面临数据繁杂、语音延迟高、无法打断 AI 说话等一系列令人头痛的问题。
那么,有没有一款工具,能解决上述问题,在开发 AI 语音应用时,让我们少走弯路,达到事半功倍的效果呢?
有的兄弟,有的。
今天在这里,给大家推荐一款我在 GitHub 上寻觅许久的专业开源语音框架:TEN Framework。
作为一个支持实时对话的 Voice Agent 引擎,它能让开发者在短短几分钟内,快速搭建一个可进行音频交互的 AI Agent,从零打造出属于你的 AI 语音应用。
作为一款技术框架,该项目仅发布一年,便斩获 7400+ Star,登顶 GitHub 热榜第一,并在丰富的场景使用案例和插件生态系统加持下,一跃成为目前主流的 AI 语音框架。
GitHub:https://github.com/TEN-framework/TEN-framework
在框架的诸多功能中,我最喜爱的,当属里面那个可视化工具:TMAN Designer,它能让你所见即所得,通过拖拽 UI,就能快速搭建出一款 AI 语音机器人。
就像下面视频演示的一样:
从功能上看,TEN 实现了低延迟、可打断的 AI 交互体验。在跟 AI 语音聊天时,可做到 1s 的低延迟通信,打断说话信息也能正常传递,还原最为真实的对话场景。
除了语音之外,TEN 还支持文本、图像的输入与输出,为你提前解决多模态数据传输复杂的问题,让 AI 可以接收更为丰富的信息,构建更复杂的音视频交互应用。
目前在 GitHub 上,已有不少开发者基于 TEN 做出了多款实用的 AI 演示案例。
比如,通过 Trulience avatars 提供的 3D 数字虚拟形象,结合 TEN,即可做出风格多样化的 AI 智能语音助理,让你直接跟数字人开始聊天。
利用文生图 + 语音模型,制造场景氛围感十足的有声故事本。
在这个过程中,我们可以用语音跟 AI 讨论故事内容,场景图片,让它更高效迭代内容。
除上述提到的案例外,项目 GitHub 页面上还有许多精彩案例可供参考,如电脑应用控制、语音硬件机器人、电话智能客服等等。
在知晓 TEN 能够做什么之后,下面我们来看下具体怎么做。
从零开始,打造个人专属 AI 语音助理
首先是项目部署,TEN 自带多种安装方式,本地可以 Docker 一键部署,开箱即用。
考虑到大家手头上的不同电脑配置,以及网络稳定性,为了演示方便,下面我将采用 TEN 提供的另一种更为简单的部署方式,那便是 GitHub Codespace。
GitHub Codespace 云端平台有许多好处,比如运行效率高、网络稳定、部署方便,对新手来说再好不过。
话不多说,开搞。
1、首先访问 TEN 的 GitHub 项目,创建一个新的 codespace:
https://github.com/TEN-framework/TEN-framework
2、等待环境初始化完成,就能看到一个在线版的 VSCode 代码编辑器,默认打开 TEN 项目代码。
正式运行 TEN 之前,需要先进行简单的环境配置。
执行命令复制配置文件:
在 .env
文件里的填写相关 API Key,比如:
可以使用声网处理 AI 语音传输部分; 使用 OpenAI 模型处理文本;使用 Azure 处理文本转语音。
这里根据个人需求,自由接入想要的模型即可。
填写完相关密钥配置后,再执行如下命令构建智能体:
当看到如下信息输出,就说明 TEN Agent 已成功构建。
万事俱备,现在我们可以启动服务器了:
成功启动后,终端上会提供一个服务器地址,在浏览器上访问:
即可看到可视化拖拽式的 TEN Agent 工作流构建界面:
在这里,还可以自由选择配置 LLM、文本转语音(TTS)、语音转文本(STT)等各种模型。
在对应节点右键,选择「更新属性」,可配置模型信息:
3、配置完成,右键点击画布空白处,选择「管理应用」,点击「运行」图标:
接着,弹出勾选「使用 TEN Agent 运行」选项,点击「运行」按钮:
即可在这里测试我们构建的首个语音 Agent 应用。
通过上面的简单几步,即可快速构建一个实时对话 AI Agent 应用。
你也可以访问官方提供的 Demo,来直接上手体验实际效果:https://agent.theTEN.ai
为了适配各种不同使用场景,TEN 支持包括 Deepseek、OpenAI、Gemini 等全球各大主流 STT、LLM、TTS 厂商。更重要的是,TEN 支持开发者主动接入自己想要的各种模型,bring your own models。开发者在使用过程中,可随时任意切换。
在集成上,TEN 可以快速接入 Dify 与 Coze,只需配置 bot ID/API,就能让机器人开口说话。或者通过 MCP,灵活接入到自己产品。
在兼容性上,除了适配所有主流操作系统,TEN 还支持 C++/Go/Python/Node.JS 等编程语言和框架。
从上述功能不难看出,TEN Framework 项目的最终愿景,是在人机语音交互过程中,为 AI 与人类搭建一条极为稳固的沟通桥梁,确保所有的语音模型,都能呈现出最佳效果。让开发者专注于业务本身,而不是无休止的调试。
写在最后
上周的 Apple 产品发布会,苹果首次发布了带有 AI 翻译功能的 AirPods Pro 3,用户双方通过佩戴耳机,即可实现无障碍的跨语言交流。产品一经亮相,便惊艳全场。
有时你不得不佩服苹果的影响力,虽然前两年市面上已经有类似的语音翻译产品,但这次新耳机亮相,大众才开始将目光真正聚焦到 AI 语音应用市场上。
但我一直认为,耳机或将成为人类首个最为通用的赛博装备。
除了穿戴轻便、交互简单,更为重要的是,语音数据处理现在变得越来越高效与标准化。
如果大模型可以通过大量的语音信息来训练学习,再将其能力反哺给用户,那其发展前景将不可限量。
在可预见的未来,各种智能语音应用的爆发,将推动 AI 技术的下一轮发展。
今天给大家介绍的 TEN Framework,可以说是在当前 AI 浪潮中,开发者必备的一件神兵利器。
它不仅提前解决了 AI 语音在实际开发中可能面临的种种问题,还能借助可视化工具,大幅降低学习操作门槛。
此外,从项目的安装部署、性能分析、开发测试,到每个接口的具体使用,TEN 都提供了非常详尽的中文文档可供参考。
在开发 AI 语音应用这条道路上,TEN 已然给我们铺平了道路。下一步你只需大胆发挥创意,随心所欲的去创作即可。
希望在不久后,能有幸看到各位的 AI 产品问世。
上述提到的所有功能代码,均已在 GitHub 开源,感兴趣的同学可前往了解。
今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!