GitHub 热榜第一，暴涨 7400+ GitHub Star！

早期各种 AI 大模型呈现爆发性增长时，人们关注点大都落在文本交互上。通过文字与 AI 进行沟通交流，下达指令，让其帮忙撰写报告，编写代码。

随着技术进展的不断突破，以及各种真实需求的挖掘。大家开始意识到，要使 AI 理解人类意图，变得更为智能，首先要让它具备各种人类感官，其中包括视觉、听觉，甚至触觉。

于是，多模态模型开始涌现，而 AI 语音，便是近年里面备受关注的一个重点方向。

在我看来，现实世界中，人与人之间交流最频繁、信息密度最高的，还是语音。

在这个星球上，每天有数十亿人在开口交流并产生大量信息，这些源自于真实场景的数据，是 AI 学习人类活动极佳的第一手资料。

因此，站在开发者角度，要拥抱 AI 浪潮，智能语音无疑是一个最好的切入口。AI 口语陪练、情感陪伴、语音助手、实时翻译等等，都已经在资本市场上获得了认可。

话虽如此，但当你实际上手开发时，便会面临数据繁杂、语音延迟高、无法打断 AI 说话等一系列令人头痛的问题。

那么，有没有一款工具，能解决上述问题，在开发 AI 语音应用时，让我们少走弯路，达到事半功倍的效果呢？

有的兄弟，有的。

今天在这里，给大家推荐一款我在 GitHub 上寻觅许久的专业开源语音框架：TEN Framework。

作为一个支持实时对话的 Voice Agent 引擎，它能让开发者在短短几分钟内，快速搭建一个可进行音频交互的 AI Agent，从零打造出属于你的 AI 语音应用。

作为一款技术框架，该项目仅发布一年，便斩获 7400+ Star，登顶 GitHub 热榜第一，并在丰富的场景使用案例和插件生态系统加持下，一跃成为目前主流的 AI 语音框架。

GitHub：https://github.com/TEN-framework/TEN-framework

在框架的诸多功能中，我最喜爱的，当属里面那个可视化工具：TMAN Designer，它能让你所见即所得，通过拖拽 UI，就能快速搭建出一款 AI 语音机器人。

就像下面视频演示的一样：

从功能上看，TEN 实现了低延迟、可打断的 AI 交互体验。在跟 AI 语音聊天时，可做到 1s 的低延迟通信，打断说话信息也能正常传递，还原最为真实的对话场景。

除了语音之外，TEN 还支持文本、图像的输入与输出，为你提前解决多模态数据传输复杂的问题，让 AI 可以接收更为丰富的信息，构建更复杂的音视频交互应用。

目前在 GitHub 上，已有不少开发者基于 TEN 做出了多款实用的 AI 演示案例。

比如，通过 Trulience avatars 提供的 3D 数字虚拟形象，结合 TEN，即可做出风格多样化的 AI 智能语音助理，让你直接跟数字人开始聊天。

利用文生图 + 语音模型，制造场景氛围感十足的有声故事本。

在这个过程中，我们可以用语音跟 AI 讨论故事内容，场景图片，让它更高效迭代内容。

除上述提到的案例外，项目 GitHub 页面上还有许多精彩案例可供参考，如电脑应用控制、语音硬件机器人、电话智能客服等等。

在知晓 TEN 能够做什么之后，下面我们来看下具体怎么做。

从零开始，打造个人专属 AI 语音助理

首先是项目部署，TEN 自带多种安装方式，本地可以 Docker 一键部署，开箱即用。

考虑到大家手头上的不同电脑配置，以及网络稳定性，为了演示方便，下面我将采用 TEN 提供的另一种更为简单的部署方式，那便是 GitHub Codespace。

GitHub Codespace 云端平台有许多好处，比如运行效率高、网络稳定、部署方便，对新手来说再好不过。

话不多说，开搞。

1、首先访问 TEN 的 GitHub 项目，创建一个新的 codespace：

https://github.com/TEN-framework/TEN-framework

2、等待环境初始化完成，就能看到一个在线版的 VSCode 代码编辑器，默认打开 TEN 项目代码。

正式运行 TEN 之前，需要先进行简单的环境配置。

执行命令复制配置文件：

cp ./.env.example .env

在 .env 文件里的填写相关 API Key，比如：

可以使用声网处理 AI 语音传输部分；使用 OpenAI 模型处理文本；使用 Azure 处理文本转语音。

这里根据个人需求，自由接入想要的模型即可。

填写完相关密钥配置后，再执行如下命令构建智能体：

task use

当看到如下信息输出，就说明 TEN Agent 已成功构建。

万事俱备，现在我们可以启动服务器了：

task run

成功启动后，终端上会提供一个服务器地址，在浏览器上访问：

即可看到可视化拖拽式的 TEN Agent 工作流构建界面：

在这里，还可以自由选择配置 LLM、文本转语音（TTS）、语音转文本（STT）等各种模型。

在对应节点右键，选择「更新属性」，可配置模型信息：

3、配置完成，右键点击画布空白处，选择「管理应用」，点击「运行」图标：

接着，弹出勾选「使用 TEN Agent 运行」选项，点击「运行」按钮：

即可在这里测试我们构建的首个语音 Agent 应用。

通过上面的简单几步，即可快速构建一个实时对话 AI Agent 应用。

你也可以访问官方提供的 Demo，来直接上手体验实际效果：https://agent.theTEN.ai

为了适配各种不同使用场景，TEN 支持包括 Deepseek、OpenAI、Gemini 等全球各大主流 STT、LLM、TTS 厂商。更重要的是，TEN 支持开发者主动接入自己想要的各种模型，bring your own models。开发者在使用过程中，可随时任意切换。

在集成上，TEN 可以快速接入 Dify 与 Coze，只需配置 bot ID/API，就能让机器人开口说话。或者通过 MCP，灵活接入到自己产品。

在兼容性上，除了适配所有主流操作系统，TEN 还支持 C++/Go/Python/Node.JS 等编程语言和框架。

从上述功能不难看出，TEN Framework 项目的最终愿景，是在人机语音交互过程中，为 AI 与人类搭建一条极为稳固的沟通桥梁，确保所有的语音模型，都能呈现出最佳效果。让开发者专注于业务本身，而不是无休止的调试。

写在最后

上周的 Apple 产品发布会，苹果首次发布了带有 AI 翻译功能的 AirPods Pro 3，用户双方通过佩戴耳机，即可实现无障碍的跨语言交流。产品一经亮相，便惊艳全场。

有时你不得不佩服苹果的影响力，虽然前两年市面上已经有类似的语音翻译产品，但这次新耳机亮相，大众才开始将目光真正聚焦到 AI 语音应用市场上。

但我一直认为，耳机或将成为人类首个最为通用的赛博装备。

除了穿戴轻便、交互简单，更为重要的是，语音数据处理现在变得越来越高效与标准化。

如果大模型可以通过大量的语音信息来训练学习，再将其能力反哺给用户，那其发展前景将不可限量。

在可预见的未来，各种智能语音应用的爆发，将推动 AI 技术的下一轮发展。

今天给大家介绍的 TEN Framework，可以说是在当前 AI 浪潮中，开发者必备的一件神兵利器。

它不仅提前解决了 AI 语音在实际开发中可能面临的种种问题，还能借助可视化工具，大幅降低学习操作门槛。

此外，从项目的安装部署、性能分析、开发测试，到每个接口的具体使用，TEN 都提供了非常详尽的中文文档可供参考。

在开发 AI 语音应用这条道路上，TEN 已然给我们铺平了道路。下一步你只需大胆发挥创意，随心所欲的去创作即可。

希望在不久后，能有幸看到各位的 AI 产品问世。

上述提到的所有功能代码，均已在 GitHub 开源，感兴趣的同学可前往了解。

GitHub：https://github.com/TEN-framework/TEN-framework
官网：https://www.theTEN.ai
Demo：https://agent.theTEN.ai

今天的分享到此结束，感谢大家抽空阅读，我们下期再见，Respect！