开发者新闻 | 深度学习正在改变 ASR 和 TTS 算法

深度学习正在改变 ASR 和 TTS 算法

语音是与 AI 驱动的应用程序进行通信的主要手段之一。从虚拟助手到数字化身，基于语音的界面正在改变我们通常与智能设备交互的方式。

语音识别和语音合成的深度学习技术正在帮助改善用户体验——思考类似人类的反应和自然的音调。

如果您计划构建和部署支持语音 AI 的应用程序，本文将概述自动语音识别 (ASR) 和文本到语音 (TTS) 技术如何因深度学习而发展起来的。我还提到了当今现代应用程序中使用的一些流行、最先进的 ASR 和 TTS 架构。

揭秘语音 AI

每天无论您是在虚拟世界中与数字人交谈，还是在联络中心与真人交谈，都会产生数千亿分钟的音频。语音 AI 可以帮助自动化所有这些音频分钟。

语音 AI 包括 ASR、TTS 和相关任务等技术。有趣的是，这些技术并不新鲜，而且已经存在了50年。

语音 AI 焦点：用虚拟代理重新想象客户服务

虚拟代理或语音助手已经存在相当长的一段时间。但在过去十年中，随着 AI 的使用，它们的实用性和受欢迎程度都出现了爆炸式增长。

根据 Gartner 的数据，到 2025 年，虚拟助理将自动完成呼叫中心座席 75% 的任务，而 2021 年这一比例为 30%。这为呼叫中心座席和客户都带来了更好的体验。

从医疗保健到金融服务，AI 已经改变了客户服务，使其更加高效和个性化。如今的虚拟代理由语音 AI 技术提供支持，不仅可以处理呼叫中心的重复客户请求，还可以帮助人类代理以比以往更快的速度解决复杂的问题。

NVIDIA 的合作伙伴 Gridspace 总部位于洛杉矶，是一家语音技术和 AI 软件公司，致力于创建声音自然的虚拟代理和语音机器人，以增强客户服务体验。他们也是 NVIDIA Inception Program，该计划通过提供尖端技术和 NVIDIA 专家帮助初创公司发展。

财富 10 强医疗保健公司进行的一项研究报告称，72% 的消费者认为 Gridspace 虚拟代理听起来比一家领先和知名公司的虚拟代理更像人类。

点击“阅读原文”了解更多开发者新闻