腾讯提出基于深度学习的空间音频Ambisonic编码方法

更好的音色和空间质量以及更高的源定位精度

（映维网Nweon 2025年02月18日）普林斯顿大学和腾讯团队认为，像Ambisonics这样的空间音频格式非常适合于虚拟现实等应用。传统的Ambisonic编码方法通常依赖于球形麦克风阵列来实现有效的声场捕获，而这限制了它们在实际场景中的灵活性。

针对所述问题，研究人员提出了一种基于深度学习的方法，利用两阶段网络架构将圆形麦克风阵列信号编码为多扬声器环境中的Second-Order Ambisonic（SOA）。另外，他们通过一种基于空间功率映射的新型损失函数来正则化Ambisonic信号的信道间相关性，以及一种信道置换技术来解决使用水平圆形阵列编码垂直信息的模糊性。

对模拟语音和噪声数据集的评估表明，所述方法始终优于传统的信号处理（SP）和基于深度学习的方法，提供了更好的音色和空间质量以及更高的源定位精度。

Ambisonics是一种广泛使用的空间音频格式，可用于捕获、合成和渲染声场。它利用球谐（SH）作为基函数，将声场分解为不同阶的Ambisonics，每个声道编码不同的空间信息。通常，球形传声器阵列捕获的声场通过线性变换被编码为Ambisonics信号。

相关编码信号可以用来精确地再现声场，或者通过特定配置的扬声器，或者通过双耳处理呈现给设备。为了保证高保真的空间音频再现，必须尽量减少在Ambisonic编码过程中引入的错误。

实际使用的传声器阵列从根本上限制了Ambisonics编码的有效性。理想情况下，需要多个均匀分布在一个球体上的麦克风来获得高空间分辨率的双声信号。然而，取决于应用场景，实际的麦克风阵列通常具有有限的分布不规则。这可能导致诸如空间混叠和捕获声场的空间覆盖差等问题，最终降低编码后的声场保真度。

为了减轻实际麦克风阵列的不利影响，已有研究探索了不同的编码方法，例如添加约束来正则化Ambisonic通道的正交性，以及根据声源方向和扩散参数化声场等等。最近，深度学习已应用于Ambisonic编码和其他与空间音频相关的任务，例如从单声道麦克风记录生成空间音频，上采样到高阶，并估计从现有阵列的虚拟麦克风信号。

空间音频生成方法利用视觉数据来学习声源的空间分布，促进了Ambisonic编码过程。然而，仅从麦克风信号进行编码十分具有挑战性，因为它需要从麦克风阵列捕获的幅度和相位信息中隐式提取空间线索。

有研究人员在采用基于卷积的DNN学习麦克风信号到Ambisonic信号的转换。DNN由不同频带的卷积层组成，而损失函数中有额外的范数惩罚来加强网络稀疏性。尽管所述方法与传统方法相比表现出相似或更好的编码性能，但在实践中，它们可能无法很好地泛化到其他阵列布局，因为所使用的网络架构和损失函数并不是针对编码问题以及Ambisonic信号的固有特性（例如正交性）而定制。

在研究中中，普林斯顿大学和腾讯团队的目标是在更具挑战性的条件下进一步提高基于深度学习的Ambisonic编码性能，并用于多扬声器场景。

具体而言，研究人员选择位于水平面上的圆形麦克风阵列来编码全3D Ambisonic信号。为了指导深度神经网络学习声场的空间结构，他们提出了一个模拟平面波分解和双声合成过程的两阶段网络架构。

另外，团队引入了一个基于空间功率映射的损失函数来正则化双噪信号的信道间相关。为了解决使用水平麦克风阵列编码垂直声场信息的模糊性，他们提出了一种通道排列过程，以在模型推断时区分上下半空间。针对现有的基于SP和深度学习的编码方法对所提出方法进行了评估，包括音质，空间音质和源定位精度

相关论文：Neural Ambisonic Encoding For Multi-Speaker Scenarios Using A Circular Microphone Array

https://paper.nweon.com/16192

总的来说，团队提出了一种基于深度学习的Ambisonic编码方法，并设计用于多扬声器场景。两阶段网络架构模拟平面波分解和双声合成，结合信道排列和空间损失函数来增强空间信息保存。用模拟语音和噪声数据集进行的评估表明，与现有的基线方法相比，所述方法显著提高了空间音频质量和源定位精度。未来的工作可以探索不同麦克风阵列布局的影响，并进一步优化网络。

更多信息请访问GitHub页面。

---
原文链接：https://news.nweon.com/127797