腾讯音乐在音质 AIGC 的应用与实践

导读本次分享内容为腾讯音乐天琴实验室在音质 AIGC 方面的应用与实践。

主要包括以下几大部分：

1. 背景介绍

2. 音乐分离

3. 音乐超分

4. 臻品母带

5. 问答环节

分享嘉宾｜何礼腾讯音乐高级研究员

编辑整理｜张少华

内容校对｜李瑶

出品社区｜DataFun

背景介绍

QQ 音乐在 12.0 时，完善了音乐音质音效体系。

不仅在 SQ 和 HQ 上提高了标准，同时在音效方面提出了臻品 2.0，对标 Apple Music 的立体声空间音频。此外，还成为了国内首家引入杜比全景声的音乐流媒体平台。

AIGC 的应用主要聚焦在用户听歌“听得舒心”的场景。QQ 音乐多年来一直致力于音质的优化，包括算法、检测、标准制定、客户端的播放等各个方面。音乐 AIGC 的主要场景包括音乐分离、音乐超分和臻品母带。接下来分别进行介绍。

音乐分离

音乐分离是音乐领域的一个主流的研究方向。

从早期 18 年的语音分离技术 Conv-TasNet、20 年的 PG 频域分离算法 Spleeter，到 21 年字节提出的 ResUNetDecouple+，用更深的网络进行人声分离，再到 22 年 Meta 提出的 Hybrid Demucs 成为 MDX2021 的冠军。2023 年QQ 音乐与 AI lab 合作推出了一个子带分离模型 BSRNN，其基本原理包括两个方面，首先是对整个信号的一个频域进行子带的切分，切分之后从时域帧间序列建模，再对频域子带进行序列建模。

参考文献：Luo Y, Yu J. Music source separation with band-split rnn[J]. arXiv preprint arXiv:2209.15174, 2022.

这里的核心思想是音乐信号除了在时间上存在着很强的相互关系，同时在频域上也存在着很强的关系，BSRNN 从音乐信号的本质考虑分离任务，相比于之前直接用更深的网络，或者从 CV 等其他领域去迁移到音频领域的方式，对音乐领域可能具有更强的适配性。

音乐分离技术的第一个应用场景是臻品全景声，其基本原理是参考杜比全景声的制作流程，将音乐分离出多个轨道信号，再利用全景声的空间混音技术，获得有空间感的臻品全景声。

另外一些应用场景包括，TME 聚星平台、TME Studio 和启明星，直接面向用户提供音乐分离服务，包括声伴分离，6 轨分离，大家可以到官网体验。

除了在 QQ 音乐上应用音乐分离，在全民 K 歌上也有很多应用场景，比如全民 K 歌临境音效，作为 VIP 用户的核心权益，用户可以 DIY 音效，在分离之后，用户可以根据自己的喜好去设置乐器的不同摆放方位，获得实时空间感的体验。此外，音乐分离还可以用于全民 K 歌五维打分模板的制作，以及全民 K 歌伴奏库，帮助实现伴奏分离，补充全民 K 歌伴奏库。

另外，音乐分离还应用在懒人听书，比如长音频消伴场景。因为有些长音频，会存在背景音乐或噪声，而用户可能只关注于内容本身，这时可以通过干声分离技术为用户提供纯净版的音频，也就是更优质的音质选项。音乐分离技术还应用到了 AIGC-X，通过干声分离将歌曲人声分离出来，然后通过模型去判断这个人声是否是 AI 生成的。另一应用场景是启明星音色试唱，通过声伴分离，干声音色转换，再与伴奏 mix，生成一个新的试听 Demo。

音乐分离还会用在低频公益，这是专门针对听障人士的歌曲增强与补偿。还会有一些ToB 的应用场景。

整体来讲，BSRNN 技术的基本原理是基于频域切分子带的思路，切分后对时域和频域进行序列建模，从而更加适用于音乐任务。分离业务包括三类，一类是作为一个子模块支持各个业务，另一类是 ToC 的应用，直接提供给用户，最后一类是一些 ToB 的商务合作。

音乐超分

音乐超分主要应用在臻品音质 2.0，可以在端上对 CD 或者 MP3 的品质进行实时处理，能够达到 96kHz/24bit 的 Hi-Res 音质。

臻品母带

接下来介绍行业首创的一个功能，臻品母带。

什么是母带？回顾歌曲的整个制作流程，歌曲创作的时候包括作曲、编曲，在录制和混音之后，形成最终的母带，通常在流媒体下发的时候，会编码成各种不同的码率进行流媒体播放。母带可以认为是最原始的一个音质品质，通常至少会有 192 kHz/24bit。SQ 品质，标准可能最高会达到 48kHz/24bit。

实际上从右下图不同品质的频响曲线可以看到，通过一些有损或无损编码，SQ 跟母带主要差异集中在一些高频的部分，低频部分实际上是一致的。对于有损编码，主要涉及到 MP3 这类的编码方式，通常为了极限的压缩空间，除了高频与母带有差异，它的低频可能会有一些丢失，因为它对体系要求会更高一些。因此这里的母带可能需要对低频进行修复，对高频进行还原。

QQ 音乐臻品母带功能，实现了统一进行低频修复和高频还原，实现了更佳的优化效果，同时大幅减少了推理耗时，降低了计算成本。

最新的臻品母带 2.0 版本于 2023 年 7 月上线之后，业务指标有了明显的增长。

总结一下这一部分的内容，首先，母带是一个歌曲制作完成后的最初版本，它的格式能达到 192kHz/24bit。端侧模型，与 1.0 相比，2.0 采用了统一的模型进行低频修复和高频还原，主客观指标和推理耗时显著优于 1.0。在业务上线之后，PU、UV、人均时长等指标，以及口碑都有着比较明显的提升。

以上就是本次分享的内容，谢谢大家。

问答环节

Q：可以分离一段音频的不同人声吗？

A：不同人声可能有两种情况，一种是类似于合唱的情况，另一种是和声。合唱是 A 和 B 都会唱。和声的情况更常见，一般歌曲都有和声。QQ 音乐是可以将和声分离出来的。

以上就是本次分享的内容，谢谢大家。

分享嘉宾

INTRODUCTION

何礼

腾讯音乐

高级研究员

何礼，腾讯音乐高级研究员，主要从事音频算法的研究与应用，发明专利 17，在 ICME、EUSIPCO 等领域顶级会议发布论文数篇。目前主要负责音质 AIGC 相关技术的研发与落地，推动音乐分离技术广泛应用于 QQ 音乐、全民 K 歌、懒人听书等十余项业务，行业首创的臻品母带技术将国内数字音乐引领至 192kHz/24bit。

课程推荐

往期推荐

劳斯莱斯数据科学工程实践

EB 级存储规模 HDFS 在字节的探索与实践

蚂蚁大规模知识图谱构建及其应用

全民K歌音频技术：灵魂歌手的升级神器！

LLM 在马上消费金融的应用实践

字节数据可视化 VTable——不止是高性能表格组件

兼顾降本增效，StarRocks 3.0 关于存算这对CP分离的最佳"姿势"

爱奇艺大数据平台的技术演进与功能实践

因果推断在蚂蚁风控场景中的应用

字节在电商领域的数据治理体系和实践

腾讯TRS之元学习与跨域推荐的工业实战

大模型的高效训练和部署技术卷出新高度！

360跨模态视频开放式标签挖掘技术实践分享

点个在看你最好看