社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  aigc

腾讯音乐在音质 AIGC 的应用与实践

DataFunSummit • 3 月前 • 180 次点击  

导读 本次分享内容为腾讯音乐天琴实验室在音质 AIGC 方面的应用与实践。

主要包括以下几大部分:

1. 背景介绍

2. 音乐分离

3音乐超分

4. 臻品母带

5问答环节

分享嘉宾|何礼 腾讯音乐 高级研究员 

编辑整理|张少华

内容校对|李瑶

出品社区|DataFun


01

背景介绍

QQ 音乐在 12.0 时,完善了音乐音质音效体系。

不仅在 SQ 和 HQ 上提高了标准,同时在音效方面提出了臻品 2.0,对标 Apple Music 的立体声空间音频。此外,还成为了国内首家引入杜比全景声的音乐流媒体平台。

AIGC 的应用主要聚焦在用户听歌“听得舒心”的场景。QQ 音乐多年来一直致力于音质的优化,包括算法、检测、标准制定、客户端的播放等各个方面。音乐 AIGC 的主要场景包括音乐分离、音乐超分和臻品母带。接下来分别进行介绍。

02

音乐分离

音乐分离是音乐领域的一个主流的研究方向。

从早期 18 年的语音分离技术 Conv-TasNet、20 年的 PG 频域分离算法 Spleeter,到 21 年字节提出的 ResUNetDecouple+,用更深的网络进行人声分离,再到 22 年 Meta 提出的 Hybrid Demucs 成为 MDX2021 的冠军。2023 年QQ 音乐与 AI lab 合作推出了一个子带分离模型 BSRNN,其基本原理包括两个方面,首先是对整个信号的一个频域进行子带的切分,切分之后从时域帧间序列建模,再对频域子带进行序列建模。

参考文献:Luo Y, Yu J. Music source separation with band-split rnn[J]. arXiv preprint arXiv:2209.15174, 2022.
这里的核心思想是音乐信号除了在时间上存在着很强的相互关系,同时在频域上也存在着很强的关系,BSRNN 从音乐信号的本质考虑分离任务,相比于之前直接用更深的网络,或者从 CV 等其他领域去迁移到音频领域的方式,对音乐领域可能具有更强的适配性。

音乐分离技术的第一个应用场景是臻品全景声,其基本原理是参考杜比全景声的制作流程,将音乐分离出多个轨道信号,再利用全景声的空间混音技术,获得有空间感的臻品全景声。

另外一些应用场景包括,TME 聚星平台、TME Studio 和启明星,直接面向用户提供音乐分离服务,包括声伴分离,6 轨分离,大家可以到官网体验。

除了在 QQ 音乐上应用音乐分离,在全民 K 歌上也有很多应用场景,比如全民 K 歌临境音效,作为 VIP 用户的核心权益,用户可以 DIY 音效,在分离之后,用户可以根据自己的喜好去设置乐器的不同摆放方位,获得实时空间感的体验。此外,音乐分离还可以用于全民 K 歌五维打分模板的制作,以及全民 K 歌伴奏库,帮助实现伴奏分离,补充全民 K 歌伴奏库。

另外,音乐分离还应用在懒人听书,比如长音频消伴场景。因为有些长音频,会存在背景音乐或噪声,而用户可能只关注于内容本身,这时可以通过干声分离技术为用户提供纯净版的音频,也就是更优质的音质选项。音乐分离技术还应用到了 AIGC-X,通过干声分离将歌曲人声分离出来,然后通过模型去判断这个人声是否是 AI 生成的。另一应用场景是启明星音色试唱,通过声伴分离,干声音色转换,再与伴奏 mix,生成一个新的试听 Demo。

音乐分离还会用在低频公益,这是专门针对听障人士的歌曲增强与补偿。还会有一些ToB 的应用场景。

整体来讲,BSRNN 技术的基本原理是基于频域切分子带的思路,切分后对时域和频域进行序列建模,从而更加适用于音乐任务。分离业务包括三类,一类是作为一个子模块支持各个业务,另一类是 ToC 的应用,直接提供给用户,最后一类是一些 ToB 的商务合作。

03

音乐超分

音乐超分主要应用在臻品音质 2.0,可以在端上对 CD 或者 MP3 的品质进行实时处理,能够达到 96kHz/24bit 的 Hi-Res 音质。

04

臻品母带

接下来介绍行业首创的一个功能,臻品母带。

什么是母带?回顾歌曲的整个制作流程,歌曲创作的时候包括作曲、编曲,在录制和混音之后,形成最终的母带,通常在流媒体下发的时候,会编码成各种不同的码率进行流媒体播放。母带可以认为是最原始的一个音质品质,通常至少会有 192 kHz/24bit。SQ 品质,标准可能最高会达到 48kHz/24bit。

实际上从右下图不同品质的频响曲线可以看到,通过一些有损或无损编码,SQ 跟母带主要差异集中在一些高频的部分,低频部分实际上是一致的。对于有损编码,主要涉及到 MP3 这类的编码方式,通常为了极限的压缩空间,除了高频与母带有差异,它的低频可能会有一些丢失,因为它对体系要求会更高一些。因此这里的母带可能需要对低频进行修复,对高频进行还原。

QQ 音乐臻品母带功能,实现了统一进行低频修复和高频还原,实现了更佳的优化效果,同时大幅减少了推理耗时,降低了计算成本。

最新的臻品母带 2.0 版本于 2023 年 7 月上线之后,业务指标有了明显的增长。

总结一下这一部分的内容,首先,母带是一个歌曲制作完成后的最初版本,它的格式能达到 192kHz/24bit。端侧模型,与 1.0 相比,2.0 采用了统一的模型进行低频修复和高频还原,主客观指标和推理耗时显著优于 1.0。在业务上线之后,PU、UV、人均时长等指标,以及口碑都有着比较明显的提升。

以上就是本次分享的内容,谢谢大家。

05

问答环节

Q:可以分离一段音频的不同人声吗?

A:不同人声可能有两种情况,一种是类似于合唱的情况,另一种是和声。合唱是 A 和 B 都会唱。和声的情况更常见,一般歌曲都有和声。QQ 音乐是可以将和声分离出来的。
以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


何礼

腾讯音乐

高级研究员

何礼,腾讯音乐高级研究员,主要从事音频算法的研究与应用,发明专利 17,在 ICME、EUSIPCO 等领域顶级会议发布论文数篇。目前主要负责音质 AIGC 相关技术的研发与落地,推动音乐分离技术广泛应用于 QQ 音乐、全民 K 歌、懒人听书等十余项业务,行业首创的臻品母带技术将国内数字音乐引领至 192kHz/24bit。

课程推荐

往期推荐


劳斯莱斯数据科学工程实践

EB 级存储规模 HDFS 在字节的探索与实践

蚂蚁大规模知识图谱构建及其应用

全民K歌音频技术:灵魂歌手的升级神器!

LLM 在马上消费金融的应用实践

字节数据可视化 VTable——不止是高性能表格组件

兼顾降本增效,StarRocks 3.0 关于存算这对CP分离的最佳"姿势"

爱奇艺大数据平台的技术演进与功能实践

因果推断在蚂蚁风控场景中的应用

字节在电商领域的数据治理体系和实践

腾讯TRS之元学习与跨域推荐的工业实战

大模型的高效训练和部署技术卷出新高度!

360跨模态视频开放式标签挖掘技术实践分享

点个在看你最好看

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/166738
 
180 次点击