2018年11月05日阅读 30

体验为王的年代，从视频优化到QoE，机器学习实践之路

内容来源：2018 年 09 月 07 日，上海交通大学教授宋利在“RTC 2018实时互联网大会”上进行的《机器学习在QoE中的应用实践》演讲分享。IT 大咖说作为独家视频合作方，经主办方和讲者审阅授权发布。

阅读字数：3112 | 8分钟阅读

获取嘉宾演讲视频及PPT，请点击：t.cn/EwQ9od6

摘要

本次演讲将围绕两方面的技术进展进行剖析与分享，基于AI的视频编码及处理技术，以及视频体验联盟近期推出的技术规范-uVES，和业内同行探讨AI与QoE结合的新需求和新场景。

QoE

以前在服务行业中我们经常会讲到QoS，而现在更多的是在谈论QoE，即体验为王的时代，从涉及内容来看QoE的维度更高一些。

QoE主要有3个影响因素。第一个当然就是主体了，以人为主体是QoE的标志，如果是以客观事物为主体，那就是QoS了。第二个是system，即承载QoE服务的基础设施、通信网路、编解码。第三个是context，翻译过来就是场景，在不同场景下QoE会有所不同。

QoE管理

过去我们通常会将QoE放在较低的位置，简单对应的话，相当于测试工程师和开发工程师的关系，开发工程师开发完系统后由测试工程师进行测试然后反馈。QoE的管理除开测试和反馈外，还存在一个建模的过程，通过模型来实现自动化。

QoE评价

我们可以从不同的维度来看待QoE。首先是水平视角，上图是典型的从头端到用户端的基本流程，源数据经过采集编码后通过网络到达终端，最后呈现给用户。其中所有的要素都会对最终体验产生影响，若单独考虑其中一个因素会不利于后续优化。

另一种是垂直视角，将QoE转化成量化的指标，然后进行定量刻画形成一个评价系统。上图是在通信领域中常用的指标分类方式，底层是原始数据参数，传输的是一些基本信息，比如带宽、抖动、网络等。第二层为KPI，这些是在监控的时候抓取的指标，比如bug指标、延迟指标。再上层为KQI，基于KPI生成的关键质量指标，还有KPI为涉及的部分，音频、视频、用户交互等。最终这些综合起来就是QoE。

QoE -> QoS

如果将QoS抽象成某一指标，那它与QoE的关系大致是上图这样。这条描述线和日常生活中的感受应该相差不大，就拿丢包来说，刚开始只有少量的时候，几乎感受不到，到达某一阶段后就逐渐下降，形成曲线。

曲线的刻画有多种方式，上面是用的较多的几个。在网络点击、下载速度等方面，weber Fechner Law绘制的曲线相对准确。IQX在网络丢包和网络质量上效果会更好些。这些方式主要适用于单指标的情况，多维度的时候效果不太好确定。

VQA-视频质量评价

在视频领域与QoE相关联是VQA，VQA-视频质量评价分为主观评价和客观评价。在做QoS之前要进行主观评测，在大规模部署或商业应用的时候还需要有客观评测。

在人工智能之前，多媒体领域中学术界发布了相当数量的VQA文章。有意思的是该领域中，学术界和工业界的有很大分歧，工业界很少会用学术界的成果。个人认为其中一个原因就在于数据集和侧重点上，学术界可能更多的是在小数据集上进行测试研究，很难满足工业界的各种场景。

上图描述了不同的评价方式，对于规模化部署来说，最有价值的是无参考评价这条线。

uVES

视频用户体验发展现状

uVES的提出是鉴于当前视频业务的快速发展下人们对用户体验的重视。从目前国内的情况来看，视频产业正从强调用户规模走向提升服务品质。

不过这其中也存在各种问题，比如不同服务商和内容商提供的视频服务的用户体验存在差异，缺乏创业应用的统一标准；超高清视频服务的用户体验比高清和标清视频服务的用户体验存在更大的差距；编码技术（AVS2，HEVC等）和新服务类型（HDR，AR，VR等）面临新的挑战。

ITU

其实在此之前ITU已经做了很多工作，而且像华为、中兴、以及一些运营商在ITU中也有一定的贡献，所以我们借鉴了很多ITU的组织结构。

在ITU中根据复杂度和应用场景，QoE和QoS又被进一步划分为多个层级，包括规划模型、包层模型、比特流成模型、媒体层模型，除开单独适用外，还可以将他们混合应用。

简单介绍下这几个模型。媒体层模型是通过内容分析预测视频质量（对比度、模糊度、色调），输入为PVS，即处理后的音视频序列内容。

比特流层模型是通过提取、分析视频传输层编码信息预测视频质量（复杂度、丢包、花屏参数），输入为视频刘的媒体载荷中的编解码信息或传输信息。

包层模型通过分包头信息预测视频质量（帧类型、大小、码率、卡顿），输入为传输的包头信息。网络规划模型通过业务KPI和业务KPI需求，推到出视频质量。

国内-视频体验联盟

视频体验联盟是立足于国内产业的实际发展，以实用性和有效性为根本原则，致力于国内标准和国际标准的有效对接，以在国内建立全面的视频服务用户体验评估体系，填补国内视频服务标准的空白。

工作组成立后推出了一套基础框架，我们称之为uVES 1.0，从3个维度来刻画QoE，视频的显示质量、视频交互体验、视频观看质量。uVES 1.1中又新增了4k相关的工作。

这是从纵向来看前面的3个指标，视频质量涉及信源和编码，观看体验涉及到传输和封装的质量，交互质量涵盖终端显示和信令交互。最终我们就能获得图中下方这样的计算公式，通过该模型我们能覆盖VoD、BTV、视频通话这3个应用场景。

这张图展示的就是整个模型和算法评价的方法和流程。首先是采集样本训练数据，然后将数据放入模型中，并根据模型设计的结果进行迭代，最后做规模化的评测和验证。

视频源质量

视频源质量的影响因素涉及到3个模型，显示质量Qs、压缩质量Qcod、播放质量Qv。

Mode 0的参数很简单，只有PPi、屏幕大小、码率。Mode 1提取的信息相对要多些，它要考虑到编解码的问题。Mode 2的参数包括模糊度、对比度、噪声这几个指标。

（Mode 0模型计算公式）

（Mode 1模型计算公式）

（Mode 2模型计算公式）

交互体验质量

（模型计算公式）

交互体验的质量，影响因素主要在于视频系统的响应速度，菜单操作的响应速度等指标。这方面可以参考下所谓的“2秒定律”，即视频加载在2秒内完成的服务是可以接受的，超过两秒后，加载时间每增加1秒约有10%的用户会选择放弃，但时间达到10秒时大多数用户会选择放弃。

观看体验质量

对观看体验的影响，一方面在于由丢包造成的花屏，另一方面则是卡顿现象。不过根据用户调研，发现受到过去使用惯性的影响，用户对不同尺寸终端的观看体验不同，比如同样是卡顿现象，在电视上的容忍度较低，在手机上容忍度就较高，用户体验受到的影响比较小。

（丢包情况模型计算公式）

（卡顿情况模型计算公式）

ML for QoE

对于视频质量评价，前面提到的主要是网络层和一些简单的模型，其实比较理想的情况是直接看视频，机器学习在这方面经历了3个典型的阶段。最初是特征加分类器，后续发展出了特征统计，最近用的比较多的是用 CNN做特征提取。

我们早期在低复杂度的场景中也用过特征加分类器的方式，它的好处在于出现问题，能够方便的定位原因。

以上为本次分享的内容，谢谢大家！（因为篇幅有限略有删减，完整内容请看视频）

今天看啥 - 高品质阅读平台
本文地址：http://www.jintiankansha.me/t/qeQsg1VWGU