算法系列：视频播放器性能

2020-09-01

您已经完成了对相当棘手的内容的编码，其中一些内容比正常情况下涉及的质量控制要多一些，并且可以将其发布以供外部使用。但是首先您需要将其显示给管理层，因此您需要将流上传到预发布的登台服务器，并向老板发送URL文本。几分钟后，您会收到一条短信，询问为什么视频质量如此差。

老板对视频看起来不好表示什么，以及如何解决该问题？是否存在特定场景的问题，媒体服务器中的故障，老板用来观看视频的移动设备上过时的播放器甚至公司VPN上的带宽是否有问题？

欢迎来到我们称为流媒体的错综复杂的世界。

在算法系列的上一篇文章中，我们研究了CDN背后的数学原理。好处是CDN可以准确地提供它们所得到的，并且通常会做得很好。但是有时，获取方（例如，对点播内容进行编码）会引入一个异常，该异常会通过CDN到达最终用户，从而导致回放质量不合格。

在我刚才提到的场景中，编码，传输和回放的算法在最终用户的播放器应用程序中如何相交？这就是我们在本文中有关球员表现的内容。

编码和传送

“编码一次，到处交付”是我们在流媒体历史上一直听到的口号，这是我们取得不同成功水平的目标。在早期，这意味着使用正确的编解码器和播放器组合，因为编码器，媒体服务器和最终用户播放器都是同一生态系统的一部分，例如Adobe，Microsoft或Real提供的付费解决方案。

问题是“无处不在”仅意味着其中一种专有解决方案的围墙花园。如果一家公司使用Microsoft，但其客户使用Real，则每个流平台必须对内容进行一次编码。

H.264（又称高级视频编码，AVC）的出现使编码方面的情况变得更好了，H.264 通常以 MPEG-2或MPEG-4容器格式存储。但是随后，出现了各种不同的基于HTTP的交付方式，例如平滑流，Adobe HDS或Apple HTTP Live Streaming（HLS），它们至少需要以选定的比特率（称为自适应比特率或ABR）进行多种编码）或多个细分步骤，以每个专有的HTTP细分大小和清单文件进行交付。

幸运的是，这些问题中的大多数已通过一些专有格式解决，这些专有格式构成了行业标准 MPEG-DASH方法的基础。同时，我们已经看到Apple的HLS转向了DASH使用的分段MP4（fMP4）方法。

因此，在编码ABR内容时无需担心，因为所有内容都将在任何给定时间基于适当的带宽传送，对吗？是的，没有。将ABR内容传送到支持ABR的播放器时，需要考虑以下三件事。

有多少带宽可用？

这是ABR播放器性能正常的主要问题之一。这不仅是在任何特定时刻的问题，而且还是在特定时刻之前的问题，请记住（正如大多数股票经纪人在向潜在客户的推销中所提到的那样），过去的表现并不能保证未来的结果。这是关键的原因是，当涉及到清单或MPD文件中接下来要请求哪个比特率合适的ABR段时，很多研究都假定播放器具有最佳决策。

在PV '18上，Brightcove的Yuriy Reznik和其他同事在第23包视频研讨会上发表了题为“ ABR流的编码配置文件的最佳设计 ”的论文。虽然它描述了建模网络带宽的方法以及选择给定ABR流的可能性（稍后将对此进行更多介绍），但是值得考虑两种不同的算法方法来解决调度问题。

第一个方法涉及引入平滑滤波器以估计带宽，如“ 自适应HTTP流的调度和速率自适应算法的设计”中所述”，这是斯蒂芬·黑塞（Stephan Hesse）在Fraunhofer / HHI工作时写的，并且部分由欧盟框架计划7（FP7）开放内容感知网络（OCEAN）项目资助（见图1）。Reznik及其合著者在他们的论文中引用了它作为一种实用方式的示例，其中“ ABR流客户端估算可用带宽……然后决定接下来要提取的编码流”以尽可能多地利用可用带宽。

图1

黑塞写道：“ 我们发现适合我们目的的一种众所周知的平滑滤波器是指数移动平均滤波器。” “使用该滤波器，获得当前的平滑带宽估计 C k作为当前带宽测量值T k和先前的平滑估计C k-1的加权平均值，”得出以下公式：

C k =（1-α）T k +αCk -1

在该式（式3在文章中）， α ＆Element;（0,1），这意味着α之间的具体数量，但不包括0和1。因此，它是一个小数以上0.00但低于1.00，其形成什么黑森说是过滤器参数或“平滑因子”。

黑森继续指出，此递归的扩展产生以下公式：

哪里

是有效权重 w ^ 我施加到先前的测量Ť K-1个。

实际上，这允许将权重分配给特定的测量，然后将其“针对参数 α的几个可能值”绘制出来，以最佳地可靠地估计带宽。

黑塞写道：“ 平滑因子α的值会影响带宽估计值对过去测量的依赖程度。” “如果α接近0，则滤波器变为全通，它只会忽略所有过去的测量。”

但是，如果 α增加，则对最新测量的依赖将减少，而对先前测量的依赖将增加。为什么会这样呢？Hesse指出，客户端缓冲区可能能够吸收带宽的某些间歇性，而不需要切换到不同的ABR段带宽速率。

他写道：“另一方面，如果传输速率测量结果表明信道带宽发生永久性变化，我们还希望滤波器足够快速地做出反应。这对于允许量化单元切换速率（例如避免缓冲）非常重要。 -欠载……情况。”

如果我们（某种程度上）忽略带宽怎么办？

黑塞在其dispar.at博客中提到的第二种处理重新缓冲的方法是一种可能更好的方法，该方法是使用Lyapunov优化技术，通过基于缓冲占用率的算法来“最小化重新缓冲并最大化视频质量”。宝拉这种方法不测量带宽，而是根据在任何给定点填充最终用户视频播放器缓冲区的分段的百分比来推断带宽可用性。

BOLA在2016年的一篇论文中被介绍由Kevin Spiteri（马萨诸塞大学-阿默斯特大学），Rahul Urgaonkar（亚马逊）和Ramesh K. Sitaraman（Akamai）撰写。他们认为，具有临时算法的现代视频播放器了解甚少，因此在决定下一个HTTP传递的段的带宽速率时，没有得到适当的利用。他们写道，“ [We]制定了比特率自适应，这是一个效用最大化问题，其中包含了QoE的两个关键要素：用户体验到的视频的平均比特率和重新缓冲事件的持续时间。”

此外，他们引用Sitaraman在2013年所做的有关网络性能及其对观看者影响的研究，他们说：“我们考虑了影响用户总体QoE 的两个主要性能指标。” 第一个是“时间平均播放质量，它是用户观看的块的比特率的函数”，第二个是不重新缓冲所花费的总观看时间的一部分。

他们认为，BOLA是一种限制整个缓冲区避免持续消耗（欠载）或填充的方法。（请参见下面的图2。）缓冲区的大小是有限的，可以用队列中可以播放的块或段的数量来度量。如果缓冲区已满，播放器将等待请求下一个块；但是，如果可用带宽下降到请求之间的间隔，则请求的块（数据速率较高）下载时间可能更长。这可能会级联成缓冲区欠载情况。作者认为这种重复循环（由于缓冲区已满而导致欠载或下载暂停）是通常（但并非总是）由可用带宽波动引起的振荡。

图2

但是，以免我们假设当观看者以恒定比特率消费内容时不会发生带宽选择更改，BOLA的作者指出了一个问题，该问题早在 Burst Technologies时就令人困惑，并且在windows Media中有些不适播放器9：稳定带宽缓冲选择。他们写道：“拥有稳定的网络带宽和宽广的阈值仍然无法避免所有比特率的切换。”

以观看者为例，该观众具有恒定的2Mbps带宽和两个节目的ABR再现，一个为1.5Mbps，另一个为3Mbps，当缓冲区填满时，播放器的性能实际上可能是有害的：“播放器下载时缓冲区达到1.5Mbps时，缓冲区会继续增长。当缓冲区超过阈值时，播放器将切换到3Mbps，耗尽缓冲区。缓冲区被充分耗尽后，播放器将切换回1.5Mbps，并重复该循环。

如果最终观看者想要保持恒定的质量，则可以有两种选择：以较低质量的1.5Mbps再现观看整个节目，或者采用旧的Burst Technologies技巧，并以比用户更高的带宽观看整个节目。可供他或她使用。BOLA的作者称此选择为“以更大的振荡成本来最大化效用并以3Mbps的更高比特率播放视频的一部分”，但提供了针对振荡（BOLA-O）或效用（BOLA）的解决方案。 -U）。有关BOLA算法如何响应缓冲区级别的说明，请参见图3。

图3

该算法的最后一部分通过引入比特率上限来实现BOLA算法在可用内容比特率之间进行切换时在较高或较低振荡之间进行选择的能力。我问Spiteri，将比特率上限描述为将MPD或清单文件中的再现选择限制为比特率低于视频播放器设备当前可用带宽的再现形式是否准确。他确认这是一个准确的描述，而不是某些人试图将比特率上限错误地等同于Net Neutrality第三轨术语“带宽限制”的描述。

BOLA作者写道：“ BOLA-O通过将较高的比特率与下载前一个块时测得的带宽进行比较，验证了较高的比特率是可持续的。” “由于动机是为了限制振荡而不是预测未来的带宽，因此这种调整不会将比特率降低到比上一次下载时更低的水平”，以此来限制缓冲区的增长，就像降低缓冲区的大小一样。 Mbps格式下载。

第二种选择是使用BOLA故意选择一个高于持续带宽的内容比特率，而BOLA-U遵循的原则是不要过多地填充缓冲区。作者写道：“通过将比特率提高到比可持续带宽高一个水平，可以避免缓冲区的过度增长。” “使用较小的缓冲区大小并增加BOOL-U的稳定性会得到回报，并且BOLA-U的效用要大于BOLA-FINITE。…实际上，丢失的效用受到编码比特率之间的距离的限制；如果下一个，较低的比特率水平离网络带宽不远，那么实用程序将丢失。”

Spiteri向我详细说明了这一点。他说：“ BOLA-U偶尔会使用比设备带宽更高的比特率，从而获得更高的平均比特率。” “当然必须是偶然的；始终以较高的比特率下载会导致重新缓冲。BOLA-U仅在缓冲区级别足够高时才以如此高的比特率进行下载，因此不存在重新缓冲的风险。”

Spiteri还表示，有经验证据表明，当内容以更高的比特率和分辨率呈现时，用户会保持参与，并引用了ACM SIGCOMM 2011上发表的论文“了解视频质量对用户参与的影响”。

因此，实际上，编码比特率之间的距离是否会引起实际问题？2020年1月的论文《了解野外的视频流算法》Melissa Licciardello，MaximilianGrüner和Ankit Singla撰写的文章似乎表明，在使用更多可用带宽以提高最终用户观看质量方面，还有改进的余地。它可以衡量各种在线平台上播放器对ABR视频流算法的实际使用情况。

作者说：“我们……发现证据表明，大多数部署的算法都针对稳定的行为进行了调整，而不是针对带宽变化的快速适应；有些算法针对了视觉感知指标，而不是基于比特率的指标进行了调整，其中许多算法出乎意料地大量使用。未使用的可用带宽。” 作者没有解决BOLA最大效用方法带来稳定性的有意识选择，但他们指出了另外一个难题：视觉感知指标。

在某些方面，这可能是语义上的区别。例如，BOLA的作者讨论了“经验证据，当视频以更高的比特率呈现时，用户会更加投入并观看更长的时间”，但是讨论围绕的是标准清晰度和高清内容之间的差异，因此与内容以更高带宽呈现的事实相比，参与的可能性更大。

然而，使用视觉感知指标来调整播放可能会充满危险，尤其是在早期的指标（例如峰值信噪比（PSNR））方面，这是臭名昭著的例子，如果PSNR为唯一因素。（请参阅这些灯塔并排图片一个很好的视觉例子。）

下一步是什么？

在调整播放器性能方面还有更多的算法工作要做吗？是。

Licciardello，Grüner和Singla最近撰写了“重构专有视频流算法”，该论文详细介绍了他们对包括BOLA在内的许多专有调度算法进行反向工程的研究尝试。他们计划在7月的2020 USENIX年度技术会议上介绍它。

并不是说BOLA算法是静止不动的。实际上，在2019年，BOLA原始论文的两位作者（Spiteri和Sitaraman）以及他们在论文中感谢的同事Daniel Sparacio发表了“ 从理论到实践：在DASH参考文献中提高比特率适应性”播放器”，这是基于以下事实的研究论文：许多针对ABR内容的播放器调度算法通常分为两类：基于吞吐量和基于缓冲区。他们认为，一种更好的模型是使用“吞吐量预测和尝试利用两者的优势。”

为了帮助推动混合方法的发展，三位作者对BOLA算法进行了更新，以包含一个称为BOLA-E的增强版本。该版本引入了一些概念，例如不包含视频数据且可用于更改缓冲区级别的“虚拟段”，以及“占位符算法”以更好地允许BOLA做出明智的比特率切换决策。更重要的是，BOLA现在已经实现到Video.js中，该视频是DASH行业论坛（DASH-IF）倡导的参考视频播放器。

此外，作者开发的一种称为快速切换的新算法已在DASH-IF参考播放器中实现。快速切换的概念非常新颖：如果带宽突然提高，并且有时间用这些更高质量的片段重新填充缓冲区，则可以通过“用较高位的片段替换客户端缓冲区中的较低位的片段”来提高视频质量。这有可能提高低延迟的吞吐量，同时又不会迫使观看者在整个内容观看体验中忍受不确定的较低质量的体验。

最后，斯皮提里告诉我，2016年BOLA论文的更新版本已经发布，该论文讨论了理论部分的更多详细信息，并将BOLA与许多其他算法进行了比较。它还包括符号的更改。Spiteri说：“虽然原始版本使用比特率m = 1表示最高比特率，但是新版本使用比特率m = 1表示最低比特率，”他补充说，这种转变“主要与dash.js播放器一致，其中较低的比特率具有较低的索引。”

结论

随着2020年上半年流媒体的激增，包括锁定期间在家观看点播内容以及越来越多地使用低延迟，多参与者网络会议软件，对播放器性能优化的需求从未如此迫切。幸运的是，当本文试图用基本的术语进行解释时，播放器性能魔力的背后的数学继续建立在基本算法上，同时正在展示和调整新颖和增强的版本，以提供越来越好的最终用户观看体验。