2月25日,火山引擎视频云科技原力峰会顺利召开。 火山引擎视频云是如何发展起来的?火山引擎要做什么样的视频云?未来视频云又会是什么样的?火山引擎视频云技术负责人浩铭在以《面向体验,助推超视频时代新增长》为主题的演讲中,分享了对视频体验、交互、增长的观察与思考,并介绍了火山引擎视频云的从前、现在,以及未来的技术规划与构想。他表示:相信视频应用会持续朝着三个方向演进,更高清、更交互、更沉浸。
文章图片
火山引擎视频云技术负责人浩铭
以下为浩铭的演讲实录:
大家好,我是来自火山引擎视频的浩铭,很高兴今天能跟大家一起做分享,共同面向体验,助推超视频时代新增长。
火山引擎视频云进化史
文章图片
首先给大家介绍一下火山引擎视频云的进化史,这里列了几个关键的时间点: 起初在2014年,这时候字节跳动还在做图文应用。大家比较熟悉的今日头条,就是这个时候DAU突破一千万。当时,公司已经预计到未来是视频的时代,就开始在头条探索视频的形态,视频架构部门也是在这个时间点诞生的。 下一个时间点到了2016年,字节跳动推出短视频APP抖音,与直播APP火山直播。随着字节系的产品不断扩充,视频架构在公司的位置也变成了视频中台。我们作为中台不断地在公司里面孵化更多端到端的解决方案,像图片点播也在这个时间点成为解决方案,但是那时候我们的定位是面向功能、解决业务的问题。 2018年,字节跳动本身业务飞速发展的一年,对我们来说也是挑战很大的一年。首先我们要保证业务的稳定增长,保证业务的扩容是平顺的,同时业务对我们有了更多的要求,不止功能层面,还要对业务的功能与结果提供更大的帮助,于是我们对业务的体验优化做了更多的投入,持续优化端到端的视频体验。这个时间点,我们自己开始逐渐意识到,“体验”的重要性。 到了2020年,我们开始认真考虑ToB的事情。之所以在这个时间点考虑ToB,基于三点考虑:
- 第一点,我们作为中台支持的字节产品越来越多,如果把中台的服务模式变成ToB的服务模式,相信对业务的支持效率与组织效能上有很大的提升;
- 第二点,经过几年的业务打磨,已经具备行业领先性,我们把已经沉淀好的能力输出出去,应该可以得到更好的商业价值;
- 第三,我们希望引入外部的视角,倾听来自行业的声音、用户的声音、客户的声音,让我们审视已有的技术,保持我们的先进性。
如何搭建质量体验体系
从整个视频云的成长史来看,字节跳动的业务“养成”了视频云,而且视频云非常有幸在这个过程当中见证与帮助字节跳动的成长。我们希望今天把沉淀下来的能力与经验开放给行业的合作伙伴。 刚才在演讲过程当中,我提到了一点,我们从能力建设开始面向体验的建设。通过几个直观的问题让大家感受一下到底这两个之间有什么区别。
- 业务数据不好,是不是因为播放体验有问题?
- 我们播放体验的优势是什么?
- 新上线一些新的功能,对业务的贡献到底如何?
- 我们总说极致体验,体验是什么,以及怎样才算极致?
文章图片
大家看右边这张图,分成外边的一个圆环与里面的矩形。外边的圆形更多是我们在日常研发里面的做事方式,相信大家都非常熟悉。这里面有一个与大家做的不一样的,是线上实验的环节,里面的矩阵更多是内功,核心就是一直在努力建设数据的分析和归因能力。我们要做一个事情能够预估它的收益,并且能够及时回收收益。在内外结合、相辅相成的思路与做事方式下,我们再看刚才的几个灵魂拷问是不是可以回答了。 对于刚才的几个问题我们可以抽象一下,变成一些更本质的问题。
第一个是如何衡量体验?
大家应该会有一些共识,体验指标可以分成 QoS(Quality of Service)指标和 QoE(Quality of Experience)指标。QoS 往往是从服务或者功能的视角统计服务质量,包括起播时间、百秒卡顿、画质指标、延时等。这些是跟研发具体做的动作直接相关的,它们非常重要,而且是研发做的每个动作的直观表现。 我们在实践过程中,逐渐从最初的关注QoS指标,过渡到现在以QoE指标为主。因为QoE是从用户视角反映问题,通常是与用户播放时长和频次等相关的聚合指标,以反映用户的使用意愿,也与增长关联更加直接。它比QoS好的一点,QoS是单方面,有可能把我们的优化指导偏,而不是全局最优,QoE是给了一个最终结果。我们带着这个最终结果有能力与业务的增长结果做关联。
下一个问题,体验与增长之间是怎么关联的?
之前有很多次的技术分享,大家对字节跳动的A/B实验有了解,它提供了一个让我们真正成为业务里面的技术参与方,能直接看到我们的动作与业务增长关联的平台。有了这个平台之后,我们可以很方便地每个月做几十次线上实验,不断探索体验指标与业务指标的关联,一点点消除元无知。
最后,如何优化体验,体验需要优化到什么程度?
如果我们打算做一个功能优化,什么时候该做,做到什么时候该停。第一因为我们有内部优势,可以快捷地开大量的实验,所以能快速、不停地迭代尝试出一个经验值,这个经验值可以在具体场景里面复制、沉淀,可以推广出更多的业务方使用的。 另外一个方式就是使用业务已有的数据,做一些已有数据分析,比如说首帧与弃播之间的关系。我们找到拐点,因为这个拐点可能就是这个业务的优化空间,如果过了这个拐点,有可能优先级可以放一放。我们通过这种方式建立决策,去回答体验到底需要优化到什么程度。 刚才介绍了研发的体系,下面我举几个例子,把这些例子得到的沉淀结论分享给大家。
首先是在短视频场景下,刚才我也提到了对于首帧的分析,我们经过试验与数据分析得到这样的一个结论,就是210ms这个数字。在短视频feed场景下,我们认为210ms相当于流媒体首帧的满分标准。首帧大于这个值,用户的留存可能就会受到影响。
文章图片
对于画质来讲,也是一个很直观的指标,大家希望有很清晰的视频体验,我们做了非常多的动作,这里举一个例子,特定环境下网络受限的用户,不得不选择低分辨率的视频去播放,这样终端的效果肯定是不好的。我们有一些手段,通过超分辨率的方式,在终端把不好的播放体验重新超分成一个好的视频效果。单单这样的对于受限场景下的优化,对于大盘整个视频播放时长有0.23%的增长。
文章图片
在直播上,延时也是很敏感的指标,但是确实与业务增长的关系是比较难量化,我们在“低延迟直播”功能上线之后,也尝试做了反转实验,把已经3s端到端延时的用户,重新提升到7s,我们看了一下结果是什么样。这个工作做了之后,我们看到用户的看播时长下降1.3%,社交渗透与电商订单都有显著的下降。也是因为有了这样时延的佐证,我们对于低延时直播的资源投入在持续的增长。
文章图片
【面向体验,助推超视频时代新增长】
刚才提到了一些研发投入深耕的场景,其实对于体验的优化可能不需要那么高深,有一些简单的Case被大家忽略掉,一样可以达到很好的结果。举一个看上去很简单的音量均衡例子,大家看直播或者点播的时候有刷视频的动作,刷到下一个视频如果声音忽高忽低,可能会有很差的播放体验,甚至因为声音变大吓一跳。我们预期音量均衡的方案会拿到正向的结果,实际上做完试验之后结果远超预期,不仅在人均看播时长增长了3%,而且电商直播的GMV超预期提升4%。其他像这些小的点有很多很多,只要这个思路存在,我们就有更多可挖的空间。 除了技术,还有很多的玩法,能让留存、拉新得到很多提升。介绍一下“一起看抖音”场景功能,这个场景是在抖音短视频观看时,可以让很多用户同时在看,大家看的进度是一样的,而且看的同时可以做音视频的聊天,以增加趣味性与陪伴感。它在抖音上线已经接近一年,月均DAU持续保持30%以上的增长,渗透率已经提升10倍。
面向用户打造极致体验,面向企业持续技术创新
刚才是对体验优化方法论结果的展示,我后面分享一下火山引擎视频云未来的技术规划与构想。正如我们和IDC一同发布的视频云白皮书中所提到的,我们相信视频应用会持续朝着三个方向演进,更高清、更交互、更沉浸。下面对这三个方面,我分别谈一下我们在技术上的储备与规划。
更高清
首先更高清。大家都经历了从彩色电视,到数字电视,到后边1080P,以及这次北京冬奥会大家都享受到的8K超高清转播,以及8K VR直播,甚至8K更高分辨率的视频。这样对视频编码与传输,始终都是很大的压力,如果压缩跟不上的话,虽然可以用一些手段降低画质完成8K的传输,但是这样效果是“高不清”。
文章图片
火山引擎多媒体实验室团队,一直在持续地探索极致的视频压缩和图像增强技术,在受限带宽下持续提升用户的视觉体验。 近期火山引擎落地业界首个H.266端云一体视频解决方案,相比目前主流的265编码方案,能节省30%-50%的码率,在一些应用场景下最高可节省70%以上码率,可以大大降低超高清视频应用的门槛,加速推进体验升级的进程。 除了刚才编码效率的优化,我们对更高清的追求,不只是压缩效率更高了就是高清,当用户都觉得清晰了那才是高清。到底怎么衡量、反映用户观看视频的感受呢? 除了一直致力于建立画质的端到端整体优化方案之外,我们还在尝试建立一套和用户感官完全匹配的评估体系,我们推出的是VQScore画质评估算法体系。我们可以把它用在很多不具备参考条件的场景下,比如竞品评测、视频质量监控、基于视频质量的推荐,基于人类主观感受的视频端到端优化、低质视频筛查等。而且VQScore画质评估体系已经在多媒体领域的世界级会议拿到第一名的好成绩。
更交互
下一个发展趋势是更交互。在业务发展中,新的交互方式往往会带来新的商业突破,技术的优化,可以让更多的互动玩法与商业场景成为可能。这里我们看两个极致些的例子。 第一个是语音沙龙。语音沙龙是今年年初非常火爆的场景。之前由于技术架构的限制,产品不得不把能够上麦的主播数量控制到20-50个,一旦更多就会很混乱。火山引擎RTC通过订阅逻辑的改造,让产品逻辑更加灵活,单房间最高支持超过千人上麦,成为国内首家能够提供单房间超过千人上麦的音视频服务。 第二个例子是VR场景下的千人Livehouse,这对端上渲染能力有很大的要求。因为我们有了低时延服务端渲染的能力,云渲染的超低延时架构将复杂的渲染计算放到云端做,把计算后产生的音视频画面,用RTC传输到本机。无论多复杂的计算,本机只需要播放音视频的性能消耗,从而解放终端的性能限制。
更沉浸
最后一点,是更沉浸。前边提到更高清与更交互,是达到更沉浸的先决条件。另外还有两个要素,自由度和虚实融合。我们一直以来大家观看视频的体验,主要是滑动、切换下一个视频或者是拖拽,其实这时候我们没有太多的自由度,而更多的视频未来要求我们提供更多的自由度。比如可以通过VR看到更广阔的视野,甚至可以通过多机位达到自由度的效果,共同组合成六自由度的XR体验。
我相信很快会有更多杀手级的XR应用出现,给视频的呈现与体验模式带来代际的更新。我们不断打磨沉浸式视频体验能力,也不断地沉淀在云解决方案当中,希望能和更多业务合作伙伴一起推进行业的变革。 比如,刚才提到了超过千人连麦,未来通过VR设备和技术,我们可以实现千人在一个共同的虚拟场景中,实现更多样化、更沉浸的社交活动,比如通过自己的Avatar替身聊天、一起刷抖音、看直播、一起玩游戏等,这种应用场景会涉及到点播、直播、RTC、边缘渲染、云游戏等多个视频云解决方案的融合。
面向体验,助推超视频时代新增长
更高清、更交互、更沉浸是我们不断的追求,希望帮助合作伙伴引爆一个又一个新的业务增长点。今天,火山引擎视频云发布产品矩阵——为用户体验而生的视频云服务,我们希望打造全新的产品服务体系。
产品矩阵整体划分为三层,分别是核心中台、核心产品及解决方案。
文章图片
- 底层是我们的核心中台,是我们技术能力的沉淀,从生产、处理、传输、消费,覆盖视频内容消费全链路。让更多的互动玩法和商业场景成为可能。
- 中间层是我们的核心产品,包含点播、直播、图片处理、实时音视频等。
- 上层是行业全栈解决方案,包含泛互联网游戏、在线教育、金融广电等,我们相信全栈解决方案是驱动更多商业场景落地的关键变量。
推荐阅读
- 云计算|未来的直播技术将会有哪些新的进化形式()
- 火山引擎举办视频云科技原力峰会,发布面向体验的全新视频云产品矩阵
- 音视频|火山引擎支持 Pico 完成业界首场 8K 3D 实时互动 VR 演唱会
- 31年前的Beyond演唱会,是如何超清修复的()
- 如何轻松实现在线 K 歌房,与王心凌合唱《山海》
- WWDC22 多媒体特性汇总
- Qt学习之路|Qt项目-安防监控系统(解码编码转码)
- #|语谱图(四) Mel spectrogram 梅尔语谱图
- APICloud平台使用融云模块实现音视频通话实践经验总结分享