构建面向异构算力的边缘计算云平台

1月6日,“火山引擎产品技术大讲堂” 2022 年首期直播在线开讲,围绕"算力"主题,探讨多样化的算力应用与实践。
边缘计算产品负责人沈建发作为开场嘉宾,分享了火山引擎边缘计算如何解决万物互联时代异构算力行业发展及业务演进面临的挑战,揭秘边缘计算统一纳管异构算力,沉淀的平台能力和典型的场景应用。

  1. 万物互联的智能时代
  2. 构建新一代边缘计算云平台
  3. 字节跳动场景应用
  4. 未来展望
01 万物互联的智能时代 技术发展,从信息孤岛到万物互联
构建面向异构算力的边缘计算云平台
文章图片

在正式进入异构算力的主题前,我们来回顾一下从信息化到智能化的发展进程。早期业务形态主要解决单点问题,主机/单机计算呈现信息孤岛的状态。随着 PC 端、移动端技术的发展,从人人互联,到人类既生产数据又消费数据,再慢慢到设备与设备之间的信息互联,万物互联的时代已然到来。
在万物互联时代,需要计算的数据越来越多,需求在不断的变化,异构计算能够充分发挥 CPU/GPU 在通用计算上的灵活性,及时响应数据处理需求,搭配上 FPGA/ASIC 等特殊能力,可充分发挥协处理器的效能,根据特定需求合理地分配计算资源,支持不同计算单元和场景。
业务发展,从内容触达演进为体验触达
构建面向异构算力的边缘计算云平台
文章图片

从业务发展的角度来看,早期更关注内容本身,到后面直接参与互动的交互性,再到现在身临其境的沉浸式体验,用户对内容的形态诉求也在不断演变。
举个例子,字节跳动在产品上也在不断变化和推陈出新,从今日头条、抖音,再到现在涉及到家装设计的住小帮,还有专注 VR 核心体验的 Pico。应用也从早期的图文、点播,到实时音视频、直播还有 AR/VR 等。应用形态越来越丰富,用户对体验的需求也越来越高。视频内容的互动延迟需求从秒级进入到毫秒级,对交互性、沉浸式的体验也提出更高要求。
现阶段随着视频直播、实时音视频业务的全域覆盖,算力的需求也逐渐多样化。从 CPU 到 CPU+GPU,再到不同算力的异构单元,海量洪峰对网络的冲击,需要将大量的网络流量卸载到硬件上做 Offload,来降低 CPU 消耗,提高处理性能。加上 AR/VR、3D 等视觉应用越来越多,就近渲染、网络、算力的需求逐步显现,算力多样化开始成为互联网时代的新需求。如何统一纳管异构算力,构建新一代的边缘计算云平台,是边缘计算团队亟待解决的问题之一。
02 构建新一代边缘计算云平台 火山引擎边缘计算:用户和云中心之间的所有算力层
提到边缘计算云平台,首先跟大家分享一下我们对边缘计算的定义:我们把从用户到云中心之间所有的算力层都定义为边缘计算。
构建面向异构算力的边缘计算云平台
文章图片

  • 首先,“现场边缘”主要位于用户现场或用户自己的机房。理论上主要覆盖 1~5ms 时延范围。我们可以将中心训练好的模型算法和能力下沉到用户的现场侧,满足超低延时的计算和网络能力。对应支撑异构算力的硬件设备有 x86/ARM、智能网卡、GPU、FPGA 等,应用场景主要是 AIoT、边缘时序数据等实时性业务。
  • 其次,“近场边缘”,主要位于全国二三四线城市或城区节点,理论上主要覆盖 5~20ms 时延范围。对应支撑异构算力的硬件设备有:x86/ARM、智能网卡、GPU 等。常见的业务场景有:CDN、视频直播、实时音视频、视频监控和图像处理等。
  • 最后,“云边缘”,位于区域中心城市、提供多线及 BGP 汇聚节点,理论上主要覆盖 20-40ms 时延范围,可以跟中心云实现高效连接,为“现场边缘和近场边缘”提供汇聚能力,实现如:合并回源、并发处理等能力。对应支撑异构算力的硬件设备有:x86/ARM、智能网卡、GPU 等。常见的业务场景有:CDN 合并回源,视频直播的 L2 层转发、离线渲染业务、数据并发处理业务等。
基于以上我们构建了新一代边缘计算云平台。
新一代边缘计算云平台
构建面向异构算力的边缘计算云平台
文章图片

通过采用云原生架构,火山引擎边缘计算构建了新一代边缘计算云平台。边缘计算云平台整体采用一横 N 纵的结构,一横是指基于边缘计算基础设施打造的云原生边缘平台,N 纵指具象化的服务能力,如边缘虚机、边缘容器、边缘网络、边缘函数和边缘渲染等。
  • 首先,在基础设施层,根据边缘算力的分布层级优选全国各省市丰富的边缘资源和运营商网络,并按地理位置部署优质的单线、多线和 BGP 的节点,结合多种架构的硬件设备,如:x86、ARM 服务器、智能网卡、GPU、Tofino( P4) 等算力和网络资源,打造面向异构算力的边缘基础设施底座。
  • 其次,在平台层,基于边缘基础设施底座,火山引擎边缘计算自研了云原生边缘平台,以面向边缘云原生的操作系统为核心,提供边缘自治管理、核心系统组件管理以及大规模部署的镜像服务能力。
  • 第三,在资源服务层,边缘计算团队将云原生边缘平台模块化,通过自研网络组件提供多种功能,由此形成边缘计算资源服务层,可以按需提供不同的边缘能力,如:虚机、容器、网络、函数、渲染等一系列服务。
  • 最后,边缘计算云平台配合云边管理和数据管理模式,实现业务的全域智能调度、实时数据大屏,满足内容分发、视频直播、实时音视频、云游戏等多个场景应用。
目前新一代边缘计算云平台已在字节跳动支持多个场景的业务应用。
03 字节跳动场景应用 实时音视频
构建面向异构算力的边缘计算云平台
文章图片

首先,在实时音视频场景中。
随着视频会议、在线教育等场景的普及,端到端之间实时互动的要求要越来越高。实时音视频可以借助边缘节点实现业务的就近接入,保证节点间低时延互联互通,提供高速稳定的实时音视频通信优质链路。
  • 边缘算力的弹性扩容能力能保障业务量突增时,视频会议中长会话的通信质量。
  • 边缘计算 GPU 实例还可以满足实时音视频中的渲染需求。
  • 高性能负载均衡可以支持实时音视频在边缘节点内高效东西转发,打通东西向流量。
  • 另外,多线、IPv4/ IPv6 双栈等也为实时音视频提供完整的能力保障,满足多人连麦、多人视频会议的低时延需求。
边缘渲染
【构建面向异构算力的边缘计算云平台】构建面向异构算力的边缘计算云平台
文章图片

第二,在边缘渲染场景中。
在边缘渲染场景中,如常见的直播特效、家装应用涉及的 3D 特效和 VR 看房等,在内容制作环节往往有大量的工程数据需要处理。边缘计算可以基于设计师所在地理位置就近提供服务,缩短工程数据传输距离,有效降低网络时延,提高业务渲染的实时性。
  • 对于一个 1G 项目工程文件,生成 100帧,每帧 300MB 图片的场景。中心上传下载需要 760 秒,边缘只需要 79 秒。边缘传输效率是中心的 9.62 倍。
  • 同时,通过全域节点的边缘算力资源和智能调度,能满足关键渲染任务的灵活切片,实现多节点并行渲染,提升渲染效率,加速内容创作的渲染周期以及快速发布工程作业。
云游戏
构建面向异构算力的边缘计算云平台
文章图片

第三,在云游戏场景中。
云游戏场景中,用户对时延更加敏感。区别于端游、页游、手游和主机游戏,云游戏的游戏资源、运行、渲染都需要在云端完成,相当于用户在云端玩游戏。
云游戏业务依托全域覆盖的边缘异构算力,基于用户地理位置的亲和性,通过边缘智能就近调度,实现游戏指令毫秒级交互。同时,结合高密度的 ARM 集群、GPU 算力、弹性扩缩容、资源隔离等功能,支持多个云游戏实例并发运行,为终端用户提供无设备限制、稳定、高品质、超低时延的游戏体验。
VR 场景
构建面向异构算力的边缘计算云平台
文章图片

第四,在 VR 场景中。
VR 主要是通过 720 度的 3D 全景视频为用户提供更加沉浸式的体验。为了降低 VR 的视觉晕动症影响,需要为用户提供超高清、超低时延的 VR 视频服务,也就意味着更高的带宽需求和更快的服务响应。
在实际场景中,人眼可视角度是有限的,即我们会重点关注当前可视画面的清晰度,周边区域及非可视区域画质对用户体验其实影响不大。通过边缘计算部署 VR 的媒体优化服务,可实时获取用户观看 VR 视频的头盔方向角度,从而计算用户的可视角度值,并以此智能选择传输和渲染的实时画面,最终实现用户可视画面高清传输,周边画面压缩传输,充分利用有限带宽,实现更加高清的 8K/12K VR 画面,保证用户获取优质的沉浸式体验。
安卓原生云
构建面向异构算力的边缘计算云平台
文章图片

第五,在安卓原生云场景中。
  • 云手机可以分布部署在边缘云的各个节点中,通过智能调度,能有效提升用户互动体验,目前主要场景有云手游、云办公、云侧广告、IM 机器人等。
  • ARM 架构可以集成高性能显卡,并提供高效的图形图像转编码处理能力,结合智能调度和分布式边缘计算节点实现用户高效访问和极致使用体验。
  • 同时,ARM 指令级兼容原生安卓云,通过智能调度满足用户就近接入需求,池化资源,降低用户使用门槛, 除此之外还支持批量创建、修改、删除,降低运营/运维门槛。
边缘实时渲染效果对比
最后,我们来看看手机端渲染和边缘端渲染的效果对比以及二者的区别。
构建面向异构算力的边缘计算云平台
文章图片

当前很多渲染业务都是直接在用户现场通过硬件终端来实现的,比如常见的基于用户手机的渲染。随着业务的发展,渲染的工程和种类对算力的需求越来越高。另外,用户终端的手机算力层级不同,常见的中低端手机很难满足相应的渲染算力需求,而用户对画质和特效的要求只增不减,因此我们对比了基于 GAN 算法的漫画风全图特效。
可以看到,在手机渲染和边缘云渲染的效果图中,边缘云渲染的细节还原度和色阶平滑度比手机渲染要更平滑自然,二者存在视觉可见的明显差距。
构建面向异构算力的边缘计算云平台
文章图片

另外,引入云渲染后的网络时延想必也是大家关注的问题之一。对此,我们通过 RTC 将本地采集的视频数据传输至边缘计算节点进行渲染后返回,并在终端屏幕推送。右图可以看到,得益于5G+边缘计算节点的低时延特性,最终测试的端到端时延在100-150ms左右。对于直播场景而言,这个时延是可以接受的,对于网络直播的用户来说,影响不明显,但却可以通过边缘实时渲染的方式帮助应用实现更多有趣、沉浸式、创新性的玩法模式和更多的特效工程效果。
另外,引入云渲染后的网络时延想必也是大家关注的问题之一。对此,我们通过 RTC 将本地采集的视频数据传输至边缘计算节点进行渲染后返回,并在终端屏幕推送。右图可以看到,得益于5G+边缘计算节点的低时延特性,最终测试的端到端时延在100-150ms左右。对于直播场景而言,这个时延是可以接受的,对于网络直播的用户来说,影响不明显,但却可以通过边缘实时渲染的方式帮助应用实现更多有趣、沉浸式、创新性的玩法模式和更多的特效工程效果。
04 未来展望 目前,基于新一代边缘计算云平台的首款产品“边缘计算节点”已正式发布,并在 CDN、视频直播、实时音视频、云游戏、AR/VR 等多个场景落地。未来,我们也计划在智慧城市、工业互联网、智慧交通和影视行业探索更多的应用场景,希望携手各界合作伙伴一起,开放探讨边缘计算的更多可能性。让我们一起边创未来。
构建面向异构算力的边缘计算云平台
文章图片

    推荐阅读