超过2亿日活的快手,在业内如何率先完成计算架构的全新升级?

【超过2亿日活的快手,在业内如何率先完成计算架构的全新升级?】
随着快手日活量不断增加 。用户数据不断丰富 。模型的数量越来越多 。越来越复杂 。在空间的占用上呈几何级数增长 。
快手拥有超过2亿的日活量 。超过130亿条的库存短视频 。仍以每日超过1500万条短视频上传的速度新增 。拥有海量超大数据应用场景 。快手基础设施的规模已经处于国内顶级互联网公司头部行列 。目前快手服务器规模已经超过十万台 。数据总量达到EB级别 。每天新增数据超过5PB 。
为保障千亿级别数据量的处理和基础设施稳定、高效运行 。快手服务器选型和业务优化团队(以下简称“快手SAT团队”)布署业界最先进GPU计算平台 。选用合作伙伴NVIDIATesla V100GPU和新一代Turing架构的NVIDIA T4GPU 。在业内率先完成计算架构的全新升级 。
目前快手SAT团队正在做几件事:引入大容量低成本NVM与GPU组成异构计算+异构存储服务器;搭配100G/200G/400G RDMA 。做CPU offload的架构 。提高分布式计算的效率;将存储资源和计算资源解耦分离 。
据快手SAT团队研发人员介绍 。快手大数据应用场景如视频推荐平台、音视频理解、风控、商业化广告、强化学习等都是公司的核心业务 。多个业务场景数据处理需求量大 。NVIDIA推出新的Tesla产品之后 。SAT团队将T4和TeslaV100 GPU的引入列为首要任务 。使用新一代的GPU 。搭配现有的计算平台 。第一时间将T4引入到新的套餐上 。同时以最快速度适配给公司内的核心业务 。保障硬件基础架构走在业界前列 。
快手选型上线流程和NVIDIA企业级技术支持团队已经有了一年多的合作经验 。以最新的GPU引入为契机 。快手SAT团队整理规范了GPU服务器引入和应用优化一整套的科学体系 。并在实践中获得了极佳的业务收益 。为快手节省了大量的时间成本 。同时计算力更加出色的GPU计算架构也为未来快手关键业务线上线更加复杂的模型打下了坚实的基础 。

超过2亿日活的快手,在业内如何率先完成计算架构的全新升级?

文章插图
超过2亿日活的快手,在业内如何率先完成计算架构的全新升级?

文章插图

    推荐阅读