从|从 0-15 套存储集群,YRCloudFile 助力 AI 训练效率“超线性增长”

如果从 1965 年的达特矛斯会议开始算起,AI 已经走过了 65 年的历程。近些年,随着深度学习兴起,AI 也获取了越来越多的关注。目前,AI 技术都是以深度学习为基础,而深度学习想要完成复杂的学习过程需要完成两个过程:

  • 大量的数据训练,深度学习极度依赖数据挖掘技术,消耗产生大量、有效的训练数据;
  • 优化算法,深度学习需要通过复杂的神经网络找到最好的模型,用于分析新的数据。
从|从 0-15 套存储集群,YRCloudFile 助力 AI 训练效率“超线性增长”
文章图片

数据处理阶段结构
故而深度学习对数据要求比普通模型的要求都要高。只有在大量数据的支持下,才能真正发挥深度学习的作用。然而,大数据比想象中都要复杂,训练数据的难度比传统机器学习的难度要大。而在整个数据处理过程中,不同阶段所使用的技术,以及这些技术对数据访问的要求都有差别。
从|从 0-15 套存储集群,YRCloudFile 助力 AI 训练效率“超线性增长”
文章图片

数据在各阶段访问的特点
作为一家专注以软件定义存储技术的企业,焱融科技自 YRCloudFile 发布以来,长期关注存储技术在 AI 领域方面的应用,也亲历了近年数据存储在 AI 领域的落地过程。本篇文章,焱融科技将试图通过国内某家在语音及语言、自然语言理解、机器学习推理及自主学习等领域保持着国际前沿技术水平的 AI 领域企业的实际案例,带领大家了解当前数据存储在 AI 领域的技术发展现状,以及探索 AI 未来的发展情况。
海量数据亟需解决的“硬骨头”
目前,国内某 AI 领域企业的基础架构团队,需要为各个人工智能团队及业务部门提供稳定、高性能的训练存储平台,同时管理近千台高性能 GPU 服务器,如果训练使用存储平台性能滞后,将直接影响业务部门的训练效率。因此,数据处理流程是整个环节的重中之重,也是焱融科技本次优化训练平台的切入点。
为了满足该公司的人工智能业务部门训练的需要,其应用的模型训练数据平台必须具备以下特性:
  • 具备高带宽、低延时的读写特性,保证为 GPU 服务器提供足够的数据输入,实现 GPU 的高效使用;
  • 支持百亿级别的小文件及部分大文件混合的读写场景,满足大量特征文件或聚合后的文件存储需求;
  • 上层训练模型使用标准文件接口访问数据;
  • 能支持近千个高性能计算节点的并发访问;
  • 满足多种计算集群模式存储服务,包括固有的裸金属计算架构、云计算架构、容器化计算架构的持久化存储等需求;
  • 满足综合监控数据治理平台对接需求,实现数据管理、监控、运维一体化展现和简约化治理能力;
  • 实现相关业务特征具体优化策略,根据不同业务类型特征具备可调节优化能力。
YRCloudFile 做对了什么?
在了解该公司的需求以后,焱融开始从 2019 年开始,就技术应用方案和落地措施进行了多次的交流和实际场景测试。同时,该公司的技术团队对训练使用的存储平台选型非常重视,其中数据平台的实际性能尤为关键,包括:
  • 大文件的随机读写、小文件的读写性能;
  • 海量元数据的操作性能(creation, stat, removal 等);
  • 海量文件的支持,以及在海量文件的背景下,数据访问和操作性能是否保持一致;
  • 存储平台的稳定性;
  • 在故障场景中,尤其是在元数据服务故障场景下,集群性能的稳定性;
  • 与容器平台的对接能力;
  • 数据生命周期的管理。
这些严格的评估标准,是基于实际业务诉求、公司基础架构团队要求和多年的实际工作积累中提炼出来的,满足了行业普遍标准化和公司业务特性的需求。
作为国内首批实现容器持久化存储的厂商,YRCloudFile 不仅在架构上,实现了完全与硬件解耦;而且在通用的服务器上,YRCloudFile 同样可以充分发挥出自身在高速存储介质和网络存储性能方面的充分优势。
同时,为了配合发挥计算集群的强大算力,YRCloudFile 兼容全栈式网络技术和设备,实现了从数据起点到终点,从存储到计算再回到存储的全 IO 路径高性能的基础搭建,不仅保障高性能输出,而且做到了业务可靠性和连续性。
相较于其他存储产品,YRCloudFile 还具备性能领先、元数据访问性能突出、容器平台稳定对接的优势和特点。目前,YRCloudFile 凭借多年的技术经验,实现了基于 CSI 接口的标准化服务,在数据流转和管理层面具备成熟的功能及服务。在此基础上,为了进一步满足数据生命周期管理的需要,YRCloudFile 实现了高性能并行文件存储到对象存储的自动化管理,以及数据载体成本的最优化配比。另外,在 IO 管理方面,YRCloudFile 实现在同一命名空间内,极大地解放 IT 管理资源,释放管理压力,提升生产力,达到降本增效,降低客户 TCO 指标的要求。
经过三年时间的合作,YRCloudFile 通过了该知名 AI 领域企业的多个新业务上线,以及业务系统的迁移的考验。目前,YRCloudFile 已经成为该公司重要的业务存储平台,并且扩容速度正以 300% 每年的速度提升。双方合作的背后,不仅突显出 YRCloudFile 对于产品技术持之以恒的追求,而且也表明了该公司对 YRCloudFile 的信赖。
更高效:核心业务存储规模近 40 PB,单集群峰值带宽达 30+ GB/s
随着双方的合作逐步深入,YRCloudFile 得以快速应用在该知名 AI 企业中,其中包括多个核心业务的大规模深度学习训练集群生产环境。凭借 YRCloudFile 强大的性能优势、稳定的产品品质、灵活的存储部署架构、优秀的产品管理能力以及全方位的售后服务,自第一个 YRCloudFile 集群上线开始,至今已实现数个集群陆续部署,数据快速增长。
至今为止,该公司的核心业务存储规模已达到近 40PB,存放超百亿用于训练的音频、视频、图片文件,单集群峰值带宽达 30+GB/s,YRCloudFile 已经成为支撑其多项业务的核心存储平台。
从|从 0-15 套存储集群,YRCloudFile 助力 AI 训练效率“超线性增长”
文章图片

训练集群容量快速增长
在 YRCloudFile 的支持下,该知名 AI 公司的训练平台服务实现内部人工智能研究院近千台高性能计算服务器稳定运行,大量科学家和算法工程师通过这些数据对模型进行持续优化,完成该公司各类语音服务的产品输出,以及其他相关 AI 训练项目。
在合作过程中,焱融科技与该公司的基础架构团队持续保持密切的交流,通过数据 IO 模型特点的分析,焱融科技研发团队基于该公司的数据特点,持续对 YRCloudFile 进行产品层面的深度优化。目前,已经形成了 YRCloudFile 部署 → IO 特点分析 → 读写优化 → 更新上线的完整闭环。
通过该知名 AI 公司的大规模使用,YRCloudFile 得以快速积累更多在服务人工智能企业内部,高性能存储场景的经验和能力,实现产品进一步增强,也奠定了焱融科技在 AI 领域成为专业服务于泛 HPC 的专业存储厂商。
更强大:从 0-15 套存储集群,年增长率超 300%
回顾双方合作历程,正是一个存储与应用慢慢融合的过程。
从泛类存储到聚焦 AI 专业领域存储,从广义层面的存储(存储数据)到更加了解业务的存储。其中更多的是,双方技术团队紧密沟通和技术跟进的结果,亦是存储向应用细分领域发展的缩影。
从技术验证到第一个 YRCloudFile 存储训练平台的建立,实现了从 0 到 1 的过程。目前,该知名 AI 公司已经部署了 15 套 YRCloudFile 存储集群,实现了近 40PB 规模的核心训练平台搭建,总存储节点数超 200+,服务于多项核心业务,年增长率超 300% 的数据量扩展,未来可期。
在整个过程中,YRCloudFile 已经为该公司的训练集群提供了大规模的高性能数据服务。未来,YRCloudFile 将持续为 AI 场景提供更多、更强大的功能支持:
  • 强大的云原生存储能力。YRCloudFile 支持容器跨节点重建、PVC Quota、PVC扩容、PVC QoS、热点分析等特性,帮助其在云原生服务能力进一步增长的情况下,实现更多新业务以云原生的方式部署,实现敏捷开发能力和 AI 快速迭代。
  • 高性能、高可靠性、完整的界面管理和向上对接能力。目前,YRCloudFile 在可靠性保障基础上,提供了节点级抗灾能力,并在容器对接层通过跨节点重建,满足故障后快速恢复应用的要求。另外,YRCloudFile 在混合文件优化上,采用了并行数据管理能力,将元数据和实体数据分离模式,在保障海量文件的高速访问和扩展能力的同时,实现了根据不同数据特征调节元数据性能的微调能力,并基于此强大的产品特性,在存储集群的扩展管理和面对业务优化上具备巨大的优势。
  • 更了解业务。YRCloudFile 通过长期的生产时间,使得其更加了解公司业务,释放了更加贴合业务场景需求的 SDK,实现更加细致的文件共享服务,比如提供更加细致的权限管理,满足对接业务权限平台、资源均衡能力、业务感知能力、数据治理需求对接能力的要求等。
  • 最大化实现高性能访问,保障业务高效迭代。在数据生命周期的管理中,YRCloudFile 通过训练热数据可实现三层架构,实现最大化高性能访问,在保障业务高效迭代的同时,YRCloudFile 还可以通过存储集群本身的两层数据流转模式,实现热数据前置,将训练数据贴近计算,使依赖高性能网络的分布式存储更进一步。除此之外,YRCloudFile 还可以将热数据层与计算总线直接打通,从而获得更高的 IOPS 和更低的时延,且热数据全程在 YRCloudFile 统一命名空间管理,摆脱计算系统低效的置换策略,使其提升了 YRCloudFile 在智能置换和预读方面的能力,在原有 YRCloudFile 存储性能的基础上,再提升 5 倍左右的性能。
  • 无缝对接对象存储。针对热数据归档冷数据管理的问题,焱融开发了对象管理功能,实现无缝对接对象存储。再通过 YRCloudFile 命名空间统一管理的方式,达到策略式归档的目的。而在上层应用则表现为透明管理,满足细粒度调取的需求,最大化地帮助用户降低存储支出费用。同时,搭配焱融公有云产品云舟服务可形成混合云存储管理模式,实现轻松多地、多站点部署模式,极大地扩展了客户业务群,丰富了 IT 管理手段。
从|从 0-15 套存储集群,YRCloudFile 助力 AI 训练效率“超线性增长”
文章图片

YRCloudFile 高性能分布式文件存储架构图
【从|从 0-15 套存储集群,YRCloudFile 助力 AI 训练效率“超线性增长”】更有价值:全生命周期管理业务数据,极大提升数据训练效率和精准度
正如我们所介绍的那样,海量数据和强大算力是深度学习发挥重大作用的两大关键要素。YRCloudFile 作为众多 AI 领域相关企业在深度学习集群中,使用的高性能文件系统,在提供人工智能基础架构的核心存储服务的同时,也逐步体现出越来越大的商业价值:
  • 支持更加丰富的业务计算模式,其中包括高性能HPC集群、云计算集群、容器计算集群,能够满足多项业务共同开展;
  • 高可靠业务支撑,在保障业务能够按照预期顺利交付的同时,提升IT基础设施安全性,有效提升整体业务水平;
  • 全生命周期管理业务数据,实现热数据层更加高效的访问,冷数据管理更加智能,有效降低 IT 的 TCO。
  • 训练时间大幅缩短,相对于其它的商业存储,YRCloudFile 所具备的高带宽、低延时的特性,更能满足 GPU 等计算服务器的计算效率达到饱和的需求,使得单次训练时间由一周缩短至数小时。
  • 训练精度提升,在深度学习过程中,算法工程师需要通过不断调整训练模型,才能提升模型精准度,故而缩短单次训练时间,提升迭代频次的关键。借助 YRCloudFile,算法工程师可以通过调整深度学习中的参数,不断优化深度学习的成本函数(Cost Function),使模型迭代频次提高、训练精准度提升成为可能。
  • 协助客户完成数据治理工作,YRCloudFile 向上提供更加丰富的数据管理接口,可以帮助企业集中管理平台的搭建和运维管理,提升运维效率,解放生产力。
未来十年,AI 时代来临
目前,国内众多一线厂商旷视科技、依图科技、商汤科技、云从科技,以及正在兴起的小马智行、元戎启行、图森未来、西井科技等企业,均是以 AI 为核心竞争力,而 AI 核心竞争又是算法和数据的竞争,万法归宗,AI 高地的建立将成为企业竞争力的体现。
基于该知名 AI 企业的业务实践,我们可以发现无论 AI 应用于何种场景、何种业务,其重点依然是核心算法和训练数据量,算法的迭代又需要海量数据作为基础支撑,因此高性能计算和高性能存储已然成为支撑整体 AI 行业发展的基石。
纵观半个世纪的 AI 实践,从概念提出到理论实践,从图形到语音,从卷积神经网络到归类深度学习,无一不是数据由少到多,算法由简入繁的过程,如今有 GPU 的加持,算力已经不是瓶颈,恰恰作为数据的母体——存储正亟待改进,所以整个存储行业会继续向细分领域发展,更加贴近应用,更加理解应用才能更好的服务于 AI 行业,这已经成为 AI 行业趋势。
最近,“元宇宙”一词大热,其背后更值得注意的是基础技术——AI。从元宇宙本身来看,它试图通过将现实世界进行虚拟复刻的方式,打造未来网络商业的主要载体。或许,它也可以被看作是多维度、立体化的去中心化互联网世界。然而,无论元宇宙最终将以何种产品服务形式出现,实现与人交互,以及根据自我判断、情景判断做出正确反应的功能,它都将由一个个正确的 AI 动作和海量数据作为支撑。
过去十年,我们处于互联网时代;如今,随着 5G 商用的加速落地,虚拟现实成为了新一轮科技革命的代表性技术,AI 作为未来最重要的基础设施之一,也将为未来元宇宙构建带来无限可能。
存储系统作为支撑 AI 未来发展的基础设施软件之一,一直处于不断变化和革新的环境中。从早期的物理机时代,到虚拟化技术的成熟,到现在各大厂商大规模部署的云环境,其中都少不了存储系统的支持。
焱融科技自成立以来,多年来深耕 AI 领域,在行业内积累了众多项目及实践经验,帮助众多语音识别、视觉识别、自动驾驶等 AI 企业提升训练效率,凭借高性能、高灵活性、高可用、高扩展等特性,实现更好地支持企业的云原生应用、自动化管理和业务创新,满足用户在任何时间、任何地点对任何应用的响应需求。未来,焱融科技将持续关注 AI 领域对存储的需求,通过高可靠、高可用、高灵活的存储系统,帮助 AI 技术释放更大的潜力。

    推荐阅读