企业级数据湖最佳实践
简介:2021云栖大会云原生企业级数据湖专场,阿里云智能高级解决方案架构师周皓为我们带来《企业级数据湖最佳实践》的分享。
文章图片
本文主要分享了数据湖的核心能力及几个最佳实践案例。
以下是精彩视频内容整理:
一、统一数据存储,多引擎对接,运存分离
在这一节开始之前,先回顾一下数据湖几个核心的能力:
- 集中存储、多种引擎对接
- 数据无需处理、直接存储
- 更灵活架构、运存分离
文章图片
二、最佳实践案例
Yeahmobi- 移动互联网广告实践案例 Yeahmobi,作为一家技术驱动发展的企业国际化智能营销服务公司,主要涉及到的就是智能营销业务,每天的业务波动非常大。如果采用传统的架构,势必要按照业务的峰值准备资源,就会造成很多 CPU 资源无法得到最大化的利用。这也是许多智能营销互联网公司的痛点。基于此,大多企业选择了数据湖方案。
- 存储与计算解耦合,让计算资源使用量可以按照线上业务量的变化动态增减,减少常驻资源量
- 多种不同类型计算引擎,轻松对接在线广告各种场景所需要的分析要求
- 通过数据湖方案,整体TCO优化达到30%,让业务形态更具竞争力
文章图片
数禾科技-互联网金融实践案例 数禾科技是一家互联网金融科技公司,因其所在行业的特性及本身的业务场景需求,对数据的安全可靠性,以及数据访问控制的细粒度都有很高的要求。数禾服务了大量内部和外部用户,数据安全敏感,要求严格的数据权限隔离。其次,整个业务变化也需要非常强劲的吞吐能力来支撑计算及存储。
其实在数禾的发展过程中,最早采用的是最常见最通用的大数据集群构建方式既通过服务器搭建,然而很快就发现这种方式无法跟上业务的快速发展:一是存储成本显著增长,一个标准的 HDFS 集群是三个冗余备份,在考虑到水位,整个文件系统的开销等因素后,存储成本是显著增加的。二是因为业务的快速扩容, 如果频繁增加 HDFS 集群节点,会影响业务的可用性。
基于以上原因,数禾选择了阿里云数据湖方案。数据湖采用 对象存储 OSS 作为底座,无需担心容量的扩展或是小文件的增加。文件数量的快速增加会对 HDFS 集群的 NameNode 造成比较大的压力,但是对象存储结构无需担心文件数量增加,哪怕是到万亿级的 object 的数量,也没有任何压力。采用了数据湖方式以后,多 bucket 切分搭配阿里云的 RAM 体系,可以做到非常细腻度的访问控制。再通过例如 OSS 与 EMR 在软件层合作优化的 JindoFS 方案,能够输出超过 TBS 的吞吐能力,以支撑整个业务的需求,实际操作体验超越自建HDFS。此外,通过云上弹性资源能力,任务可以随需进行千台规模节点的弹性伸缩,达到降本增效的效果。
文章图片
数据湖经典使用场景-冷热数据分层 模式特点
- 应用与业务系统的长期运行积累了大量的冷数据,不断增长的冷数据对现有集群的存储空间压力大
- 需要解决冷数据存储空间,同时为访问频繁的热数据留出性能优化空间
- 优化冷数据的长期存储成本,要能远低于热数据存储成本,并且冷数据要能便于读取
文章图片
教育科技平台实践案例 客户价值
- 通过 OSS 多存储类型和数据生命周期管理,实现冷数据长期存储的成本优化,通过云上承载冷数据,IDC 自建集群无需扩容,解决机房空间难题
- 通过 OSS 数据湖的高可扩展性,有效的帮助客户解决了大数据存储的性能吞吐问题,规避了自建 HDFS 文件系统在元数据节点的性能瓶颈
- 客户已经在规划进一步通过云上弹性资源去扩容计算资源,减小一次性资源投入
文章图片
全球化在线游戏实践案例 客户价值
- 通过日志服务,打通应用日志的采集、投递,贯通实时计算引擎,为后续的用户热力图 ,用户轨迹,用户登陆,在线人数统计提供数据支撑
- 通过 OSS 数据湖承载所有日志数据的长期存储,与离线分析引擎结合,能够更深入对日志数据进行分析
- 全球统一化架构部署,对于一款面向全球化的游戏,可以保证在全球任何一个区域都可以使用相同的部署方式,简化运维部署难度
【企业级数据湖最佳实践】
文章图片
小鹏汽车-自动驾驶实践案例 数据湖与各种存储产品之间是无缝打通的。在这个自动驾驶案例中,我们提供了一套完整的从采集到存储到分析的方案。闪电立方提供了车载的部署能力,解决了自动驾驶场景下每天采集的大量路面数据的存储问题,采集完以后通过就近的接入点快速地存储到 OSS 数据湖中去,解决了最后一公里的问题,把数据上传到 OSS 以后,可以直接使用阿里云的各项计算引擎,包括 EMR、MaxCompute 等对数据进行各种各样的清洗标注和分析。CPFS 是阿里云上的一款支持大规模并行计算的存储产品,它有非常高的吞吐能力,并且是 posix 语义的。OSS 数据湖与 CPFS 无缝的数据流动,使得训练数据也能传递到 CPFS中,对数据 GPU 进行分析,并将最终的结果写回到 OSS 做长期的存储。
文章图片
不光在互联网领域,包括自动驾驶、高性能计算等都已经广泛的应用数据湖。希望有更多的用户可以在生产业务中引入阿里云数据湖。
原文链接
本文为阿里云原创内容,未经允许不得转载。
推荐阅读
- 最佳损友
- 静心最佳去处——如是书店
- 企业级/B端设计交互/界面规范(二)|企业级/B端设计交互/界面规范(二) 基础原则规范说明
- 总有那么一些付出和回报极度不平衡的时刻——《最佳出价》
- 最佳广告
- 休赛期至今哪队已有最佳操作(勇士捡宝考神,雷霆底薪能签1悍将)
- 如何看待周冬雨获得第|如何看待周冬雨获得第 33 届金鸡奖最佳女主角,成为继周迅,章子怡之后的第三个三金大满贯得主
- IOST这个羊毛推荐级大家,今年最佳。
- 成长的最佳路径(求人不如求己)
- 《告诫室》第十七章|《告诫室》第十七章 最佳嫌疑人 上