实践是知识的母亲,知识是生活的明灯。这篇文章主要讲述实时开发平台建设实践,深入释放实时数据价值丨 04 期直播回顾相关的知识,希望能为你提供帮助。
原文链接:??实时开发平台建设实践,深入释放实时数据价值??
视频回顾:??点击这里??
课件获取:??点击这里??
一、实时数仓建设背景随着整体行业的数字化转型不断深入以及技术能力的不断提高,传统的 T+1 式(隔日)的离线大数据模式越来越无法满足新兴业务的发展需求,开展实时化的大数据业务,是企业深入挖掘数据价值的一条必经之路。
面对数字化转型下的数据快速产生、“小步快跑” 的精细化运营及实时化和自动化的决策需求,如何提高实时数据处理能力将成为企业提升竞争力的一大因素。
文章图片
而企业在建设实时数据应用时,又往往面临诸多困难:
- 实时开发技术门槛高,学习难度大,开发过程依赖各种引擎,链路复杂
- 开发数据效率低,代码调试复杂
- 建设成本、使用成本高
- 数据建模及开发规范不统一,问题难监控,管理困难
文章图片
为了解决这些问题,我们在实时建设过程中需要确定建设方式和建设目标,帮助企业更好的实现实时数仓建设。
文章图片
二、实时数仓建设方法论如何帮助企业建设实时数仓,我们主要从以下四个步骤入手:
文章图片
1、明确需求企业进行实时数仓建设的第一步是明确需求,需求需要业务需求和技术需求想结合。
1)业务需求方面:
- 详细梳理各类实时计算应用场景
- 详细梳理每个实时指标的具体需求
- 详细梳理每个实时指标的数据来源信息
文章图片
2、技术选型第二步技术选型阶段,技术选型包括四个方面的选型:
a、整体技术路线
b、采集工具
c、消息中间件 + 计算引擎及
d、维表、结果表的存储数据库
文章图片
3、数仓设计与开发第三步是数仓设计与开发,包含一下三个方面:
a、实时数仓分层设计
b、开发规范
c、代码开发与调试
文章图片
4、管理与监控第四步是管理与监控,可以从任务发布、运行监控与告警、实时数据治理这 3 个部分入手。
文章图片
三、基于数栈实时开发平台建设实时数仓分享完实时数仓的建设方法论,接下来来为大家分享实时数仓的建设流程。
文章图片
第一步:实时采集基于 Chunjun(原 FlinkX)对数据库进行 CDC 采集,实现采集工具化,可对主流数据源进行 CDC (日志数据) 和通过 JDBC(间隔轮询)两种实时采集方式。
1、CDC 读取
读取数据库日志的方式,对源库无压力
2、JDBC 读取
面向不开放数据库日志的场景,通过高频率的 JDBC 轮询读取数据,要求有自增字段
文章图片
第二步:数据开发1、数据开发基础功能
现在展示的是数据开发的一些基础功能,包括:WEB SQL IDE、可视化建表、维表缓存策略及系统 & 自定义函数,丰富的底层组件封装,界面化操作,降低开发门槛,使开发人员专注于业务逻辑处理。
文章图片
2、数据开发高阶功能
除了数据开发的基础功能之外,还有面向特定行业或场景的高阶配置,包括自动重试、自动启停、脏数据管理。
文章图片
第三步:发布上线开发完毕之后就是任务的发布上线,发布上线包括任务调试和任务导入导出两个方面。
文章图片
第四步:任务运维任务运维就是全局掌控任务的运行,对于一些异常或紧急情况进行处理的过程。
文章图片
上述的实时数仓建设过程,其实正是袋鼠云自研的数栈实时开发 StreamWorks 产品的落地实践过程。
云原生一站式大数实时开发平台(StreamWorks),面向实时数仓构建的云原生一站式大数据实时开发平台,实现从实时数据采集、实时数据处理、任务监控运维的全链路覆盖。支持 Flink 多版本引擎、Kubernetes 资源调度,提供丰富的运维监控曲线,助力企业实时化转型。 图片
同时产品具备以下特点:
- 采集 + 计算 + 运维一体化
- 统一元数据管理
- 批流一体
- 功能丰富
- 云原生支持
同时产品具备 3 大价值:
- 降低开发门槛
- 全面运维保障
- 促进数据规范
四、实时数仓建设案例接下来我们分享两个使用客户的实际案例,为大家介绍实时开发平台如何切实的帮助客户解决问题。
- 某国有专业经济信息服务机构
文章图片
- 某证券客户
文章图片
五、数栈批流一体架构解析最后我们为大家介绍一段拓展资料,关于数栈批流一体架构的解析。
- 批流一体整体架构
文章图片
- 批流一体核心价值
文章图片
- 批流一体数据建设链路
文章图片
- 批流一体采集技术架构
文章图片
原文来源:VX 公众号 “数栈研习社”
袋鼠云开源框架钉钉技术交流qun(30537511),欢迎对大数据开源项目有兴趣的同学加入交流最新技术信息,开源项目库地址:??https://github.com/DTStack??
【实时开发平台建设实践,深入释放实时数据价值丨 04 期直播回顾】
推荐阅读
- 借助LogAnalyzer打造轻量级数据库审计日志平台
- 方大九钢携手图扑软件(数字孪生”高精尖“智慧钢厂)
- 昨天面试被问到的 缓存淘汰算法FIFOLRULFU及Java实现
- [ Linux 长征路第一篇] 基本指令
- 产业元宇宙(数字孪生的三重世界)
- LambdaQueryWrapper&QueryWrapper增删改CURD使用教程案例
- POJ - 2236Wireless Network (并查集)
- *HDU - 2473Junk-Mail Filter (并查集--删点操作)
- POJ - 3250 Bad Hair Day (单调栈)