网易数帆、云音乐、Intel、有赞最新大数据实践（PPT下载+视频回放）网易数帆、云音乐、Intel、有赞

在近日由网易数帆、Intel联合举办的网易数帆技术沙龙大数据专场上，网易数帆大数据专家、Apache Spark Committer姚琴，有赞基础架构组OLAP负责人陈琦，Intel资深软件开发工程经理、Apache Hive Committer徐铖，网易云音乐数据专家雷剑波，以及网易数帆大数据产品专家顾平等五位专家，分别就Serverless Spark、ClickHouse、Spark/Flink加速、数据仓库和数据产品等话题分享了各自团队的最新实践。

文章图片

Kyuubi：开源企业级Serverless Spark框架
网易数帆大数据专家、Apache Spark Committer姚琴分享了数帆开源项目Kyuubi的研发初衷、设计要点及其在网易的实践。Kyuubi 是一个遵循 HiveSever2 的 RPC 实现的分布式 JDBC 服务，在 Spark 赋予多租户能力后，可以让它成为一个理想的 Hive QL迁移 Spark SQL的平台，其次它将整个 SQL 的 Compiler(编译优化) 和 Runtime（执行）全部交由 Spark 实现，可以获得非常卓著的性能。在这个框架之下，网易数帆整合 Kyuubi 和 Spark 的一些高级特性，开始了 Serverless Spark（Spark as a service）之旅。

文章图片

由于 Kyuubi 封装 Spark 高阶 API，通过C / S 架构提供，用户对 Spark 相关的概念和框架“无感知”，更加专注于自己的业务和数据本身。这可以满足更多人更多业务对大数据的直接需求。
在网易内部，Kyuubi已经帮助网易传媒业务完成 Hive QL 任务至 Spark SQL的平滑迁移，在完成计算资源资源节省50%的前提下，总体时耗同步缩减70%，综合性能提效727%。此外，团队还正在帮助业务线实施 Spark 作业从 YARN 集群上迁移到 Kubernetes 的工作。
视频回放：https://www.bilibili.com/video/BV1164y197iz
PPT下载：https://sq.163yun.com/resource/download?id=565376248668409856&fileId=565376174894796800
Kyuubi开源地址：https://github.com/NetEase/kyuubi
ClickHouse在有赞的使用和优化
有赞基础架构组OLAP负责人陈琦从三个方面介绍了ClickHouse在有赞的使用和优化：1）ClickHouse在有赞的发展，平台化建设，应用场景，比如DMP，SCRM，CDP等场景的落地和优化。2）千亿级别数据量的离线读写分离，使用离线写入K8s临时构建集群来实现离线数据的读写分离，从而解决写多读少的业务发展问题。3）自研新数据库的探索POC，尝试去融合Doris和ClickHouse，来解决双方的痛点。

文章图片

陈琦介绍，ClickHouse 不太像一个传统意义上的分布式数据库，整体比较 “手动档”，很多地方都需要用户自己去设计一个流程去完善，比如写入，物化视图等；同时，ClickHouse 也没有自动 Rebalance 的能力，导致扩容缩容运维特别复杂。相比之下，Apache Doris 更像一个分布式数据库，也解决了部分痛点，比如能够自动平衡，支持Shuffle Join 等，但目前为止其单表性能、成熟度及稳定性还不如 ClickHouse。
于是，有赞尝试利用高性能的 ClickHouse 算子实现替换基于 Impala 的 Apache Doris，在未来打造出更好的分布式 OLAP 数据库。从 POC 实现效果来看，该方案是可行性的。
视频回放：https://www.bilibili.com/video/BV1h64y1t7EQ
PPT下载：https://sq.163yun.com/resource/download?id=565376400493826048&fileId=565376393988460544
利用Intel Optane PMEM技术加速大数据分析
Intel软件开发工程经理、Apache Hive Committer徐铖分享了如何使用Intel开源项目Optimized Analytics Package (OAP)加速Spark、Flink的性能，介绍了现有Spark框架在内存管理、Shuffle实现等层面性能有进一步提升的空间。以及如何更好利用新硬件，比如利用Intel Optane PMEM（持久化内存）技术，发挥Optane的持久特性、原地擦写、字节寻址和低延迟等独特价值上，Spark有诸多进一步优化的功能点。

文章图片

徐铖重点解读了OAP Analytic Cache特性，包括利用Arrow中高性能模块、Spark/Flink的cache awareness、Disaggregated cache、Filter/Project/Aggregation下放和高性能压缩加速器QAT支持等。以Spark cache awareness为例，OAP扩展了现有Spark data source scan能够识别已缓存的热数据块，利用cache location provider来提供调度层面的cache
awareness，并针对不同的使用场景支持了多种cache location provider。
视频回放：https://www.bilibili.com/video/BV1zb4y1C7BG
PPT下载：https://sq.163yun.com/resource/download?id=565376636419231744&fileId=565376520669024256
OAP开源地址：https://github.com/oap-project/
网易云音乐数仓建设之路
【网易数帆、云音乐、Intel、有赞最新大数据实践（PPT下载+视频回放）】网易云音乐数据专家雷剑波介绍，网易云音乐正在通过规范化、共享化、自助化的统一数仓体系，降低数据使用门槛，提升决策利用效果，并实现数据驱动业务增长。他从流量数据治理和数据资产沉淀两个方面，分享了网易云音乐应对挑战的实践和思考，以及取得的成果。

文章图片

在流量数据治理方面，埋点是一个巨大的痛点，具体包括埋点格式差异较大，埋点前环节缺乏规范、需求评审，客户端埋点实现无较好的技术设计、工程规范，多数聚合流量需重新提JIRA单等，网易云音乐通过事前建立埋点规范、事中重造埋点流程、事后推动灰度稽核等措施实现治理。在这个过程中，网易云音乐通过与网易数帆共建了easyTracker埋点管理平台、easyFetch自助取数平台等系统，来保证埋点的规范化和流量数据服务自助化。
视频回放：https://www.bilibili.com/video/BV1To4y1C7i7
PPT下载：https://sq.163yun.com/resource/download?id=565376740635103232&fileId=565376735706796032
网易数据产品实践
网易数帆大数据产品专家顾平分享了网易严选数据产品实践——他从0到1构建了网易严选的数据产品体系和数据中台体系。网易严选业务正走向“数据中台支撑+数据产品驱动”的双引擎模式，释放数据价值以支持创新业务的探索，顾平结合网易严选的业务实践，分享覆盖营销和供应链的数据产品体系建设思路与步骤，并介绍作为支撑的数据中台及数据治理的相关经验。

文章图片

支撑严选“品牌+平台”运营模式，严选数据产品覆盖数字化运营、数字化管理和数字化供应三个层面，包括了商品数据运营平台、营销数据运营平台、移动数据工作台、供应链数据运作平台四大数据产品。其中移动数据工作台是严选开发的第一个数据产品，该产品主要面向管理层的数据化管理，有助于自上而下推动数据产品体系成功建设。顾平表示，数据产品可以和业务系统相连接，提供异常监控诊断、决策建议，但如果没有数据中台的支撑，数据产品就无法实现。基于网易有数的能力，严选高效高质量地落地了数据体系建设。
视频回放：https://www.bilibili.com/video/BV1Bb4y1C75t
PPT下载：https://sq.163yun.com/resource/download?id=565376835766112256&fileId=565376831504699392

网易数帆、云音乐、Intel、有赞最新大数据实践（PPT下载+视频回放）

推荐阅读

矫正腿型有哪些方法怎么矫正腿型

网上在线申请改名改名字需要多少钱

产品深度体验报告（人人上瘾的拼多多）

孩子在一岁前,怎样开发智力？

形容天空很蓝很美古诗关于描述天很蓝的诗句

即将取消不限量套餐,原来办的不限量套餐会被运营商私自变更么？

如何选择适合自己的《骑士精神2》服务器？骑士精神2怎么选择服务器

pro+|要是有六千块，内行人最推荐买什么手机？这4款性能续航俱全

为什么出现菲斯曼锅炉显示if23？找出故障分析原因

重庆哪家摄影工作室比较好？

蒙古族的服饰那些事

冒充扒皮鱼的什么鱼

redis每秒处理多少请求正常redis请求耗时

奥运会体操图片奥运会体操

给灌篮高手的球员打分,像2k系列那样？

关于世间丑恶的名言

山王输给湘北是不是就淘汰了,那这届全国大赛的冠军是谁？

吃什么菜养胃又治胃病？吃什么菜对胃好养胃的食物

中筋面粉怎么调出来的

面包树属于哪一种树木为什么面包树为什么叫面包树