es olap数据分析

ApacheKylin在美团数十亿数据OLAP场景的实践,美团各业务线存在大量的OLAP分析场景,需要基于Hadoop中的数十亿数据进行分析,直接响应分析师、城市BD等千人交互访问请求,对OLAP服务的可扩展性、稳定性、数据准确性和性能要求较高 。ClickHouseClickhouse由俄罗斯yandex公司开发 。

1、数仓初识-理论知识数据仓库是一个面向主题的、集成的、非易失的和时变的数据集合 。以下是对上述分层的简要描述,下面将具体详细描述每一层;这一层主要做数据标准化,开始做一些维度降级工作(维度表合并),但这一层还是正常的表单设计 。这一层开始设计面向主题的宽表,以反范式设计DWD层的数据结构,减少多仓库查询的Join操作 。ADS层也叫数据集市层,为了屏蔽业务直接查询多仓,会导致多仓压力增加 。因此,该层将使用Kylin和ES等许多组件来加速多仓库查询 。

2、技术选型-OLAP大数据技术哪家强?Lambda架构的核心思想是“流与批的融合”,因为随着机器性能和数据框架的不断完善,用户其实并不关心底层如何运行,批处理还是流处理,而是可以按照统一的模型返回结果,这就是Lambda架构诞生的原因 。现在很多应用如Spark、Flink都支持这种结构,即数据进入平台后,你可以选择批处理或者流运行,但无论如何一致性都是一样的 。

适合的场景也是相对固定清晰的地方 。ClickHouseClickhouse由俄罗斯yandex公司开发 。专为网上数据分析 。Clickhouse最大的特点首先是速度快 。为了快速采用列存储,列存储更好的支持压缩,压缩后的数据传输更?。愿?。同时支持碎片化、分布式执行和SQL 。

3、数仓建模分层理论【es olap数据分析】本文完整清晰地讲述了数据仓库建模的分层理论 。主要观点如下:1 .分层的意义:结构体系清晰,数据血缘追踪 , 减少重复开发,简化复杂问题,统一数据口径2 。ODS:用作缓冲剂,可以保存一周左右,大部分都是用DWD重复的 。保存的目的是为了与来源保持一致,便于追溯3 。DWD:为ODS制作数据 。在DWD层,将根据维度模型设计事实表和维度表 。DWD层是一个非常标准化、高质量和可信的数据细节层 。4.DWS:基于DWD层,会形成某个话题的轻型汇总表或者分析宽表,形成大量降维的事实表,提高易用性 。DWS层应该覆盖80%的应用场景 。5.TDM:标签层,所有业务板块将通过统一的IDMapping进行整合 。在每一个业务流程中,同一对象的数据都是开放的,形成了该对象的全局数据标签体系 , 便于深入分析、挖掘和应用 。请注意,这个ID不仅指客户或用户ID,还包括其他主数据ID , 这是整个流程分析的基础 。6.ADS:数据应用层的ApplicationDataService是面向业务定制的应用数据,主要提供给数据分析使用的数据产品和数据 。

    推荐阅读