数仓维度建模之维度表设计(基础概念一)
1、事实&度量 对业务过程的度量称为事实
2、维度是什么
1)维度定义
在维度建模中,将度量称为“事实”,将环境描述为“维度”,维度是用于分析事实所需要的多样环境
2)维度属性
维度所包含的表示维度的列,称为维度属性 如开门方式是维度,具体11种方式是维度属性
3)维度作用
维度属性是查询约束条件、分组和的基本来源,是数据报表标签生成易用性的关键。
4)维度应用
维度的作用一般是查询约束、分类汇总以及排序、生成报表标签等。
5)标识维度
维度使用主键标识其唯一性
3、维度或维度属性的获取
1)挖掘业务人员
在和业务人员的交谈中发现维度或维度属性。常出现在查询或报表请求中的“按照”(by)语句内
2)查样例、资料
在报表中获取
3)如何选取属性
用来描述其业务的自然修饰词应作为维度或维度属性包括在维度模型中。
4、主键
1)主键作用
用于标识某维度的具体值;
是确保与之相连的任何事实表之间存在引用完整性的基础。
2)主键分类
主键有两种:代理键和自然键
- 代理键
- 自然键
- 应景变换
【大数据-数据仓库|数仓维度建模之维度表设计(基础概念一)】其实对于前台应用系统来说,商品 ID 是代理键;
而对于数据仓库系统来说,商品ID 则属于自然键。
6、维度层次 1)定义
维度中的一些描述属性以层次方式或一对多的方式相互关联,可以
被理解为包含连续主从关系的属性层次。层次的最底层代表维度中描述
最低级别的详细信息,最高层代表最高级别的概要信息。维度常常有多
个这样的嵌入式层次结构。
2)示例
比如淘宝商品维度,有卖家、类目、品牌等。
商品属于类目,类目属于行业,其中类目的最低级别是叶子类目,叶子类目属于二级类目,二级类目属于一级类目。
7、钻取(下钻) 1)定义
下钻是商业用户分析数据的最基本的方法。下钻仅需要在查询上增加一个维度属性,附加在SQL的GROUP BY语句中。属性可以来自任何与查询使用的事实表关联的维度。下钻不需要存在层次的定义或是下钻路径。
2)示例
层次型下钻:年-》月-》日-》时 逐层下钻
非层次型下钻:
跨表钻取:多表通过公共维度属性联合钻取。又称编织、多遍查询。
8、规范化 1)定义
按照三范式形成设计是事实和纬度表的方式管理数据称为规范化
规范化常用于OLTP系统的设计
2)示例
文章图片
9、反规范化 1)定义
将维度的属性层次合并到单个维度中的操作称为反规范化
反规范化会产生包含全部信息的宽表,形成数据冗余;实现用维表的空间换取简明性和查询性能的效果,常用于OLAP系统的设计
2)示例
文章图片
.
.
.
.
.
下面是我的公众号,收集了现在主流的大数据技能和架构,欢迎大家一起来学习交流。
文章图片
推荐阅读
- 数据仓库|数仓建模-埋点设计
- 数据仓库|Hadoop 3.x|第七天|MapReduce概述
- 数据仓库|如何提升数据质量
- 数据建模|数仓数据指标和标签体系区别
- 数据仓库|基于Hive数据仓库的标签画像实战
- StarRocks|使用StarRocks内置工具Routine Load同步Mysql/TiDB/PG等增量更新数据到StarRocks
- 数据库|开源数据计算引擎,实现媲美ElasticSearch的高性能并发查询
- 数据仓库|实时BI(四)低成本的数据准实时处理思路
- 信息化建设|业务发展陷入停滞,决策没有信息支撑,数据分析才是解决方案