今天给大家分享一下如何进行数据治理。数据治理包括很多方面,咱今天聊聊数据质量应该如何评估。“ 数据质量的治理,是数据治理的主要内容之一。数据质量的全面评价,是数据质量治理的准绳。”
为什么要进行质量评估?可能很多朋友之前都没怎么关注过针对数据质量的内容。但是如果你经常与数据打交道,以下场景应该不陌生:
场景一:作为分析师,要统计近7天用户的购买情况,结果从数仓统计完后发现,很多数据发生了重复记录的情况;
场景二:作为业务员去看报表,发现某一天成交的gmv暴跌,经过排查发现是当天的数据缺失。
以上就是随意举了两个例子。其实咱们在工作中,很多时候数据出现问题这都是属于数据质量的范畴内。数据质量差,会导致业务分析结果不准确、决策失误以及内部不一致等等情况。提升数据质量是数据治理的重中之中,也是数据发挥价值的基础。没有质量的数据,还不如没有数据。
文章图片
关于如何提升数据质量,我们后面再来分享。在这之前,首先要知道,我们说的数据质量好或者数据质量差,到底是好在哪、差在哪。这也就是数据质量的评估。只有知道如何评估数据质量,才能有的放矢,有针对性的提升数据质量。
对于数据质量差,我们如何进行数据质量的评估呢?数据质量的评估,主要围绕着以下6个方面进行。
(1)数据完整性
数字完整性这个其实比较好理解,通俗上来说就是我们常说的数据全不全,完全字面意思。但如何用指标来衡量呢?这个我们通常是去看一份数据的总记录数是否正常。比如成交记录是1万条,但数据表只有9000条,这就是不完整的。再细一些,我们可以去看表中具体字段。比如总条数是1万,但是用户ID字段有2000是空的,这也是不完整的。
(2)数据唯一性
数据的唯一性也比较容易理解,就是讲数字是没有重复的。数字唯一性与数据完整性是相对的。完整性看的是数据少没少,而唯一性看的是数据多没多。我们还是拿上面的例子,比如真实成交1万条,但数据表有3000重复了,成了1.3万条成交记录,这就不符合数据唯一性的评估。
(3)数据有效性
数据有效性主要是看数据是否符合公司业务的真实情况。比如手机号字段,取值是32988,明显是脏数据。这里列举了几个方面:
代码值域约束:比如**类型的代码值要包含在数据标准的公共代码中
长度约束:比如约束身份证字段长度要等于18位
取值范围约束:比如要求字段值不能是负数
标志取值约束:比如要求字段取值只能是1、2、3
通过以上方面,可以衡量数据内容的质量是否达标
(4)数据一致性
数据一致性的含义是通过不同方式取出来的数据,不能是冲突的。这里强调的是多个表或者来源,只有多个对比,才有不一致的概念。数据一致性其实就是我们在做交叉验证时的内容,经常会说的一句话:“这数对不上啊!”通常分为以下三个方面:
等值一致性:一个核验对象的数据取值必须与另外一个或多个核验对象在一定规则下相等。比如,“进出口经营权许可证号”长度13位,后9位应该与“组织机构代码证”一致
存在一致性:一个核验对象的数据值必须在另一个核验对象满足某一条件时存在。比如,“登录状态”是已登录,“登录日期”不能为空
逻辑一致性:一个核验对象上的数值必须与另一个核验对象的数据值满足某种逻辑关系。比如,“支票起号”小于等于“支票止号”
(5)数据准确性
数据准确性就是多个表有不一致的概念,单个数据表呢?这就是数据准确性了。比如用户的实际地址是青岛市,但数据表存的是烟台市。一般原始数据不准的情况不多,都是统计表、汇总表容易出现数据不准的情况。比如统计用户最近30天的成交金额出现偏差。另外值得注意的是,准确性强调数据是否与真实世界值一致。这个校验有时候不容易进行。
(6)数据及时性
数据及时性主要是满足时效性的。这里也划分到了数据质量的范畴。比如一份数据是统计离线T-1日的,结果都是第二天下午甚至第三天才能统计完,这种数据的应用价值就会大打折扣了。
【亿信华辰:怎样去断定一份数据的质量高低(数据质量如何评估?)】数据质量的评估维度,就先分享到这里。后面会针对如何落实数据质量的管理、提升数据质量,进行详细分享。
推荐阅读
- Python专栏|数据分析的常规流程
- 学生作品|tina - 鸢尾花预测
- 大数据|【新书速递】流量运营教科书
- R语言从入门到机器学习|R语言rename重命名dataframe的列名实战:rename重命名dataframe的列名(写错的列名不会被重命名)
- Pyecharts|Pyecharts 猎聘招聘数据可视化
- python|上瘾了,最近又给公司撸了一个可视化大屏(附源码)
- python|深度盘点(一文详解数据分析中100个常用指标和术语)
- #|学习笔记 | Ch05 Pandas数据清洗 —— 缺失值、重复值、异常值
- python|requests库请求获取不到数据怎么办(不妨试试看这种妙法)