先看一个通俗的例子:
比如我们要介绍陈老师,可以有三种讲法:
指标:陈老师身高180cm,体重200斤
标签:陈老师1米8,大胖子
标签:陈老师啊,黑旋风李逵听说不?
这就是标签和指标的直观区别。数据指标,是用数据对事物的准确描述。比如身高、体重、腰围、手臂长度,这些都是数据指标。标签,则是基于原始数据加工的,带了业务含义的概括性描述。一个“大胖子”,就同时概括了身高和体重,而“长得跟李逵似的”,更是把五官、身材、气质等特征都概括进来了。
指标 VS 标签
显然,对比起来,用数据指标描述事物,会更精确。但标签也是同样重要的。因为除了“精准”以外,人们还有更多的需求。
首先,并非所有特征都能用一个数据指标来描述。常见的指标,一般是连续变量(比如身高183cm)或者定序变量(风险等级ABCDE)。还有大量的特征,是以分类变量的形式存在。比如商品规格(50ml一瓶)、颜色(赤橙黄绿)、用途(比如:居家保健、外出防护……)这些商品特征,一般是以标签的形式进行描述,这也是“标签”这个词最早的来源。
其次,标签是有业务含义的。比如光说两个指标:身高183、体重200斤,人听了也没啥感觉,但一旦加上标签:身高183+体重200,很魁梧/身高183+体重200,大胖子。是不是脑海里立马有画面感了。
最后,标签更容易被业务使用。介绍对象,说“我介绍个小萝莉给你”,远比“我介绍一个身高153体重85的女生给你”,更容易促成下一步行动。这就是标签的魅力。
所以,标签体系的建设是非常重要的,不但能丰富数据分析的素材,更能直接推动分析成果落地。
标签有哪些
标签有四类
1、基础特征标签
2、规则计算标签
3、综合计算标签
4、模型预测标签
四类介绍如下
文章图片
相当多的企业,没有系统做过标签梳理,有大量的散乱的基础特征标签。有些业务部门自己会习惯性提规则/综合计算的标签,但是没有和其他部门共识过,导致通用性差。这些都制约了标签发挥作用。
那如果做得好的话,标签能发挥啥作用呢?
典型的标签使用场景
一:查询信息。这是最普遍的场景了。大量的一线工作人员会有需求,比如客服、销售、售后、文案编辑,能通过标签,快速查到对应的商品、客户、活动等信息,提高工作效率。而且查询用的标签不需要很复杂,基础特征标签即可。
二:分析素材。比如做漏斗分析,看到A渠道比B渠道转化好,可怎么解释呢?这时候可以引入一系列标签。比如
- 渠道标签:公域、大众私域、垂直私域
- 文案标签:产品知识、优惠信息、个人分享
- 商品标签:流量款、爆款、利润款、
- 优惠标签:优惠力度大、中、小
有了这些标签,在解读“为什么转化率高”问题的时候,就多了很多分析线索。通过分类对比,追踪,测试,能看出来哪种标签组合下转化率最高。比单纯看转化率、每个页面UV这些数据好用得多。
文章图片
另:很多toB类分析做得很肤浅,就是因为标签收集得太少。对客户情况、谈判情况、交付过程一无所知,只知道:客户还没签约,客户签约都仨月了还没打款。这当然分析不下去了
三:策略制定。制定策略时,经常有固定的目标客户、目标商品、目标渠道。比如客户问题上,沉睡用户激活、流失用户挽留、风险用户管理,就是常见的固定主题。这时候,使用固定的标签,比如风险等级ABCDE,远比每次都临时取数拿规则省事。而且,可以通过算法模型加持,不断提升标签准确性。这是标签的高级应用了。
高级应用,需要综合计算、模型计算类复杂标签。在建设路线上,标签体系和数据指标体系有重大区别。数据指标体系建设,重在:全面。一个业务场景里,尽量多收集数据指标,数据指标越多越好。而标签体系建设,重在:有序、有效。围绕一个业务目标,尽可能多地把零散、原始描述的标签,组合成对业务有用的标签。标签在精不在多,标签质量非常重要。
如何提升标签质量
相比之数据指标,标签质量天生是个难题。因为标签是人工生产的,加入人的主观判断的。很有可能标签的描述不够准确,生产标签的数据源不能很好地表达标签的含义,从而产生误判。我们常说:“不要给人乱贴标签”,就是担心第一眼误判,干扰了对整个人的判断。
因此,标签的使用过程,与数据指标有很大区别。数据指标一旦梳理完成,除非流程更改,否则不会怎么变动。而标签在建设过程中,需要围绕同一个目标,不断地做优化,有一个明显的“提纯”的动作。
提纯是以清晰目标为前提的。比如想打一个标签:高潜力用户。如果说“我想知道哪些用户潜力高”,这就是句废话!正确的表达是:“我知道了哪些用户潜力高以后,我可以向他们投放更贵的商品组合,他们的响应率更高,我投放成本更低”。这样把使用标签场景,数据上差异表述清楚的,才是好的目标。
【数据建模|数仓数据指标和标签体系区别】有了目标以后,可以从0开始做建设。在建设初期,经常只有零散的基础特征。此时可以直接用基础特特征;或者做探索性分析,看符合目标的用户有啥特点;或者干脆拍脑袋,列几条规则。总之,整出来一个初始标签规则即可,之后就可以逐步做迭代了。只要我们发现:标签的区分效果越来越明显了。
推荐阅读
- 数据仓库|基于Hive数据仓库的标签画像实战
- 数据分析基础知识|数据分析和Excel(有关数据分析和Excel的简单介绍)
- 数据分析案例|数据分析案例(对拉勾网数据分析岗位进行分析)
- 可视化|一个阿里数据分析师的忠告(决定你工资上限的,是这件事)
- python|使用Python网络爬虫爬取数据并对其进行可视化分析,加入邮件进行判断爬取过程中是否存在错误
- 可视化|我,27岁,数据分析师,今年无情被辞(想给数据人提个醒!!)
- StarRocks|使用StarRocks内置工具Routine Load同步Mysql/TiDB/PG等增量更新数据到StarRocks
- 数据库|开源数据计算引擎,实现媲美ElasticSearch的高性能并发查询
- 数据仓库|实时BI(四)低成本的数据准实时处理思路