用户画像(3)用户画像的建模方法-事实标签

用户画像(3)用户画像的建模方法-事实标签
文章图片

如何根据用户行为,构建模型产出标签、权重。
一个事件模型包括:时间、地点、人物三个要素。
每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户,在什么时间,什么地点,做了什么事。

1、什么用户?who
用户标识的目的是为了区分用户、单点定位。
用户画像(3)用户画像的建模方法-事实标签
文章图片

2、什么时间?when
时间包括两个重要信息,时间戳+时间长度。
时间戳,标识用户行为的时间点,通常采用精度到秒的时间戳即可。
时间长度,为了标识用户在某一页面的停留时间。

3、什么地点 ?where
用户接触点,Touch Point。
对于每个用户接触点。潜在包含了两层信息:网址 + 内容。网址:每一个url链接(页面/屏幕),即定位了一个互联网页面地址,或者某个产品的特定页面。
可以是PC上某电商网站的页面url,也可以是手机上的微博,微信等应用某个功能页面,某款产品应用的特定画面。
如,长城红酒单品页,微信订阅号页面,某游戏的过关页。

4、内容?what
每个url网址(页面/屏幕)中的内容。
可以是单品的相关信息:类别、品牌、描述、属性、网站信息等等。
如,红酒,长城,干红,对于每个互联网接触点,
其中网址决定了权重;内容决定了标签。
注:接触点可以是网址,也可以是某个产品的特定功能界面。
如,同样一瓶矿泉水,超市卖1元,火车上卖3元,景区卖5元。
商品的售卖价值,不在于成本,更在于售卖地点。
标签均是矿泉水,但接触点的不同体现出了权重差异。
这里的权重可以理解为用户对于矿泉水的需求程度不同。即,愿意支付的价值不同。
标签权重
矿泉水 1 // 超市
矿泉水 3 // 火车
矿泉水 5 // 景区
类似的,用户在京东商城浏览红酒信息,与在品尚红酒网浏览红酒信息,表现出对红酒喜好度也是有差异的。
这里的关注点是不同的网址,存在权重差异,权重模型的构建,需要根据各自的业务需求构建。
所以,网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。

5、什么事?how
用户行为类型,对于电商有如下典型行为:浏览、添加购物车、搜索、评论、购买、点击赞、收藏 等等。

不同的行为类型,对于接触点的内容产生的标签信息,具有不同的权重。
如,购买权重计为5,浏览计为1

红酒 1 // 浏览红酒

红酒 5 // 购买红酒

综合上述分析,用户画像的数据模型,可以概括为下面的公式:
用户标识 + 时间 + 行为类型 + 接触点(网址+内容),
某用户因为在什么时间、地点、做了什么事。所以会打上**标签。

用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子r,行为类型、网址决定了权重,内容决定了标签,进一步转换为公式:

标签权重=衰减因子×行为权重×网址子权重

【用户画像(3)用户画像的建模方法-事实标签】如:用户A,昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。

标签:红酒,长城
时间:因为是昨天的行为,假设衰减因子为:r=0.95
行为类型:浏览行为记为权重1
地点:品尚红酒单品页的网址子权重记为 0.9(相比京东红酒单品页的0.7)

假设用户对红酒出于真的喜欢,才会去专业的红酒网选购,而不在综合商城选购。

则用户偏好标签是:红酒,权重是0.95*0.7 * 1=0.665,即,用户A:红酒 0.665、长城 0.665。

上述模型权重值的选取只是举例参考,具体的权重值需要根据业务需求二次建模,
这里强调的是如何从整体思考,去构建用户画像模型,进而能够逐步细化模型。


总结
核心在于对用户接触点的理解,接触点内容直接决定了标签信息。
内容、地址、行为类型、时间衰减,决定了权重模型是关键,权重值本身的二次建模则是水到渠成的进阶。
比如:影视产品,看了一部电影《英雄本色》,可能产生的标签是:周润发 0.6、枪战 0.5、港台 0.3。

    推荐阅读