【原创】音乐产品中个性推荐及用户画像的小观察

其实说到内容个性推荐,目前主流是基于用户、基于内容的协同过滤,再通过各种正向、负向行为反馈来修正、排序、分发。关于推荐算法的技术实现,我知道的只有这么多,再深的技术我也不懂了。但是,我要说的,是通过一些内容产品的体验上,对产品策略的思考。
网易云的年终总结刷屏,当初在 slack 里已经已和同学们做过一些交流(https://www.jianshu.com/p/df457462f914),文中提到,我之前的老大认为用户画像是网易这次活动成功的关键点,着眼于这个点,我认真观察了目前较为强势的两款较为强势的音乐产品——QQ 音乐、网易云音乐——中用户画像以及个性推荐上的差异。
一、乍见之欢的 QQ 音乐
迁移到 QQ 音乐时间只有几个月,起初“每天 30 首”模块让我有点小惊喜,因为顺着这歌单听到了很多中意的歌,当时心想腾讯毕竟技术积淀更为深厚。
【【原创】音乐产品中个性推荐及用户画像的小观察】但是最近发现,我错了,它不是算法精妙,而是做了一件简单却不易出错的事。臆测它就是从我常听的歌里,通过相同歌手、同一专辑等条件来获取推荐来源。为啥我这么猜?偶然放过一次《云宫迅音》之后,连着几天的歌单里都出现了《三星洞学艺》、《官封弼马温》、《大圣游天宫》这种,我只能猜 QQ 音乐是生生把许镜清跟我关联上了…
为什么 QQ 音乐会给我一种算法准的错觉?比如我听过陈绮贞的《小步舞曲》之后,它继续给我推同一专辑中的《吉他手》,这固然没有错,甚至是对新用户非常奏效的小聪明。起初我觉得这是一种懒,且懒得并不高明,以致于出现因为偶然行为而给我推荐《西游记》全家桶这样的灾难,但是随着进一步的观察和分析,我在后面否定了自己对 QQ 音乐的评价。
二、神坛之上的网易云
再看网易云,从网易推给我的日常歌单来看,“民谣”这个标签在推荐歌单中有着极深的烙印,个人并不喜欢的赵雷、宋冬野之流出现很多次,如果没有猜错,应该也是来自陈绮贞的播放行为让网易觉得我是民谣爱好者,虽然我是把陈老师当做有战斗属性的摇滚在迷恋。这不是算法的错,算法无从感知情绪、理念等无法量化、归类的信息。如果网易云的主流用户都是把陈绮贞当做民谣歌手,那么站在产品的角度,换做我,也会放弃低概率的异类。所以总体来说,网易的推荐给典型用户的歌单观感要好很多,通过情绪在歌单中的传达,自然会吸引到更多“情怀粉”。
为什么我会从歌单想到用户画像在个性推荐里的重要性呢?它是基调。从公开的社交资料可以获取的信息里,我应该具有这些属性:男,25-30 岁,广东深圳;从过往使用行为里可以获取的信息就更多了,听歌频次如何?常听哪些流派?是喜欢漫无目的找歌还是重复听列表?这些信息应当不需要太过复杂的处理,但是无论从哪个维度来划分,我是每天必听西游记的人吗?我不知道过往的行为结合基础属性打在我身上的效果是如何画像,但 QQ 音乐因为偶然行为把一位老艺术家绑定在我身上,着实有些偏离。基调的偏离,当然会影响到推荐结果。所以感谢同行衬托,用户画像更精确的网易云向神坛更近了一步。
三、为什么会有这些差异——UGC 的力量
前面说过,机器无法感知情绪、理念这类非标准信息,但是人可以。人不仅可以感知这些虚拟概念,还能赋予它更多的概念。我们拿前面的《云宫迅音》为例,它在 QQ 音乐里的关联歌单只有 3 个,于是与它较强的关联只能是“许镜清”,是“《西游记》原声带”;但是在网易里它的关联是什么?是“神级 BGM 合集”、“90 后儿时回忆”、“最强起床闹钟”这些 UGC 歌单。
网易推的歌单与 QQ 最大的不同之处在于,它不再明显受限于歌手、专辑等强关联的标签,选取的范围放宽了非常非常多。还是以推荐歌单为例,曲风总体舒缓、慵懒,涵盖中、英甚至日、法文歌曲,极少有连续重复的歌手。我猜测它的推荐来源是什么呢?诸如“一杯咖啡一本书一个下午”“孤独的人别听民谣”这类 UGC 歌单。
回到我们开头提到的,协同过滤并没有太多玄学在里面,所以 QQ 音乐并不是我前面所说的懒,弱势在于无米之炊,除去基于用户、基于内容的数据,“UGC 歌单”这种形式的标签工具完全失效了。
四、交集与并集
通过 UGC 歌单的关联,网易可以由一首歌串联出一个巨大的并集,推荐准入池变得非常丰富。其实这种差异,还体现在很多产品中,比如被骂成狗的微博 feed 流。
长期观察微博的朋友会发现,微信 feed 流从最初按关注的人时间线排序,一步步到打乱时间线、加入未关注微博,其实和前面音乐的推荐是有些类似的。在微博的社交媒体属性日益增强的时候,对典型内容消费者来说,feed 流里来自好友的原生信息是日益减少的,因为朋友圈占有了更多社交需求的注意力,如果让用户一直被蓝 V 们的早安与鸡汤包围,微博的走衰会成为必然,并且在头条的崛起下,留给微博的使用时长也更加宝贵,所以怎么办,让用户在有限的时间里看到更多优质的内容。
如 QQ 音乐的问题一样,若是没有足够的来源,分发就无从谈起,所以微博加入了这么几个来源:1、关注的人赞过的微博;2、未读微博。未读微博来源于存量内容加权后优先展现,避免优质内容的浪费,这里不赘述,重点说一下关注的人赞过的微博这项增量。关注在微博里其实是一种比较强的关系,大家可以想想自己会出于什么样的情况下去关注一个账号呢,“关注后阅读”这种急功近利的功能带来的粉丝暂且不谈,新增关注大抵是两个来源:对人的认可,对这个人发布的内容认可,这些人和内容对阅读者来说都是正向的(其实“关注后阅读”也算,只是手法太粗暴)。“赞”与“无互动”这样的二分行为评判中,赞无疑也是个正向行为,所以不难推导出,认可的人认可的内容,大概率是优质内容,当然应该加入准入池。纵使微博的乱序时间线天天在王高飞的微博下被骂,但身体是实诚的。在微博生态里,大多数小透明很难抽离出来承认微博推荐的内容对他们是有吸引力的,而只会关注自己对feed流的掌控性变弱这种显性现象,所以骂归骂,微博的数据一路攀升,市值更是翻了几番。
回到网易云音乐里来说,为什么关联歌单会成为优质的推荐来源呢?歌曲与歌曲之间的关联度没那么大,所以还需要另一个维度的工具来划分不同粒度,我们姑且称之为标签。歌单这个时候其实并不仅仅是一个容器,而是若干种形态的标签,一种情绪或者一种概念,我们偏好的概念里,大概率会有喜好的内容。
那什么时候应该只取交集?目前只考虑到一种情况,就是原始数据还不够丰富的时候。如上所述的 QQ 音乐,在没有足够准入来源的情况下,不老老实实按照作者、专辑推,还能怎么着呢?对不知喜好的用户推保守的内容,是不容易引起反感的方法,这个策略常常见于个性化阅读产品。例如头条、网易新闻初次打开的时候普遍会推一些大众喜爱的人畜无害的资讯,除开永远置顶的“新时代”,大抵是一些轻松段子、娱乐资讯,毕竟这才是最大公约数。给白领推三俗,给无业游民推深度调查都是自杀行为,毕竟在新用户成本高企的今天,谁也不希望自家产品被打开之后便再也没有获取行为数据的机会,甚至直接被卸载。
当然了,个性推荐类产品从外部看,总是盲人摸象的臆测,即使极力避免以己度人,但个体差异太大也会让结论充满太多不确定性。个性推荐是基于数据的产品工具,所以也只有扎扎实实的数据,才能对之评判一二吧。

    推荐阅读