内容推荐三论之一(“要机制,不要补丁”!)
从3月底今日头条广告“二跳门”至今,头条系产品现在陷入了舆论漩涡,我们接收到的直观消息是头条系产品导向不正确、内容涉嫌违规。我想聊的是在这个表象的另一面,其实也是其推荐算法的一次马失前蹄。什么叫推荐算法呢?几年前第一次听说今日头条的时候,它的标语就深深地印在了我的脑海中,“你关心的,才是头条”,用一句话来说,就是你喜欢什么他就给你推荐什么,这一点我们大家都很熟悉了,无论是今日头条还是它旗下的火山小视频、抖音、西瓜视频等等还是其他很多内容推荐类产品都有一个共同特点,你阅读过哪一类的文章,他就不断给你推送哪一类的文章,你看过那个类型的视频他就不断给你推送同一类型的。那今天我来和大家聊聊的是这个推荐的机制和逻辑到底是怎么样的呢?我们每个人又在这套推荐机制里处在什么样的地位呢?前不久,我读了一本书,叫做《走进内容推荐时代》,也是一本新书,就其中我的几点感悟,和大家一起分享一下。
首先和大家明确一个认识,智能推荐如果让你用一句话来解释他的含义,应该怎么解释,其实简单来说,智能推荐就是人和信息的一种匹配形式。智能推荐的智能就在于你的点击决定了你后面将收到什么样的内容,你不仅是信息的消费者,而且还是你将要收到什么信息的决策者。所以抽象地理解,智能推荐就是人和信息的一种匹配形式。那么我们把智能推荐理解成人和信息的匹配形式之后,我们再想想,人和信息的匹配都有哪些形式呢?大家一起想一想。或者我们把这个问题转化一下,我们获取信息的渠道都有哪些呢?
【内容推荐三论之一(“要机制,不要补丁”!)】我觉得在当今时代,人获取信息最广泛的渠道至少有三种。一种是传统媒体给你的推送,第二种是我们想要什么信息我们去搜索,第三种就是我们知道自己的喜好,或者是潜意识里知道自己的喜好,但不知道自己到底想要什么样的信息,只是想打发无聊,或者只是想充实一下自己,于是就去打开这一类的智能推荐APP。这三种方式的关系其实非常有意思。
我们先拿传统媒体和智能推荐比较一下,智能推荐的逻辑是,机器觉得你可能喜欢什么,他就给你推送什么。有一种说法认为,长此以往,我们就给自己做了一个信息茧房,通过它只能看到一类的信息。相比之下,但是,我们的传统媒体除了觉得你可能喜欢什么给你推送什么之外,还有他们觉得你应该知道什么,就给你推送什么。我举一个很典型的例子,就是315晚会,315晚会这样的内容就包括了消费者可能关心的内容,比如山寨产品比如豆腐渣工程比如以次充好等等,以及消费者不一定关心或者不知道自己是否关心,但是媒体或者信息源的掌握者希望大众知晓的信息,比如发布监管部门的有关消费预警,比如很多辟谣信息,完全靠观众是否关心作为取材来源,是没有办法做到有如此之高的权威性和指导性的。在这个场景中,我们大众对于权威发布常常感觉距离遥远,对这类信息没有天生的偏好,对于身边和自己有关的信息需求最强,但实际上,我们是应该知道这些权威信息的。这个在智能推荐平台是实现不了的。
再拿搜索和智能推荐比较一下,两者有共同点,搜索系统是将海量内容与用户表意明确的查询词相关联,推荐系统则是将海量内容与用户没有明确表达的偏好相关联。所以说,重要的就是怎么处理和认定用户没有明确表达的偏好呢,这里是智能推荐逻辑的核心。一般来说呢,我们认为有这么几种方式,第一就是贴标签。我们都曾经想象过未来每个人的个人信息只需要摄像头识别一下全部都能显示出来,现在在很多领域比如说健康、安防都已经开始应用了,不过互联网领域的贴标签做得更为广泛,你喜欢科技还是喜欢音乐,喜欢篮球还是喜欢健身,当你在一个互联网APP后台有越来越多的标签的时候,也是给你的智能推荐越来越丰富的过程。但是,你以为只有用户的选择就够了吗,算法它本身是没有信息识别能力的,算法如果说有信息识别能力,那也是人给他加上的。比如说在我提到的《走进内容推荐时代》举了一个例子我觉得很好理解,在《中国有嘻哈》开播之前,大众是不知道红花会是什么的。彼时你搜索红花会,搜索引擎会告知你它是金庸先生《书剑恩仇录》里的一个江湖组织。而当《中国有嘻哈》开播后,所有人突然开始搜索红花会了,系统的滞后让它无法快速理解用户的真实意图。这时,产品经理就该进行规则干预了,标注红花会是一个嘻哈团体。注意这里的一个词,规则干预。如果有一天,有位流量明星主演了《书剑恩仇录》,那么大众对“红花会”的认知,是否又会重回武侠小说了呢?系统里配置的规则“红花会=嘻哈团体”是否又会变得不合时宜呢?
所以说,短期的干预可能会越来越多,人为的干预很难完全跟上内容的迭代更新速度。如果把人为干预比作打补丁,短期打补丁能够遮住窟窿,但长期补丁叠补丁这衣服就没法穿了。太多的规则系统会严重增加系统的复杂度,降低可理解性。所以人为干预是应该逐步被长期的机制所替换的。
我们还记得在几个月前,微博热搜也被关停了一个星期,被关停之前先后出现了有关明星丑闻、有关紫光阁和地沟油的热搜词,前者事关内容导向问题,后者更令人啼笑皆非的其实是因为它的荒唐滑稽,这种情况下就需要人为地打补丁。热搜重新开放之后我们看到了其中新增了“新时代”这个标签,热搜榜也增加了置顶的热搜词。我想就可以看做是增加了人工干预,加大了人工审核与编辑力度,或者更进一步说是优化了热搜生成机制。所以呢,我想,头条系产品目前和未来一段时间内估计都要在这方面投入一些精力。
推荐阅读
- 成交的种子咖啡冥想
- 历史教学书籍
- 【亲测好用】高逼格配色网站推荐
- 推荐系统论文进阶|CTR预估 论文精读(十一)--Deep Interest Evolution Network(DIEN)
- 往前跑,向前冲??——勇气读书会推荐图书《阿甘正传》
- 电影推荐|电影推荐|《教父》
- Filecoin挖矿投资报告
- 三D088期
- 联机共读11期-6.2-汤亚萍|联机共读11期-6.2-汤亚萍 “好的内容+多的流量=知名的品牌”
- Python专栏|数据分析的常规流程