投稿|如何摆脱信息茧房?( 三 )


算法原理从框架而言,推荐系统一般包含“召回”和“排序”两方面 。
不论是信息还是消费类电商平台,多半以此类型来训练用户,而算法又基于「内容」和「用户行为」两大类别展开 。
我们知道普通人的思维方式分为两种类型:
1)线性思维,2)非线性思维」 
前者是把认识停留在对事物的抽象而非本质上,并以这样的抽象为出发点,片面、直线的解释某件事;后者是把认识停留在对事物的抽象层并以基石出发来看底层原理 。
机器学习方式和人相似,也分为线性和多种思维(学习)模型,最主要区别是一方面偏向基础原理,一方面偏向多元化加工;从专业角度出发市面一共有6种常用方式:
1)过滤算法,2)矩阵算法;3)因子分解机,4)逻辑回归;5)梯度提升决策树,6)深度神经网络过滤
它们用在什么位置呢?
要知道,人们看到的所有信息均展示在APP的首页或分类上,在推荐系统中它们属于最上层的展示层,算法属于中间层,数据是最底层;而算法的主要功能就是排序和召回,上述的六种模型均服务它们两者 。
举个例子:
我们经常使用某款APP,它习惯性的抓取自己点击的每个图片或者下方的内容,然后以此用打标签的方式归类在后台中,该行为属于排序,进一步说平台可以收集一个账号的多个标签排序 。
可当自身许久没有打开该APP时,机器就基于自身感兴趣的内容,通过push,短信的方式召回我们 。
大部分大平台(小红书、抖音、快手)的推荐系统分人工干预和自动推荐两种,前者顾名思义人来操作,后者是给机器设定固定时间来循环使用 。
自动推荐是什么呢?
若进一步展开解释,如抖音和头条的监督学习算法Y= F(Xi ,Xu ,Xc),这三个函数包含三个维度的变量分别为:1)内容,2)用户特征,3)环境特征
三者匹配起来是一个复杂的数学问题;市面常用模型有好几种,字节系无非是把多模型混合使用,简单来说就是:你是谁、你在哪里、你爱看什么?基于这些给你推荐什么 。
一般当推荐系统的自动化运作时,它就像山头巡视的小兵,不断从整个物品或者信息聚合中抽取当次需要查询的候选集;根据各种不同维度,如物品、年龄、性别、爱好,场景等种类以及规模的大小对候选集进行推送 。
此场景犹如流水线工作的「抽样检查」,也同样用在大部分平台的召回手段上,具体策略是什么样呢?
其一:内容过滤(Content Filtering)
其二:协同过滤(Collaborative Filtering)
资讯类产品的内容审核是不可缺失一部分,主要目的是确保无低质庸俗,保持平台该有的调性;通常有“先发后审”和“先审后发”两个原则 。
场景较轻如网易云,QQ音乐此类阅读、听歌类产品通常是前者;对社区论坛、偏观点讨论、树立权威通常是后者;因此内容抽检或过滤的基础也是查敏感关键词、重复度、IP发布次数等权重指数 。
协同过滤是基于已知部分用户或部分物品的偏好或评分,预测缺失偏好或评分的一种方法 。
从切入点上,则可分为基于“去邻域”的方法(本地生活类平台使用居多)和隐语义模型(给每个分类中不同维度标签的人进行推送),比较难理解对不对?
举个例子:
跟朋友聚餐会习惯性打开美食点评平台去搜索周边餐厅,过程中我们能看到按照公里排行的推荐、也有部分商家的竞价广告 。
疑问的是,你会发现那些广告的美食是自己日常爱吃的,并且区域也不是太远,为什么会这么做?

推荐阅读