- 基于内容的推荐:推荐给用户他们过去喜欢的类似产品;
- 基于CF的推荐,识别出具有相同爱好的用户,给他们推产品
- 对数据内容分析,得到物品的结构化描述
- 分析用户过去的评分或评论过的物品的,作为用户的训练样本
- 生成用户画像
a.可以是统计的结果(后面使用相似度计算)
b.也可以是一个预测模型(后面使用分类预测计算) - 新的物品到来,分析新物品的物品画像
- 利用用户画像构建的预测模型,预测是否应该推荐给用户U
a.策略1:相似度计算
b.策略2:分类器做预测 - 进一步,预测模型可以计算出用户对新物品的兴趣度,进而排序
- 进一步,用户模型在变化,通过反馈更新用户画像(用户画像在这里就是预测模型)
- 反馈-学习,构成了用户画像的动态变化
【推荐算法(基于内容的推荐_1:内容推荐算法)】用户信息和物品信息都被表示为带权重的词向量,使用余弦相似的计算用户对一个物品的兴趣度
例如:
1. 物品画像表示为视频的属性(TF-IDF):(视频名字,导演,主演,….)
2. 用户画像(喜欢或者不喜欢的电影类型):(视频名字,导演,主演,….)
3. 计算相似度(余弦相似度)
内容相似度的检索
- 基于knn的最近邻的方法(基于空间向量模型)
- 选择出用户u喜欢的文档集合
- 在这些文档集合中,选择k个和新文档最相似的文档( 相似度使用余弦相似度计算)
- 注意区别和CF:cb的方法中是用文档和文档内容的相似度计算,而cf的方式是通过用户的打分来计算
基于文本分类的算法
- 基于概率的算法
- 基于其他线性分类器
- 基于决策树
- 基于聚类
- 传统是基于IF-IDF的方法
- 现在是基于语义学的方法
- 文档的数据处理
- 得到结构化的数据,存储在物品库中
- 收集有关用户偏好的数据特征,泛华这些数据,构建用户特征信息(机器学习)
- 通过历史数据构建用户兴趣模型(通过分类的方法,提取特征,特征就是组建用户画像的基础)
- 生成兴趣特征(正样本)和无兴趣特征(负样本)
- 将用户的个人信息和物品匹配
- 生成二元或连续性的相关判断(原型向量和物品向量的余弦相似度)
- 喜欢/不喜欢
@@@A_hybird_user_model_for_news_story_classification) - 评分
- 离散刻度值
@@@Social_information_filtering_algorithms_for_automating_”word_of_mouth” - 把用户对网页的评价划分为热门,一般,冷门
@@@Syskill_&_webert:_identifying_interesting_web_sites
- 离散刻度值
- 文本评论
- 保存
- 删除
- 印刷
- 收藏
- 缺点:偏差比较大
- 建立活跃用户 Ua的个人画像;定义 Ua 的训练集TR;TR是
的集合; - rk是用户对物品描述 Ik 的平分
- 监督学习算法生成预测模型
- 给定一个新的物品的描述
- 比较存储在用户数据库的用户偏好和物品特征
- 预测是否 对物品有兴趣
- 时刻改变用户个人信息
- “反馈-学习”
- 用户独立性:仅使用当前的用户评价来构建用户的个人信息
- 透明度:可以接受推荐的结果
- 新物品:没有任何用户评分的也可以推荐
- 可分析的内容有限
- 新颖度差
- 新用户需要用户的偏好信息