DataWhale|DataWhale 推荐系统实战_新闻推荐 Task1 赛题理解

赛题简介 此次比赛是新闻推荐场景下的用户行为预测挑战赛, 该赛题是以新闻APP中的新闻推荐为背景, 目的是要求我们根据用户历史浏览点击新闻文章的数据信息预测用户未来的点击行为, 即用户的最后一次点击的新闻文章
数据概况 该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B。
数据下载链接:
articles.csv
articles_emb.csv
testA_click_log.csv
train_click_log.csv
评价方式理解 理解评价方式, 我们需要结合着最后的提交文件sample.submit.csv来看, 我们最后提交的格式是针对每个用户, 我们都会给出五篇文章的推荐结果,按照点击概率从前往后排序。 而真实的每个用户最后一次点击的文章只会有一篇的真实答案, 所以我们就看我们推荐的这五篇里面是否有命中真实答案的。

DataWhale|DataWhale 推荐系统实战_新闻推荐 Task1 赛题理解
文章图片
image.png
比如对于user1来说, 我们的提交会是:

user1, article1, article2, article3, article4, article5.
评价指标的公式如下:

假如article1就是真实的用户点击文章,也就是article1命中, 则s(user1,1)=1, s(user1,2-4)都是0, 如果article2是用户点击的文章, 则s(user,2)=1/2,s(user,1,3,4,5)都是0。也就是score(user)=命中第几条的倒数。如果都没中, 则score(user1)=0。 这个是合理的, 因为我们希望的就是命中的结果尽量靠前, 而此时分数正好比较高。
赛题理解 首先要明确我们此次比赛的目标: 根据用户历史浏览点击新闻的数据信息预测用户最后一次点击的新闻文章, 所以拿到这个题目,我们的思考方向就是结合我们的目标,把该预测问题转成一个监督学习的问题(特征+标签),然后我们才能进行ML,DL等建模预测。
那么,如何转化成一个监督学习的问题呢?如此庞大的分类问题, 我们做起来可能比较困难, 那么能不能转化一下? 既然是要预测最后一次点击的文章, 那么如果我们能预测出某个用户最后一次对于某一篇文章会进行点击的概率, 是不是就间接性的解决了这个问题呢?概率最大的那篇文章不就是用户最后一次可能点击的新闻文章吗? 这样就把原问题变成了一个点击率预测的问题(用户, 文章) --> 点击的概率(软分类)。
这样, 我们对于该赛题的解决方案应该有了一个大致的解决思路,要先转成一个分类问题来做, 而分类的标签就是用户是否会点击某篇文章,分类问题的特征中会有用户和文章,我们要训练一个分类模型, 对某用户最后一次点击某篇文章的概率进行预测。




!!由于没参加上一次组队学习,在这里总结一下协同过滤的知识!! 召回层与排序层的特点:召回阶段负责将海量的候选集快速缩小为几万到几千的规模;而排序层则负责对缩小后的候选集进行精准排序
  • 召回层: 待计算的候选集合大、计算速度快、模型简单、特征较少,尽量让用户感兴趣的物品在这个阶段能够被快速召回,即保证相关物品的召回率。
  • 排序层: 首要目标是得到精准的排序结果。需要处理的物品数量少,可以利用较多的特征,使用比较复杂的模型。
Embedding是什么?
Embedding其实是一种思想,主要目的是将稀疏的向量(如one-hot编码)表示转换成稠密的向量,下图直观的显示了one-hot编码和Embedding表示的区别于联系,即Embedding相当于是对one-hot做了平滑,而onehot相当于是对Embedding做了max pooling。

DataWhale|DataWhale 推荐系统实战_新闻推荐 Task1 赛题理解
文章图片
image.png
对于非文本的id类特征,可以先将其转化成id序列再使用text embedding的技术获取id的embedding再做召回
1. 协同过滤算法
协同过滤(Collaborative Filtering)推荐算法是最经典、最常用的推荐算法。
所谓协同过滤, 基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品(基于对用户历史行为数据的挖掘发现用户的喜好偏向, 并预测用户可能喜好的产品进行推荐),一般是仅仅基于用户的行为数据(评价、购买、下载等), 而不依赖于项的任何附加信息(物品自身特征)或者用户的任何附加信息(年龄, 性别等)。目前应用比较广泛的协同过滤算法是基于邻域的方法, 而这种方法主要有下面两种算法:
  • 基于用户的协同过滤算法(UserCF): 给用户推荐和他兴趣相似的其他用户喜欢的产品
  • 基于物品的协同过滤算法(ItemCF): 给用户推荐和他之前喜欢的物品相似的物品。
不管是UserCF还是ItemCF算法, 非常重要的步骤之一就是计算用户和用户或者物品和物品之间的相似度, 所以下面先整理常用的相似性度量方法。
2. 相似性度量方法
(1)杰卡德(Jaccard)相似系数
这是衡量两个集合相似度的一种指标,两个用户 u 和 v 交互商品交集的数量占这两个用户交互商品并集的数量的比例,称为两个集合的杰卡德相似系数,用符号表示,其中 N(u), N(v) 分别表示用户 u 和用户 v 交互商品的集合。

由于杰卡德相似系数一般无法反映具体用户的评分喜好信息, 所以常用来评估用户是否会对某商品进行打分, 而不是预估用户会对某商品打多少分。
(2)余弦相似度
余弦相似度衡量了两个向量的夹角,夹角越小越相似。首先从集合的角度描述余弦相似度,相比于Jaccard公式来说就是分母有差异,不是两个用户交互商品的并集的数量,而是两个用户分别交互的商品数量的乘积,公式如下:

从向量的角度进行描述,令矩阵 A 为用户-商品交互矩阵,即矩阵的每一行表示一个用户对所有商品的交互情况,有交互的商品值为1没有交互的商品值为0,矩阵的列表示所有商品。若用户和商品数量分别为 m,n 的话,交互矩阵 A 就是一个 m 行 n 列的矩阵。此时用户的相似度可以表示为(其中 u?v 指的是向量点积):

这个在具体实现的时候, 可以使用cosine_similarity进行实现:
from sklearn.metrics.pairwise import cosine_similarity i = [1, 0, 0, 0] j = [1, 0.5, 0.5, 0] consine_similarity([i, j])

(2)皮尔逊相关系数
皮尔逊相关系数的公式与余弦相似度的计算公式非常的类似,首先对于上述的余弦相似度的计算公式写成求和的形式,其中,分别表示用户和用户对商品是否有交互(或者具体的评分值):

如下是皮尔逊相关系数计算公式,其中 , 分别表示用户和用户对商品是否有交互(或者具体的评分值), , 分别表示用户和用户交互的所有商品交互数量或者具体评分的平均值。(在中,平均符号用上划线表:\overline{r} _{ui} )
DataWhale|DataWhale 推荐系统实战_新闻推荐 Task1 赛题理解
文章图片

python实现:
from scipy.stats import pearsonri = [1, 0, 0, 0] j = [1, 0.5, 0.5, 0] pearsonr(i, j)

下面是基于用户协同过滤和基于物品协同过滤的原理讲解。
3. 基于用户的协同过滤(userCF)
当一个用户A需要个性化推荐的时候, 我们可以先找到和他有相似兴趣的其他用户, 然后把那些用户喜欢的, 而用户A没有听说过的物品推荐给A。

DataWhale|DataWhale 推荐系统实战_新闻推荐 Task1 赛题理解
文章图片

UserCF算法主要包括两个步骤:
1. 找到和目标用户兴趣相似的集合
2. 找到这个集合中的用户喜欢的, 且目标用户没有听说过的物品推荐给目标用户。
上面的两个步骤中, 第一个步骤里面, 我们会基于前面给出的相似性度量的方法找出与目标用户兴趣相似的用户, 而第二个步骤里面, 如何基于相似用户喜欢的物品来对目标用户进行推荐呢? 这个要依赖于目标用户对相似用户喜欢的物品的一个喜好程度, 那么如何衡量这个程度大小呢? 为了更好理解上面的两个步骤, 下面拿一个具体的例子把两个步骤具体化。
以下图为例,此例将会用于本文各种算法中:

DataWhale|DataWhale 推荐系统实战_新闻推荐 Task1 赛题理解
文章图片
image.png
给用户推荐物品的过程可以形象化为一个猜测用户对商品进行打分的任务,上面表格里面是5个用户对于5件物品的一个打分情况,就可以理解为用户对物品的喜欢程度
应用UserCF算法的两个步骤:
  • 首先根据前面的这些打分情况(或者说已有的用户向量)计算一下Alice和用户1, 2, 3, 4的相似程度, 找出与Alice最相似的n个用户
  • 根据这n个用户对物品5的评分情况和与Alice的相似程度会猜测出Alice对物品5的评分, 如果评分比较高的话, 就把物品5推荐给用户Alice, 否则不推荐。
关于第一个步骤, 上面已经给出了计算两个用户相似性的方法, 这里不再过多赘述, 这里主要解决第二个问题, 如何产生最终结果的预测。
最终结果的预测
根据上面的几种方法, 我们可以计算出向量之间的相似程度, 也就是可以计算出Alice和其他用户的相近程度, 这时候我们就可以选出与Alice最相近的前n个用户, 基于他们对物品5的评价猜测出Alice的打分值, 那么是怎么计算的呢?
这里常用的方式之一是利用用户相似度和相似用户的评价加权平均获得用户的评价预测, 用下面式子表示:

这个式子里面, 权重 是用户和用户的相似度, 是用户对物品的评分。
还有一种方式如下, 这种方式考虑的更加全面, 依然是用户相似度作为权值, 但后面不单纯的是其他用户对物品的评分, 而是相似用户对该物品的评分与此用户的所有评分平均值的差值进行加权平均, 这时候考虑到了有的用户内心的评分标准不一的情况, 即有的用户喜欢打高分, 有的用户喜欢打低分的情况。

表示的是用户对物品的评分,表示的是用户 的所有评分的平均值,表示的是与用户相似的个用户,表示的是用户和用户 的相似度,表示的是用户 k 对物品 j 的评分,表示的是用户 的所有评分的平均值。所以这一种计算方式更为推荐。下面的计算将使用这个方式。
在获得用户 对不同物品的评价预测后, 最终的推荐列表根据预测评分进行排序得到。 至此,基于用户的协同过滤算法的推荐过程完成。
4. UserCF优缺点
User-based算法存在两个重大问题:
  • 数据稀疏性。
    一个大型的电子商务推荐系统一般有非常多的物品,用户可能买的其中不到1%的物品,不同用户之间买的物品重叠性较低,导致算法无法找到一个用户的邻居,即偏好相似的用户。这导致UserCF不适用于那些正反馈获取较困难的应用场景(如酒店预订, 大件商品购买等低频应用)
  • 算法扩展性。
    基于用户的协同过滤需要维护用户相似度矩阵以便快速的找出Topn相似用户, 该矩阵的存储开销非常大,存储空间随着用户数量的增加而增加,不适合用户数据量大的情况使用。
由于UserCF技术上的两点缺陷, 导致很多电商平台并没有采用这种算法, 而是采用了ItemCF算法实现最初的推荐系统。


5. 基于物品的协同过滤
预先根据所有用户的历史偏好数据计算物品之间的相似性,然后把与用户喜欢的物品相类似的物品推荐给用户。比如物品a和c非常相似,因为喜欢a的用户同时也喜欢c,而用户A喜欢a,所以把c推荐给用户A。ItemCF算法并不利用物品的内容属性计算物品之间的相似度, 主要通过分析用户的行为记录计算物品之间的相似度, 该算法认为, 物品a和物品c具有很大的相似度是因为喜欢物品a的用户大都喜欢物品c。

DataWhale|DataWhale 推荐系统实战_新闻推荐 Task1 赛题理解
文章图片
image.png
基于物品的协同过滤算法主要分为两步:
  • 计算物品之间的相似度
  • 根据物品的相似度和用户的历史行为给用户生成推荐列表(购买了该商品的用户也经常购买的其他商品)
基于物品的协同过滤算法和基于用户的协同过滤算法很像, 所以我们这里直接还是拿上面Alice的那个例子来看。

DataWhale|DataWhale 推荐系统实战_新闻推荐 Task1 赛题理解
文章图片
image.png 从计算的角度看,就是将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度,得到物品的相似物品后,根据用户历史的偏好预测当前用户还没有表示偏好的物品,计算得到一个排序的物品列表作为推荐。
如果想知道Alice对物品5打多少分, 基于物品的协同过滤算法会这么做:
  1. 首先计算一下物品5和物品1, 2, 3, 4之间的相似性(它们也是向量的形式, 每一列的值就是它们的向量表示, 因为ItemCF认为物品a和物品c具有很大的相似度是因为喜欢物品a的用户大都喜欢物品c, 所以就可以基于每个用户对该物品的打分或者说喜欢程度来向量化物品)
  2. 找出与物品5最相近的n个物品
  3. 根据Alice对最相近的n个物品的打分去计算对物品5的打分情况



Baseline Baseline使用的是简单的协同过滤,这里直接写的代码,详细内容可以参考上一期组队学习推荐系统基础部分的协同过滤,对应的Github链接已经放在下面了。
Github推荐系统基础
DataWhale推荐系统基础
先看一下train_click_log.csv的列名

DataWhale|DataWhale 推荐系统实战_新闻推荐 Task1 赛题理解
文章图片
image.png
import time, math, os from tqdm import tqdm import gc import pickle import random from datetime import datetime from operator import itemgetter import numpy as np import pandas as pd import warnings from collections import defaultdict warnings.filterwarnings('ignore')

data_path = './Data/' save_path = './tmp_results/'

# 节约内存的一个标配函数 def reduce_mem(df): starttime = time.time() numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64'] start_mem = df.memory_usage().sum() / 1024**2 for col in df.columns: col_type = df[col].dtypes if col_type in numerics: c_min = df[col].min() c_max = df[col].max() if pd.isnull(c_min) or pd.isnull(c_max): continue if str(col_type)[:3] == 'int': if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max: df[col] = df[col].astype(np.int8) elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max: df[col] = df[col].astype(np.int16) elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max: df[col] = df[col].astype(np.int32) elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max: df[col] = df[col].astype(np.int64) else: if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max: df[col] = df[col].astype(np.float16) elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max: df[col] = df[col].astype(np.float32) else: df[col] = df[col].astype(np.float64) end_mem = df.memory_usage().sum() / 1024**2 print('-- Mem. usage decreased to {:5.2f} Mb ({:.1f}% reduction),time spend:{:2.2f} min'.format(end_mem, 100*(start_mem-end_mem)/start_mem, (time.time()-starttime)/60)) return df

# debug模式:从训练集中划出一部分数据来调试代码 def get_all_click_sample(data_path, sample_nums=10000): """ 训练集中采样一部分数据调试 data_path: 原数据的存储路径 sample_nums: 采样数目(这里由于机器的内存限制,可以采样用户做) """ all_click = pd.read_csv(data_path + 'train_click_log.csv') all_user_ids = all_click.user_id.unique() # uniuqe的idsample_user_ids = np.random.choice(all_user_ids, size=sample_nums, replace=False)# 从unique id中随机选10000个id all_click = all_click[all_click['user_id'].isin(sample_user_ids)]# 从原来的all_click中取出包括在sample_user_id中的项all_click = all_click.drop_duplicates((['user_id', 'click_article_id', 'click_timestamp'])) # 去除重复项,只考虑这三列 return all_click# 读取点击数据,这里分成线上和线下,如果是为了获取线上提交结果应该讲测试集中的点击数据合并到总的数据中 # 如果是为了线下验证模型的有效性或者特征的有效性,可以只使用训练集 def get_all_click_df(data_path='./Data/', offline=True): if offline: all_click = pd.read_csv(data_path + 'train_click_log.csv') else: trn_click = pd.read_csv(data_path + 'train_click_log.csv') tst_click = pd.read_csv(data_path + 'testA_click_log.csv')all_click = trn_click.append(tst_click)all_click = all_click.drop_duplicates((['user_id', 'click_article_id', 'click_timestamp'])) return all_click

# 全量训练集 all_click_df = get_all_click_df(offline=False)

# 根据点击时间获取用户的点击文章序列{user1: [(item1, time1), (item2, time2)..]...} def get_user_item_time(click_df):click_df = click_df.sort_values('click_timestamp')def make_item_time_pair(df): return list(zip(df['click_article_id'], df['click_timestamp']))user_item_time_df = click_df.groupby('user_id')['click_article_id', 'click_timestamp'].apply(lambda x: make_item_time_pair(x))\ .reset_index().rename(columns={0: 'item_time_list'}) user_item_time_dict = dict(zip(user_item_time_df['user_id'], user_item_time_df['item_time_list']))return user_item_time_dict

# 获取近期点击最多的k篇文章 def get_item_topk_click(click_df, k): topk_click = click_df['click_article_id'].value_counts().index[:k] return topk_click

# itemCF的物品相似度计算 def itemcf_sim(df): """ 文章与文章之间的相似性矩阵计算 :param df: 数据表 :item_created_time_dict:文章创建时间的字典 return : 文章与文章的相似性矩阵 思路: 基于物品的协同过滤(详细请参考上一期推荐系统基础的组队学习), 在多路召回部分会加上关联规则的召回策略 """user_item_time_dict = get_user_item_time(df)# 计算物品相似度 i2i_sim = {} item_cnt = defaultdict(int) for user, item_time_list in tqdm(user_item_time_dict.items()): # 在基于商品的协同过滤优化的时候可以考虑时间因素 for i, i_click_time in item_time_list: item_cnt[i] += 1 i2i_sim.setdefault(i, {}) for j, j_click_time in item_time_list: if(i == j): continue i2i_sim[i].setdefault(j, 0)i2i_sim[i][j] += 1 / math.log(len(item_time_list) + 1)i2i_sim_ = i2i_sim.copy() for i, related_items in i2i_sim.items(): for j, wij in related_items.items(): i2i_sim_[i][j] = wij / math.sqrt(item_cnt[i] * item_cnt[j])# 将得到的相似性矩阵保存到本地 pickle.dump(i2i_sim_, open(save_path + 'itemcf_i2i_sim.pkl', 'wb'))return i2i_sim_

i2i_sim = itemcf_sim(all_click_df)

100%|████████████████████████████████████████████████████████████████████████| 250000/250000 [00:33<00:00, 7461.80it/s]

# itemCF 的文章推荐 # 基于商品的召回i2i def item_based_recommend(user_id, user_item_time_dict, i2i_sim, sim_item_topk, recall_item_num, item_topk_click): """ 基于文章协同过滤的召回 :param user_id: 用户id :param user_item_time_dict: 字典, 根据点击时间获取用户的点击文章序列{user1: [(item1, time1), (item2, time2)..]...} :param i2i_sim: 字典,文章相似性矩阵 :param sim_item_topk: 整数, 选择与当前文章最相似的前k篇文章 :param recall_item_num: 整数, 最后的召回文章数量 :param item_topk_click: 列表,点击次数最多的文章列表,用户召回补全 return: 召回的文章列表 [item1:score1, item2: score2...] 注意: 基于物品的协同过滤(详细请参考上一期推荐系统基础的组队学习), 在多路召回部分会加上关联规则的召回策略 """# 获取用户历史交互的文章 user_hist_items = user_item_time_dict[user_id] # 注意,此时获取得到的是一个元组列表,需要将里面的user_id提取出来 user_hist_items_ = {user_id for user_id, _ in user_hist_items}item_rank = {} for loc, (i, click_time) in enumerate(user_hist_items): for j, wij in sorted(i2i_sim[i].items(), key=lambda x: x[1], reverse=True)[:sim_item_topk]: if jin user_hist_items_: continueitem_rank.setdefault(j, 0) item_rank[j] +=wij# 不足10个,用热门商品补全 if len(item_rank) < recall_item_num: for i, item in enumerate(item_topk_click): if item in item_rank.items(): # 填充的item应该不在原来的列表中 continue item_rank[item] = - i - 100 # 随便给个负数就行 if len(item_rank) == recall_item_num: breakitem_rank = sorted(item_rank.items(), key=lambda x: x[1], reverse=True)[:recall_item_num]return item_rank

# 给每个用户根据物品的协同过滤推荐文章 # 定义 user_recall_items_dict = defaultdict(dict)# 获取 用户 - 文章 - 点击时间的字典 user_item_time_dict = get_user_item_time(all_click_df)# 去取文章相似度 i2i_sim = pickle.load(open(save_path + 'itemcf_i2i_sim.pkl', 'rb'))# 相似文章的数量 sim_item_topk = 10# 召回文章数量 recall_item_num = 10# 用户热度补全 item_topk_click = get_item_topk_click(all_click_df, k=50)for user in tqdm(all_click_df['user_id'].unique()): user_recall_items_dict[user] = item_based_recommend(user, user_item_time_dict, i2i_sim, sim_item_topk, recall_item_num, item_topk_click)

100%|█████████████████████████████████████████████████████████████████████████| 250000/250000 [38:32<00:00, 108.12it/s]

# 将字典的形式转换成df user_item_score_list = []for user, items in tqdm(user_recall_items_dict.items()): for item, score in items: user_item_score_list.append([user, item, score])recall_df = pd.DataFrame(user_item_score_list, columns=['user_id', 'click_article_id', 'pred_score'])

100%|███████████████████████████████████████████████████████████████████████| 250000/250000 [00:05<00:00, 42040.61it/s]

# 生成提交文件 def submit(recall_df, topk=5, model_name=None): recall_df = recall_df.sort_values(by=['user_id', 'pred_score']) recall_df['rank'] = recall_df.groupby(['user_id'])['pred_score'].rank(ascending=False, method='first')# 判断是不是每个用户都有5篇文章及以上 tmp = recall_df.groupby('user_id').apply(lambda x: x['rank'].max()) assert tmp.min() >= topkdel recall_df['pred_score'] submit = recall_df[recall_df['rank'] <= topk].set_index(['user_id', 'rank']).unstack(-1).reset_index()submit.columns = [int(col) if isinstance(col, int) else col for col in submit.columns.droplevel(0)] # 按照提交格式定义列名 submit = submit.rename(columns={'': 'user_id', 1: 'article_1', 2: 'article_2', 3: 'article_3', 4: 'article_4', 5: 'article_5'})save_name = save_path + model_name + '_' + datetime.today().strftime('%m-%d') + '.csv' submit.to_csv(save_name, index=False, header=True)

# 获取测试集 tst_click = pd.read_csv(data_path + 'testA_click_log.csv') tst_users = tst_click['user_id'].unique()# 从所有的召回数据中将测试集中的用户选出来 tst_recall = recall_df[recall_df['user_id'].isin(tst_users)]# 生成提交文件 submit(tst_recall, topk=5, model_name='itemcf_baseline')

【DataWhale|DataWhale 推荐系统实战_新闻推荐 Task1 赛题理解】最后 结果长这样:

DataWhale|DataWhale 推荐系统实战_新闻推荐 Task1 赛题理解
文章图片
image.png

    推荐阅读