数据的准确性对模型效果的重要性

今天讲一个性别预测问题,采用 LR 模型,特征选择( App 的安装、卸载、操作、昵称、手机颜色、手机型号、手机前置摄像头使用、镜子 App 使用等维度)。下面是相同的特征工程,但是由于数据源的过滤策略不同问题,导致模型训练效果差别巨大。
1、数据未经过特定数据过滤 数据的准确性对模型效果的重要性
文章图片


2、数据经过去冲突、去默认值过滤 数据的准确性对模型效果的重要性
文章图片


3、结论 1)第一幅图中,男性预测精确率为83.27%,召回率95.73%,女性精确率为72.59%,召回率37.03% 第二幅图,男性预测精确率为93.25%,召回率94.91%,女性精确率为82.66%,召回率77.93%。明显过滤的预测效果要比未过滤好很多。 2)数据源的清晰和质量的保证对模型训练的影响巨大。 有一句话:数据和特征工程决定了机器学习的上限,算法只是逼近这个上限。

    推荐阅读