数据的准确性对模型效果的重要性机器学习&数据挖掘

今天讲一个性别预测问题，采用 LR 模型，特征选择（ App 的安装、卸载、操作、昵称、手机颜色、手机型号、手机前置摄像头使用、镜子 App 使用等维度）。下面是相同的特征工程，但是由于数据源的过滤策略不同问题，导致模型训练效果差别巨大。
1、数据未经过特定数据过滤
文章图片

2、数据经过去冲突、去默认值过滤
文章图片

3、结论 1）第一幅图中，男性预测精确率为83.27%，召回率95.73%，女性精确率为72.59%，召回率37.03% 第二幅图，男性预测精确率为93.25%，召回率94.91%，女性精确率为82.66%，召回率77.93%。明显过滤的预测效果要比未过滤好很多。 2）数据源的清晰和质量的保证对模型训练的影响巨大。有一句话：数据和特征工程决定了机器学习的上限，算法只是逼近这个上限。

数据的准确性对模型效果的重要性

推荐阅读

xp3，什么是XP3

吃了紧急避孕药怀孕了孩子能要吗

福州长乐区5月20日婚姻预约登记公告福州长乐区5月20日婚姻预约登记公告

怎么舒缓痛经如何快速缓解痛经

石榴吃了有什么效果

天猫精灵APP如何查找手机具体操作步骤

佳能维修模式清零方法-佳能ip1188如何进维修模式，打印机墨盒清零

微信欢乐斗地主残局闯关专家第40关怎么过 40关通关破解技巧

网商银行账户怎么开通开通网商银行账户流程

mysql存储过程cursor mysql有存储过程没

烤箱烤栗子怎么做好吃

川车牌号是哪个省

新买的水族箱怎么养水新鱼缸第一次怎样养水

豆瓣电视剧怎么打开看豆瓣的书怎么打开

图像处理|【OpenCv】图像分割——聚类算法

江南意表达了什么情感

有没有带锁的冰箱？如何选择适合自己的带锁冰箱

赛欧amt变速箱赛欧自动挡

安卓计步传感器不灵敏,手机放置位置不同会影响传感器检测步骤

0xc000012f解决方法