数据的准确性对模型效果的重要性
今天讲一个性别预测问题,采用 LR 模型,特征选择( App 的安装、卸载、操作、昵称、手机颜色、手机型号、手机前置摄像头使用、镜子 App 使用等维度)。下面是相同的特征工程,但是由于数据源的过滤策略不同问题,导致模型训练效果差别巨大。
1、数据未经过特定数据过滤
文章图片
2、数据经过去冲突、去默认值过滤
文章图片
3、结论 1)第一幅图中,男性预测精确率为83.27%,召回率95.73%,女性精确率为72.59%,召回率37.03% 第二幅图,男性预测精确率为93.25%,召回率94.91%,女性精确率为82.66%,召回率77.93%。明显过滤的预测效果要比未过滤好很多。 2)数据源的清晰和质量的保证对模型训练的影响巨大。 有一句话:数据和特征工程决定了机器学习的上限,算法只是逼近这个上限。
推荐阅读
- 热闹中的孤独
- JAVA(抽象类与接口的区别&重载与重写&内存泄漏)
- 放屁有这三个特征的,请注意啦!这说明你的身体毒素太多
- 一个人的旅行,三亚
- 布丽吉特,人生绝对的赢家
- 慢慢的美丽
- 尽力
- 一个小故事,我的思考。
- 家乡的那条小河
- Docker应用:容器间通信与Mariadb数据库主从复制