数据挖掘实战--二手车交易价格预测(一)

数据挖掘实战–二手车交易价格预测(一) 疫情影响,约好的实习去不成了。在家充电势在必行,有在DataWhale内部的同学推荐参加这个数据挖掘的训练营。想着自己从18年,就断断续续的想入ML的坑,刚好系统性的梳理一下自己的知识点。而且打卡形式是用Blog的方式,刚好克服一下自己的惰性。无数次的想写,写了100个字就又丢回草稿箱吃灰了。希望自己能把这两周坚持下来,养成随手记Blog的习惯。
赛题理解 影响二手车的售价原因有很多,常见的例如汽车的品牌、注册日期、行驶里程数等等。我们的测试数据中在常见的15个影响因素以外还提供了15个匿名的参数。因此在构建特征之前,对数据进行初步的可视化分析可以给我们选择采用哪些参数来构建特征工程意义非凡。选取合适的参数,可以保证在不过拟合的前提下,提高预测的准确性。
【数据挖掘实战--二手车交易价格预测(一)】另外,在阅读赛制相关的内容时,我发现它使用绝对平均误差。这种评价指标会真实的反映出所有误差的绝对值的平均值。它和我们常用RMSE的区别是它对所有的误差都一视同仁,不像RMSE一样会平滑掉细微的误差。
关于这个赛题,似乎已经有很多人利用不同的数据来源和平台的数据进行过探索,本次比赛的主要目的是通过这个完整的经典项目来让大家系统的入门数据挖掘。下次遇到类似的问题,可以用同一个架构进行思考和挖掘。

    推荐阅读