入门数据挖掘|【二手车交易价格预测】赛题理解

一、赛题背景 本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第一场 —— 零基础入门数据挖掘之二手车交易价格预测大赛。
赛题以二手车市场为背景,要求选手预测二手汽车的交易价格,这是一个典型的回归问题。通过这道赛题来引导大家走进AI数据竞赛的世界,主要针对于于竞赛新人进行自我练习、自我提高。
应搞清楚三个问题:
(1)这个赛题是什么业务问题:

  • 本次大赛是Datawhale与天池联合发起的0基础入门系列赛事第一场 —— 零基础入门数据挖掘之二手车交易价格预测大赛。赛题以二手车市场为背景,预测二手汽车的交易价格。
(2)具体的业务流程是什么:
  • 【入门数据挖掘|【二手车交易价格预测】赛题理解】所谓的二手车价评估价是政府一方为防止交易双方谎,报交易价格致使税费损失,通过交易市场对每一辆车进行的一个估价。
  • 车主应事先了解二手车的价格,在置换前通过公平价估值参考一些评估价格和同档次二手车市场报价,既不能过低估计自己车辆的价格,更不能过高估计。通过价格预测,可以避免在置换的时候被蒙。
(3)最终的目标是什么:
  • 最终目标预测出二手车的交易价格
二、赛题数据 赛题以预测二手车的交易价格为任务,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。
(1)每种数据集之间的关系;
(2)数据中缺失值情况;
(3)类别特征和数值特征;这些可以作为我们关注基本点。
入门数据挖掘|【二手车交易价格预测】赛题理解
文章图片

入门数据挖掘|【二手车交易价格预测】赛题理解
文章图片

三、评价指标 评价标准为MAE(Mean Absolute Error)。
入门数据挖掘|【二手车交易价格预测】赛题理解
文章图片

MAE越小,说明模型预测得越准确。
四、赛题分析
  1. 此题为传统的数据挖掘问题,通过数据科学以及机器学习深度学习的办法来进行建模得到结果。
  2. 此题是一个典型的回归问题。
  3. 主要应用xgb、lgb、catboost,以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务。
  4. 通过EDA来挖掘数据的联系和自我熟悉数据。

    推荐阅读