一、赛题背景 本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第一场 —— 零基础入门数据挖掘之二手车交易价格预测大赛。
赛题以二手车市场为背景,要求选手预测二手汽车的交易价格,这是一个典型的回归问题。通过这道赛题来引导大家走进AI数据竞赛的世界,主要针对于于竞赛新人进行自我练习、自我提高。
应搞清楚三个问题:
(1)这个赛题是什么业务问题:
- 本次大赛是Datawhale与天池联合发起的0基础入门系列赛事第一场 —— 零基础入门数据挖掘之二手车交易价格预测大赛。赛题以二手车市场为背景,预测二手汽车的交易价格。
- 【入门数据挖掘|【二手车交易价格预测】赛题理解】所谓的二手车价评估价是政府一方为防止交易双方谎,报交易价格致使税费损失,通过交易市场对每一辆车进行的一个估价。
- 车主应事先了解二手车的价格,在置换前通过公平价估值参考一些评估价格和同档次二手车市场报价,既不能过低估计自己车辆的价格,更不能过高估计。通过价格预测,可以避免在置换的时候被蒙。
- 最终目标预测出二手车的交易价格
(1)每种数据集之间的关系;
(2)数据中缺失值情况;
(3)类别特征和数值特征;这些可以作为我们关注基本点。
文章图片
文章图片
三、评价指标 评价标准为MAE(Mean Absolute Error)。
文章图片
MAE越小,说明模型预测得越准确。
四、赛题分析
- 此题为传统的数据挖掘问题,通过数据科学以及机器学习深度学习的办法来进行建模得到结果。
- 此题是一个典型的回归问题。
- 主要应用xgb、lgb、catboost,以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务。
- 通过EDA来挖掘数据的联系和自我熟悉数据。
推荐阅读
- paddle|动手从头实现LSTM
- 人工智能|干货!人体姿态估计与运动预测
- 推荐系统论文进阶|CTR预估 论文精读(十一)--Deep Interest Evolution Network(DIEN)
- Python专栏|数据分析的常规流程
- 读书笔记|《白话大数据和机器学习》学习笔记1
- Pytorch学习|sklearn-SVM 模型保存、交叉验证与网格搜索
- Python机器学习基础与进阶|Python机器学习--集成学习算法--XGBoost算法
- 深度学习|深度学习笔记总结
- 机器学习|机器学习Sklearn学习总结
- 机器学习|线性回归原理与python实现