作为机器学习重要的一环,特征工程也遵循二八法则。即80%的时间用来处理数据和特征,20%用来进行模型训练和优化(可能nlp和cv领域除外)。特征工程主要包括以下几个方面:
- 特征清洗:处理数据中的对齐、异常值和缺失值,提升数据质量。
- 特征处理:将特征变换成适当的形式,方便机器处理和理解。
- 特征抽取:从现有特征中派生出有价值的额外特征(跟特征处理不同,特征抽取一般要保留原始特征,而特征处理一般不会保留原有特征,这两者界限比较模糊)。
- 特征选择:从大量特征中选取价值最高的特征组,减少模型计算量,一定程度上减少过拟合。
- 特征压缩(降维):将大量稀疏的特征映射到少量稠密的特征空间(实际业务中应用较少,另外经过映射后,特征的解释性变弱,不利于debug)。因此后面的介绍中该节略去。
![特征工程梗概](https://img.it610.com/image/info8/a5e841a27a57402d8782b2f59b32c014.jpg)
文章图片
![特征工程梗概](https://img.it610.com/image/info8/a696f9393cc843fb92f5efefb7c1c2f4.jpg)
文章图片
![特征工程梗概](https://img.it610.com/image/info8/530faf1d09754d74a56a79e1b02f184b.jpg)
文章图片
![特征工程梗概](https://img.it610.com/image/info8/65424852faa14a96bbd964637bea0828.jpg)
文章图片
![特征工程梗概](https://img.it610.com/image/info8/0789d1a5c5e54ed19bddbc1c71853fe6.jpg)
文章图片
![特征工程梗概](https://img.it610.com/image/info8/d8c895e77baa4dc4a73cd65fb19f2503.jpg)
文章图片
![特征工程梗概](https://img.it610.com/image/info8/558f3d6e21b04211aed29fd5c123e88c.jpg)
文章图片
![特征工程梗概](https://img.it610.com/image/info8/fa2a11de5499458fa0ad607a13f57205.jpg)
文章图片
![特征工程梗概](https://img.it610.com/image/info8/990a7e2d77d342f590cb809673707b62.jpg)
文章图片
![特征工程梗概](https://img.it610.com/image/info8/72d01091419548e6902755026941c880.jpg)
文章图片
![特征工程梗概](https://img.it610.com/image/info8/ed054621919f478995bd1b7f93d07c3d.jpg)
文章图片
![特征工程梗概](https://img.it610.com/image/info8/cc38737d0faa4570837a41c4a7a508c0.jpg)
文章图片
![特征工程梗概](https://img.it610.com/image/info8/805e31eb1bb34ba4b7e3e697fde3c27b.jpg)
文章图片
![特征工程梗概](https://img.it610.com/image/info8/137568a7aa334535b996455b5d63eaf5.jpg)
文章图片
参考资料:
- https://segmentfault.com/a/1190000024522693
- https://www.slideshare.net/HJvanVeen/feature-engineering-72376750
- https://www.zhihu.com/question/29316149