sklearn 是 python 中一个常用的机器学习与统计分析包,功能十分强大,既能做普通的统计分析,也可以做一些常用的机器学习算法。
【sklearn 中的数据预处理函数】在分析数据前,一般要对数据进行预处理,常用的数据预处理函数有:
- scale: 对每列数据进行快速标准化(z 标准化),以均值为0,标准差为1的正态分布对每列数据进行标准化
- MinMaxScaler: 标准化后每一列数据都落在 [0, 1] 之间,或者既定的 [min, max] 之间,调用的计算公式为:
X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min
- StandardScaler: 类似于 Scale,只不过可保存训练集中的均值、方差参数
- Normalize: 对每一行按p-范数标准化,又称正则化
推荐阅读
- 推荐系统论文进阶|CTR预估 论文精读(十一)--Deep Interest Evolution Network(DIEN)
- Python专栏|数据分析的常规流程
- Python|Win10下 Python开发环境搭建(PyCharm + Anaconda) && 环境变量配置 && 常用工具安装配置
- Python绘制小红花
- Pytorch学习|sklearn-SVM 模型保存、交叉验证与网格搜索
- OpenCV|OpenCV-Python实战(18)——深度学习简介与入门示例
- python|8. 文件系统——文件的删除、移动、复制过程以及链接文件
- 爬虫|若想拿下爬虫大单,怎能不会逆向爬虫,价值过万的逆向爬虫教程限时分享
- 分布式|《Python3网络爬虫开发实战(第二版)》内容介绍
- java|微软认真聆听了开源 .NET 开发社区的炮轰( 通过CLI 支持 Hot Reload 功能)