文章目录
- 什么是降维
- 什么是主维度分析(PCA)
什么是降维 训练模型时,如果数据集的特征数过多(比如文本分类时,二元词组有上万个),那么训练起来会很慢。而且可能会因为数据量不够大,但是维度过高,使得数据分布非常的稀疏,降低训练效果。
降维能够有效的避免上述缺点。理想的降维是将和训练目的比较不相关的特征排除,仅留下有用的那部分,从而提高训练效果。
但是降维过程中,维数的下降不可避免地会导致信息的丢失。因为对数据降维后,模型在预测时需要恢复到原来的样子。
如何有效降低维数,同时尽量减少信息丢失,就是降维的目标。
文章图片
文章图片
文章图片
【上图展示出:PCA中,降维并试图还原时,信息的丢失。三幅图按序分别代表:原始维度中的数据、分析出的主维度中的数据、降维至一个主维度后恢复至原维度的数据】
什么是主维度分析(PCA) PCA(Principal component analysis,主维度分析)是一种维度提取方法,这需要和维度选择方法区分开。
选择,意味着从原有维度(特征)中选择一部分保留,而忽略其他维度(特征);而提取,可以随意构建新的维度,不限于已有的维度,然而新选出的维度就不一定具有特殊含义了,因而比起特征选择来说,不是很便于理解。
PCA提取维度的思路是,让新构建的维度上,数据的方差最大化。正如PCA的名字所示,主维度分析,是要通过分析数据,找出最主要的那些维度。找出的这些主要维度数量比原数据的维度小很多,从而达到降维的目的。
【机器学习|什么是主维度分析(PCA)】PCA是一种传统的适用性较强的方法。该方法首次发表于一个世纪前的1901年,目前已经有很多表现更加优秀的方法。此外,PCA是自编码器的一种特例。这也是为什么在深度学习中,通常没有机器学习中这样明显的一步特征提取的步骤。
推荐阅读
- 学习资源整合|熬夜整理了2021年Python最新学习资料,分享给学弟学妹们【大学生必备】
- 2022年Q1签约喜讯 | 又一批行业标杆客户选择了Smartbi
- 编程语言|一年暴增1600万程序员!GitHub 2021年度报告发布(中国755万开发者排全球第二)
- 数据处理服务|悦影科技—脑影像数据MVPA和机器学习分析服务
- 推荐系统|矩阵分解(EVD-SVD-Funk SVD-LFM-NCF-GMF)
- 机器学习|机器学习——时间序列预测方法
- 机器学习|【聚类3】密度聚类+层次聚类
- 程序人生|极狐GitLab(从硅谷到中国,远程办公背后的挑战与创新)
- java|gitlab入门_作为GitLab贡献者入门