pca函数python PCA函数R语言 _Department

如何用python实现pca降维首先2个包：
import numpy as np
from sklearn.decomposition import PCA
然后一个m x n 的矩阵，n为维度，这里设为x 。
n_components = 12 是自己可以设的。
pca = PCA(n_components=12)
pca.fit(x)
PCA(copy=True, iterated_power='auto', n_components=12, random_state=None,
svd_solver='auto', tol=0.0, whiten=False)
float_formatter = lambda x: "%.2f" % x
np.set_printoptions(formatter={'float_kind':float_formatter})
print 'explained variance ratio:'
print pca.explained_variance_ratio_
print 'cumulative sum:'
print pca.explained_variance_ratio_.cumsum()
PCA(主成分分析)python实现回顾了下PCA的步骤，并用python实现。深刻的发现当年学的特征值、特征向量好强大。
PCA是一种无监督的学习方式，是一种很常用的降维方法。在数据信息损失最小的情况下，将数据的特征数量由n，通过映射到另一个空间的方式，变为k(kn) 。
这里用一个2维的数据来说明PCA，选择2维的数据是因为2维的比较容易画图。
这是数据：
画个图看看分布情况：
协方差的定义为：
假设n为数据的特征数，那么协方差矩阵M, 为一个n n的矩阵，其中Mij为第i和第j个特征的协方差，对角线是各个特征的方差。
在我们的数据中，n=2，所以协方差矩阵是2 2的，
通过numpy我们可以很方便的得到：
【pca函数python PCA函数R语言】 得到cov的结果为：
array([[ 0.61655556,0.61544444],
[ 0.61544444,0.71655556]])
由于我们之前已经做过normalization，因此对于我们来说，
这个矩阵就是 data*data的转置矩阵。
得到结果：
matrix([[ 5.549,5.539],
[ 5.539,6.449]])
我们发现，其实协方差矩阵和散度矩阵关系密切，散度矩阵就是协方差矩阵乘以（总数据量-1）。因此他们的特征根和特征向量是一样的。这里值得注意的一点就是，散度矩阵是 SVD奇异值分解的一步，因此PCA和SVD是有很大联系的，他们的关系这里就不详细谈了，以后有机会再写下。
用numpy计算特征根和特征向量很简单，
但是他们代表的意义非常有意思，让我们将特征向量加到我们原来的图里：
其中红线就是特征向量。有几点值得注意：
蓝色的三角形就是经过坐标变换后得到的新点，其实他就是红色原点投影到红线、蓝线形成的。
得到特征值和特征向量之后，我们可以根据特征值的大小，从大到小的选择K个特征值对应的特征向量。
这个用python的实现也很简单：
从eig_pairs选取前k个特征向量就行。这里，我们只有两个特征向量，选一个最大的。
主要将原来的数据乘以经过筛选的特征向量组成的特征矩阵之后，就可以得到新的数据了。
output：
数据果然变成了一维的数据。
最后我们通过画图来理解下数据经过PCA到底发生了什么。
绿色的五角星是PCA处理过后得到的一维数据，为了能跟以前的图对比，将他们的高度定位1.2，其实就是红色圆点投影到蓝色线之后形成的点。这就是PCA,通过选择特征根向量，形成新的坐标系，然后数据投影到这个新的坐标系，在尽可能少的丢失信息的基础上实现降维。
通过上述几步的处理，我们简单的实现了PCA第一个2维数据的处理，但是原理就是这样，我们可以很轻易的就依此实现多维的。
用sklearn的PCA与我们的pca做个比较：
得到结果：
用我们的pca试试
得到结果：
完全一致，完美~
值得一提的是，sklearn中PCA的实现，用了部分SVD的结果，果然他们因缘匪浅。

pca函数python PCA函数R语言

推荐阅读

智慧保险的快速发展,未来的保险公司将是什么模样呢？

获取oss的pdf文件，返回文件输出流

2023重庆涪陵3月赏花时间+地点涪陵的花

wnda是什么轮胎 wnda是什么轮胎里面有一层胶

时光与岁月优美短句关于时光岁月的唯美句子

mysql怎么设置字段默认值为0 mysql设置字段为小时

魔兽世界桃乐豆详细介绍

食色,性也究竟是什么意思食色性也是什么意思

什么材质的行李箱好一点什么材质的行李箱好

华为网盘会被和谐吗,华为网盘有什么用？

成都徒步旅行～懒鱼第四天作业

关系胜于一切，关系就是温暖

g三星 Galaxy S22 / S22 +图赏：老设计焕发新感觉

北京医保提到4000北京医保提到4000的原因（北京医保提到4000北京医保

文字代码生成器，谁有日志彩字生成代码器

在网店转让平台上如何让自己的店铺快速出售？有哪些小技巧？

十七岁，我曾有一个朋友

潇潇雨歇是什么意思潇潇雨歇解释

四轴数控车床怎么编程，请大师教教我这个用四轴怎么编程

怎么判断水果是否有毒