皮尔逊相关系数
一、定义 ??皮尔逊相关系数( Pearson correlation coefficient,PC),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,PPMCC或PCCs),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。相关系数的绝对值越大,相关度越强,相关系数的绝对值越小,相关度越弱。
二、公式 公式一:两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商,公式一定义了总体相关系数,常用希腊小写字母ρ作为代表符号。
文章图片
其中μx和σx的期望和标准差,cov是计算协方差。
注:最后一个公式计算过程,带入计算可得。
文章图片
公式二:
文章图片
公式三:
文章图片
注:公式转化过程,带入计算可得。
文章图片
公式四:
文章图片
三、性质 【推荐算法|相似度计算(2)——皮尔逊相关系数】??①|ρ|≤1。
??②若σx>0且σy>0,则|ρ|=1当且仅当存在常数a,b(a≠0),是P{Y=aX+b}=1,而且当a>0时,ρ=1;当a<0时,ρ=-1。
????当|ρ|=1时,Y与X的变化可完全由X的线性曲线函数给出。
????当|ρ|=0时,X和Y不相关。
??③当随机变量X和Y相互独立时,ρ=0,X与Y不相关;反之,若X与Y不相关,X和Y不一定相互独立。但对于二维正态分布的X和Y相互独立的充要条件是参数ρ=0。即二维正态随机变量X和Y不相关与X和Y相互独立是等价的。
??④系数的值为1意味着X和Y可以很好的由直线方程来描述,所有的数据点都很好的落在一条直线上,且Y随着X的增加而增加。系数的值为?1意味着所有的数据点都落在直线上,且Y随着X的增加而减少。系数的值为0意味着两个变量之间没有线性关系。
推荐阅读
- 数据治理|数据安全分类分级剖析
- 大数据洞察画像自动化实践
- 交付铁三角的故事之兵戎相见
- CSSE2310
- 行为序列建模|【序列建模】DIN深度兴趣网络
- 人工智能|孟晚舟归国后首次亮相(一语道出华为真正价值!唯有努力才能赶上祖国变化...)
- 人工智能|2021年净利润同比增长75.9% 孟晚舟称华为已穿过劫难黑障区
- java|那个每天半夜发加班朋友圈的程序员,你给我站住!
- 数据仓库|从理论到工程实践——用户画像入门宝典