相关系数计算(求相关系数的公式)
相关系数,在统计过程中十分常用的一个概念,用来表示两组数据之间的关联程度
之前在线性回归里提过,这个数值的计算结果在-1到1之间,越是靠近0就表示没有线性相关,而越靠近两端的-1或者1表示线性关系越强
但是它的应用却不仅仅局限于线性回归,虽然到底用途有多少我也不能完全归纳,不过这里还是可以举个拟合问题以外的例子
比方说我们有一份已经整理好格式的产品组件表格:
其中,每列表示一种产品,每种产品下方的数字表示做一个此种产品需要用到的组件数量,现在,我们想比较这些产品之间的异同
相关系数在Excel中有现成的公式PEARSON,也就是说,假设我们先计算产品A和B之间的差异,可以把公式写成:
=PEARSON (产品A列:产品B列),计算结果为0.7833
这里请注意我们在以前做线性拟合时用过的另一个公式RSQ,这个公式是相关系数的平方,也就是RSQ(x)= PEARSON(x)^2,想验证的可以自行试试
这似乎看起来不是很复杂的事情
但是,当我们要比较的产品很多的时候,我们就会遇到一个小问题,那就是产品与产品之间是两两比较,想我们目前列出有四种不同产品时,比较结果就已经有3+2+1=6种
这个配对比较会产生多少种结果,我们也有个另外的公式可以直接计算,那就是组合数公式COMBIN
在我们当前这个例子中,组合数为:=COMBIN(4,2)=6,意思是在4个总体中每次抽取2个能得到的所有组合的数量
而当我们增加产品种类的时候,比如增加到50个,就会发觉组合数猛增到了=COMBIN(50,2)=1225种
这时我们再通过手工罗列出所有组合方式,并用公式两两计算的话就会显得有点麻烦了,不是不能做,只是有现成的工具比这样操作方便
现成的相关系数工具还是在数据分析加载项里(我觉得自己快把这里面的东西都写得差不多了):
打开后界面如下:
要填写的内容比较少,我就不仔细解释了,填好后确定
输出结果如下:
Excel输出的这个格式看起来还挺齐整,除去1那个斜排,正好6个比较结果,其中越接近1的表示这两种产品相似程度越高
感觉这个思路用来做两两比较的计算挺好的,哪怕不是做相关系数计算,这个方法只是用来提取两两组合看起来也很方便
正经内容就这些啦,最后增加一点小Tip,为啥R值的平方公式就那么简洁(RSQ),不做平方公式名称就那么长呢(PEARSON)??因为这是个叫皮尔森的歪果仁搞出来的数学公式啦,所以咱为了表达点尊重,还是注意点别把人家的名字拼错了,毕竟拼错了就算不出来了啦,嘻嘻嘻~~~~
如发现本站有涉嫌抄袭侵权/违法违规等内容,请联系我们举报!一经查实,本站将立刻删除。