最近看了下《量化研究与统计分析:SPSS(PASW)数据分析范例解析》,本来是想看调节变量这一节内容的,后来看到相关关系这一部分,本来觉得相关性应该没啥了,看了后还是加深了很多理解,有很多东西之前都没了解到,或者说没这么系统的总结,接下来主要是梳理下各种相关系数的概念,包括连续变量间、有序变量、分类变量等相对应的相关关系。由于懒,好多就直接拷贝书里的了,加上一些我的理解吧!
1.净相关和部分相关
净相关也就是说想要研究x1和x2的相关性,但是x1和x2可能同时和其他变量(x3,x4···)都相关,那么仅考虑x1和x2的相关性就不合理了,因为它们都同时会受到其他变量的影响,如果说排除了其他变量的影响,专门考虑x1和x2的相关性也就是净相关。部分相关也就是排除了一部分其他变量的影响。其实我没搞懂这个部分相关有啥用,在我的数据分析过程中好像从没用到过这个。
2.spearman相关性
对于有序变量就可以用这个啦,也就是只用到了数据里的有序性,没有用到数据间的加减乘除,但是由于相对于pearson相关系数少考虑了好多数据关系,如果pearson相关系数适用的话优先还是用pearson相关系数,不过根据我的经验,两者做出来会非常相似的,所以稳健的话其实一直用spearman相关系数也没问题的。
3.点二系列相关
这一部分以前没看到过,之前看到有人对一个连续变量和一个二分类变量做pearson相关系数,我还觉得是他的基础不扎实,现在看来是我无知,hhh,好惭愧。但是这个点二系列相关在解释时,不能说越接近1是越正相关,越接近-1是越负相关了,因为二分类变量没有大小,1和0是自己定义的,因此解释时要注意一下的。点二系列相关绝对值越接近1,则二分类别变量和连续变量越相关,但是是怎么个相关要结合数据来解释。
4.eta系数
用来判断一个类别变量和一个连续变量的关联强度,由于有一个变量是类别变量,这个也就没有正负相关这种说法了。只能说两者的相关性强还是弱这样子,具体的话也是利用组内变异在总变异里的百分比来定义的。还是很好理解的。
5.列联系数
对于两个多分类变量,便可以利用交叉分析来进行分析,并可以提取出列联系数来表征两个多分类变量的关联程度,具体介绍可参加这个链接:列联分析。
6.参考书目
图片都是来自于
好懒好懒,哈哈哈