相关系数(二):斯皮尔曼等级相关 返回

斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)主要用于解决称名数据和顺序数据相关的问题。适用于两列变量,而且具有等级线性关系的资料。
公式如下:

n为等级个数
d为二列成对变量的等级差数


然而,斯皮尔曼相关中无论两个变量的数据如何变化,符合什么样的分布,我们只关心每个数值在变量内的排列顺序。如果两个变量的对应值,在各组内的排序顺位是相同或类似的,则具有显著的相关性。
举个例子,例如表3的数值,用斯皮尔曼等级相关计算相关系数,将会呈现下面这种变化
表3 基因A、C在8个样本中的表达量值

表4 斯皮尔曼等级排列

备注:排序等级就是这个数值在组内从小到大排列的序位号。

利用斯皮尔曼等级相关计算A、D基因表达量的相关性,结果是:
r=1,p-value = 4.96e-05

这里斯皮尔曼等级相关的显著性显然高于皮尔森相关。这是因为虽然两个基因的表达量是非线性关系,但两个基因表达量在所有样本中的排列顺序是完全相同的,因为具有极显著的斯皮尔曼等级相关性。


|r|的取值与相关程度
相关系数r的取值范围是-1≤r ≤ 1,一般取小数点后两位。 r的正负号表明两变量间变化的方向;
|r|表明两变量间相关的程度,
r>0表示正相关,
r<0表示负相关,
r=0表示零相关。
|r|越接近于1,表明两变量相关程度越高,它们之间的关系越密切。但是由样本算得的相关系数是否有统计学意义,还应作假设检验。


适用范围与计算方法选择
Spearman 和Pearson相关系数在算法上完全相同. 只是Pearson相关系数是用原来的数值计算积差相关系数, 而Spearman是用原来数值的秩次计算积差相关系数。

1、Pearson相关系数适用条件为两个变量间有线性关系、变量是连续变量、变量均符合正态分布。
2、若上述有条件不满足则考虑用Spearman相关系数
3、对于同一量纲数据建议Pearson,例如mRNA表达量数据,计算不同
mRNA表达量的相关系数;对于不同量纲数据,可考虑Spearman相关系数,例如mRNA表达量与某表型数据(株高、产果量、次生化合物含量等)


相关系数的缺点与注意事项
需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。

因此高通量测序项目,一般建议10个以上样本才计算相关系数,这样其可靠性更高。

再回到我们经常见到的共表达图,其实质就是卡一个相关系数阈值,将相关系数较高的,我们关注的基因用线连接,直观体现基因共表达关系。如一个基因处于中间位置,连通性较高的很可能是起到调控作用的关键基因(转录因子)。


关联阅读:相关系数(一):皮尔森相关

更多基迪奥精彩原创文章,可继续关注我们网站动态发布,同时关注基迪奥微信~扫一扫添加基迪奥好友~随时随地关注行业动态!