皮尔森系数与斯皮尔曼等级相关系数在生物信息学上的使用

如题所述

第1个回答 2022-06-25

皮尔森相关系数

在所有相关系数的计算方法里面，最常见的就是皮尔森相关。皮尔森相关系数也称皮尔森积差相关系数，是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示，其中n为样本量，Xi、Yi与X、Y分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。SX SY分别为样本标准差。

假设样本可以记为(Xi ，Yi)，则样本Pearson相关系数为：

公式是抽象的，我们利用几组值就可以更好理解相关系数的意义。从皮尔森相关系数定义来看，如果两个基因的表达量呈线性关系（数学上，线性相关指的是直线相关，指数、幂函数、正弦函数等曲线相关不属于线性相关），那么两个基因表达量的就有显著的皮尔森相关系性。下面用几组模拟数值来测试一下：

斯皮尔曼等级相关

斯皮尔曼等级相关（Spearman’s correlation coefficient for ranked data）主要用于解决称名数据和顺序数据相关的问题。适用于两列变量，而且具有等级线性关系的资料。

公式长这样~

n为等级个数，d为二列成对变量的等级差数

简单点说，斯皮尔曼相关就是无论两个变量的数据如何变化，符合什么样的分布，我们只关心每个数值在变量内的排列顺序。如果两个变量的对应值，在各组内的排序顺位是相同或类似的，则具有显著的相关性。

|r|的取值与相关程度

相关系数r的取值范围是-1≤r ≤ 1，一般取小数点后两位。 r的正负号表明两变量间变化的方向；

|r|表明两变量间相关的程度，

r>0表示正相关，

r<0表示负相关，

r=0表示零相关。

|r|越接近于1，表明两变量相关程度越高，它们之间的关系越密切。但是由样本算得的相关系数是否有统计学意义，还应作假设检验。

适用范围与计算方法选择

Spearman 和Pearson相关系数在算法上完全相同. 只是Pearson相关系数是用原来的数值计算积差相关系数, 而Spearman是用原来数值的秩次计算积差相关系数。

1.Pearson相关系数适用条件为两个变量间有线性关系、变量是连续变量、变量均符合正态分布。

2.若上述有条件不满足则考虑用Spearman相关系数

3.对于同一量纲数据建议Pearson，例如mRNA表达量数据，计算不同mRNA表达量的相关系数；对于不同量纲数据，可考虑Spearman相关系数，例如mRNA表达量与某表型数据（株高、产果量、次生化合物含量等）。

相关系数的缺点与注意事项

需要指出的是，相关系数有一个明显的缺点，即它接近于1的程度与数据组数n相关，这容易给人一种假象。因为，当n较小时，相关系数的波动较大，对有些样本相关系数的绝对值易接近于1；当n较大时，相关系数的绝对值容易偏小。特别是当n=2时，相关系数的绝对值总为1。因此在样本容量n较小时，我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。

因此高通量测序项目，一般建议 10个以上样本才计算相关系数，这样其可靠性更高。

参考自：

你可能感兴趣的内容

大家正在搜

非常风气网www.verywind.cn

皮尔森系数与斯皮尔曼等级相关系数在生物信息学上的使用

相关了解……

你可能感兴趣的内容