通俗易懂WGCNA (1)

如题所述

第1个回答 2022-07-18

每当我使用一个新的软件/算法时（相较于组内之前的研究），导师总喜欢问我背后的原理。她可以不懂，但我必须给她讲明白。

因此，我想试着用通俗易懂的语言为大家讲一下WGCNA~

Gene A的表达，可能会影响另一个基因（比如gene B）的表达。若前者是转录因子，那么多半会促进后者的转录增加；若前者是抑制子（repressor），则可能会导致后者的表达受到抑制。

随着研究的越来越深入，我们发现。这种调控关系，不是一对一的，甚至不是一对多的，而是多对多的。这里以大家耳熟能详的RNA Pol II举例，这是一个真核生物中蛋白质编码基因转录所需的RNA聚合酶。

好了，现在我们知道基因的调控关系是多对多的，那么我们该怎么描述这种关系呢？搞数学的那帮家伙早早的就把这玩意研究透了，用图来描述这种网络关系，也就是下面这玩意。

研究之透彻，光是想入门就需要先学一下离散数学，然后再上一门叫作图论的课。当然，深入学习虽然难，但是对于我们来说，只用简单的了解一下其基本概念就足以。

上面的图，我们称之为网络。网络中的每个点我们称为顶点，用于表示某个事物或者对象。其中的每条边，用于表示事物之间的关系。一个点所连接的线的个数，我们称之为度（degree）。这张网络，如果放到基因调控的背景下，其中的每个点代表一个基因，其中的每条边代表两个基因之间的调控关系。

看到这里，爱思考的朋友肯定就想到了，这个网络图似乎没有方向。这似乎和我们所了解的调控网络不太一致，于是我们这里引入有向图的概念，也就是下面这玩意。

有了方向，我们就知道在一张调控网络中，究竟是gene A调控 gene B还是gene B调控gene A。但是这张图和我们想象中的调控网络还是差了点意思，调控网络中，通常是若干个基因起着重要作用，调控大部分基因，比如转录因子/蛋白激酶。而其他的大部分基因都是打酱油的，负责好自己的本职工作，再老老实实的听上游基因的调控就行了。就如下图

因此，在这里，我们引入一个新的概念，无尺度网络或者说是无标度网络 (scale-free network)。这是带有一类特性的复杂网络，其典型特征是在网络中的大部分节点只和很少节点连接，而有极少的节点与非常多的节点连接。

而这类关键基因在调控网络中，因为其连通性很好（degree很高，或者说是与很多基因都有调控关系），经常会将其称呼为hub-gene。

好了，讲到这里，我们基本上懂了网络的概念，以及基因调控的概念。接下来再引入基因共表达调控，就不会显的那么突兀了。

随着高通量测序技术的发展，我们可用的数据已经越来越多。传统的两两比对分析，会让我们的计算量爆炸性的增加。比如差异基因表达分析，如果我们有五个时间点的样本，两两比较就要比较4+3+2+1=10次。不仅计算量大，而且分析复杂，让本就不简单的问题更为复杂。

为了解决这么一个问题，我们必须利用新的方法去分析这类问题，而WGCNA就是一种刚好适合这种复杂样本的分析方法。

WGCNA全称是Weighted Gene Co-expression Network analysis，翻译成中文就是加权基因共表达网络分析。听名字我们就知道，该分析最重要的就是加权和共表达。而这个玩意最主要的目的就是帮助我们缩小范围，筛掉无用信息，找到符合我们预期的关键基因。

共表达，就是去鉴定那些高度协同变化的基因集，比如某一类基因在不同的样本中都是一起上升，一起下降，表达模式基本一致。

而加权就是在分析的时候，赋予基因共表达关系一定的权重。比如gene A和gene B的相关性更高，那这俩基因之间的权重也就越高，同样的，若二者相关性较低，则它俩之间的权重也就越低。这种加权网络，可以用下图表示，其中权重越高，则两个点之间的连线越粗。

需要注意的是，基因共表达网络是一种无向图，不指定共表达关系的方向和类型。然而在基因调控网络中，边是有方向的，代表着反应、变换、互作、激活或者抑制的生化过程。而基因共表达网络并不尝试判定因果关系，边只代表基因之间的相关或者依赖关系。有类似功能或参与统一生物功能的基因会产生很多相互作用，在基因共表达网络中会体现为模块或连接丰富的子图。

Note: 基因共表达网络不具有方向性，但我们可以关注调控的正负。即，我们可以关注高度相关的基因，也可以只关注高度正相关的基因，具体的设定可以关注后续正文内容

你可能感兴趣的内容

大家正在搜

非常风气网www.verywind.cn

通俗易懂WGCNA (1)

相关了解……

你可能感兴趣的内容