基因共表达网络

基因共表达网络是一种无向图,每个节点代表基因,如果二者存在明显的共表达关系,就用一个边连接两个节点。[1] 对不同的样本或者不同的实验条件建立基因表达谱后,可以通过查看不同样本间产生相似表达模式的基因对建立基因共表达网络。原因是,两个共表达基因在不同的样本中应以相同模式变化。共同表达的基因是由同一转录控制程序控制、功能相关、同一通路或蛋白结构的组成部分,所以基因共表达网络具有生物学意义[2]

使用18名胃癌患者微阵列数据库创建的7221个基因创建的基因共表达网络。

基因共表达网络不指定共表达关系的方向和类型。然而在基因调控网络中,边是有方向的,代表着反应、变换、互作、激活或者抑制的生化过程[3]。而基因共表达网络并不尝试判定因果关系,边只代表基因之间的相关或者依赖关系[4]。有类似功能或参与统一生物功能的基因会产生很多相互作用,在基因共表达网络中会体现为模块或连接丰富的子图[3]

基因共表达网络中忽略边的方向。虽然三个基因X、Y、Z共同表达,并无法确定是谁激活谁。

基因共表达网络一般是用高通量基因表达谱技术(如微阵列RNA测序)生成的数据集建立的。

历史

Butte和Kohane在1999年提出了基因共表达网络的概念。[5]他们到很多医学实验室收集了很多病人的检验数据,计算了Pearson相关系数,用网络来表示,将超过一定水平的数据进行连接(比如:胰岛素与血糖水平)。Bute和Kohane又把这种方法与互信息一起作为共表达的指标,并使用基因表达数据建立了第一个基因共表达网络[6]

建立基因共表达网络

研究人员为构建基因共表达网络开发了不少方法。根本上,他们都分两步:计算共表达指标、选择显著阈值。首先,选择共表达指标,之后用这个指标计算每一对基因之间的相似分数。之后,确定阈值,将高于阈值认定为具有显著的共表达关系,用边在网络中连接。

 
构建基因共表达网络分为两个步骤:对每对基因计算共表达分数(如:Pearson相关系数的绝对值),之后设定显著阈值(如:相关系数>0.8)。

通常用矩阵表示构建基因共表达网络的输入数据。如果我们有n个样本m个基因的表达值,输入数据就会是m×n矩阵(称作表达矩阵)。比如,一个微阵列实验中,测量各级各样本的几千个基因的表达值。第一步,先对表达矩阵每两行计算相似分数(共表达指标)。之后的矩阵就会是一个m×m矩阵,称作相似矩阵。这个矩阵的每个元素都是有关两个基因共同改变幅度大小的。之后,将相关矩阵中每个高于特定阈值的指标都替换成1,其他的替换成0。此时的矩阵成为邻接矩阵,代表所创建的基因共表达网络的图。此矩阵中,每个元素都显示两个基因是否在网络中相互连接。

共表达指标

不同样本各个基因的表达值都可以用向量来表示,计算两组基因之间的共表达指标就和计算两组向量之间部分指标相同。

基因共表达网络最常用的共表达指标是皮尔逊积矩相关系数互信息斯皮尔曼等级相关系数欧几里得距离 。欧几里得距离计算两组向量之间的几何距离,同时会考虑两组基因表达值的方向和大小。互信息指,知道一个基因的表达水平或降低后,另一个基因表达水平不确定性的幅度。Pearson相关系数测量两组基因之间的一致性,是否一起上升下降。Spearman秩相关是使用基因表达量的排名来计算Pearson相关系数的方法[2]。还有偏相关[7]回归[8]和混合偏相关和互信息的方法[9]

每种指标都各有优缺点。当功能相关的基因绝对值差别很大时,欧几里得距离就不适用了。另外,如果两个基因表达量都很低,产生的相关只是随机的,仍可能在欧几里得空间中相近。[2]互信息的一个优点是可以探测非线性关系;但是由于探测复杂的非线性关系一般没有生物学意义,这也可能成为一种缺点。另外,互信息指标需要较大样本量才能算出较好的结果。Spearman秩对异常值的考虑较好,但是对表达值不敏感,小样本数时可能出现很多假阳性结果。

基因共表达网络的最流行指标是Pearson相关系数。Pearson相关系数处于-1和1之间,绝对值接近1说明相关性很强。

Pearson相关系数有两个缺点:它只能检测线性关系,对于异常值敏感。而且,它要求基因表达数据服从正态分布。Song et al.[10]认为,biweight midcorrelation (bicor)可以很好地替代Pearson相关系数。“Bicor是一个基于中位数的相关,比Pearson相关更稳健,比Spearman相关更强大”。有人认为,因为“多数基因对符合线性或单调关系”,所以“在测量静止数据时,可以安全地用相关网络代替互信息网络”[10]

阈值选择

建立基因共表达网络有多种选择阈值的方法。最简单的是,选择一个共表达的截点 ,选择共表达将这个超过这个截点的边视作共表达。另一个方法使用费雪变换根据样本量计算每个相关性的标准分数。z-分数于是转换为每一个相关性的p值,之后对p值设定截点。另一些方法置换数据,根据置换后数据集相关性的分布计算z分数[2]。林有一些使用的方法包括根据集聚系数的阈值选择法[11]和随机矩阵理论[12]

p值相关的方法的问题是,p值是常规的0.01或0.05,而非生物学意义。

WGCNA是建立和分析加权基因共表达网络的一个框架[13]

WGCNA方法会选择出根据无尺度拓扑的基因共表达网络选择阈值。这种方法会建立出几个阈值的网络,选择出其中满足无尺度网络拓扑的网络。而且,WGCNA方法会建立出一个所有可能的边都出现在网络中的加权网络,但是每个边有一个权重,显示出此边共表达关系的显著性。

参见

参考文献

  1. ^ Stuart, Joshua M; Segal, Eran; Koller, Daphne; Kim, Stuart K. A gene-coexpression network for global discovery of conserved genetic modules. Science. 2003, 302 (5643): 249–55. Bibcode:2003Sci...302..249S. PMID 12934013. doi:10.1126/science.1087447. 
  2. ^ 2.0 2.1 2.2 2.3 Weirauch, Matthew T. Gene coexpression networks for the analysis of DNA microarray data. Applied Statistics for Network Biology: Methods in Systems Biology. 2011. 
  3. ^ 3.0 3.1 Roy, Swarup; Bhattacharyya, Dhruba K; Kalita, Jugal K. Reconstruction of gene co-expression network from microarray data using local expression patterns. BMC Bioinformatics. 2014, 15: S10. PMC 4110735 . PMID 25079873. doi:10.1186/1471-2105-15-s7-s10. 
  4. ^ De Smet, Riet; Marchal, Kathleen. Advantages and limitations of current network inference methods. Nature Reviews Microbiology. 2010, 8 (10): 717–29. PMID 20805835. doi:10.1038/nrmicro2419. 
  5. ^ Butte, Atul J; Kohane, Isaac S. Unsupervised knowledge discovery in medical databases using relevance networks. Proceedings of the AMIA Symposium. 1999. 
  6. ^ Butte, Atul J; Kohane, Isaac S. Mutual information relevance networks: functional genomic clustering using pairwise entropy measurements. Pac Symp Biocomput. 2000, 5. 
  7. ^ Villa-Vialaneix, Nathalie; Liaubet, Laurence; Laurent, Thibault; Cherel, Pierre; Gamot, Adrien; SanCristobal, Magali. The structure of a gene co-expression network reveals biological functions underlying eQTLs. PLOS ONE. 2013, 8 (4): 60045. Bibcode:2013PLoSO...860045V. PMC 3618335 . PMID 23577081. doi:10.1371/journal.pone.0060045. 
  8. ^ Persson, Staffan; Wei, Hairong; Milne, Jennifer; Page, Grier P; Somerville, Christopher R. Identification of genes required for cellulose synthesis by regression analysis of public microarray data sets. Proceedings of the National Academy of Sciences of the United States of America. 2005, 102 (24): 8633–8. Bibcode:2005PNAS..102.8633P. PMC 1142401 . PMID 15932943. doi:10.1073/pnas.0503392102. 
  9. ^ Reverter, Antonio; Chan, Eva KF. Combining partial correlation and an information theory approach to the reversed engineering of gene co-expression networks. Bioinformatics. 2008, 24 (21): 2491–2497. PMID 18784117. doi:10.1093/bioinformatics/btn482. 
  10. ^ 10.0 10.1 Song, Lin; Langfelder, Peter; Horvath, Steve. Comparison of co-expression measures: mutual information, correlation, and model based indices. BMC Bioinformatics. 2012, 13 (1): 328. PMC 3586947 . PMID 23217028. doi:10.1186/1471-2105-13-328. 
  11. ^ Elo, Laura L; Järvenpää, Henna; Orešič, Matej; Lahesmaa, Riitta; Aittokallio, Tero. Systematic construction of gene coexpression networks with applications to human T helper cell differentiation process. Bioinformatics. 2007, 23 (16): 2096–2103. PMID 17553854. doi:10.1093/bioinformatics/btm309. 
  12. ^ Luo, Feng; Yang, Yunfeng; Zhong, Jianxin; Gao, Haichun; Khan, Latifur; Thompson, Dorothea K; Zhou, Jizhong. Constructing gene co-expression networks and predicting functions of unknown genes by random matrix theory. BMC Bioinformatics. 2007, 8 (1): 299. PMC 2212665 . PMID 17697349. doi:10.1186/1471-2105-8-299. 
  13. ^ Zhang, Bin; Horvath, Steve. A general framework for weighted gene co-expression network analysis. Statistical applications in genetics and molecular biology. 2005, 4 (1): Article17. PMID 16646834. doi:10.2202/1544-6115.1128.