加权相关网络分析

加权相关网络分析也称为加权基因共表达网络分析,是一种广泛使用的数据挖掘方法,它用两两变量间相关系数研究生物网络。它适用于高维度数据集,在基因组学领域应用的最为广泛。

加权相关网络分析

此分析假定基因网络服从无尺度分布,定义基因共表达相关矩阵,计算生成邻接矩阵,然后计算各个节点的相异系数,建立分层聚类树。此树不同分支代表不同的基因模块,模块内基因有较高的共表达水平,从中可以鉴定出枢纽基因。可通过基因网络与表型之间联系,最终找到表型的靶点基因、基因网络[1]。此分析还可以用于研究共表达模块之间的关系、比较不同网络的网络拓扑学(差异网络分析)。加权基因共表达网络分析可以进行数据提炼(与斜交因子分析相关)、聚类分析(模糊聚类)、特征选择方法(比如,进行基因筛选)、综合互补(基因组)数据的框架(根据数量变量之间的加权相关性)和探索性数据分析。[2]

虽然加权基因共表达网络分析结合了很多传统数据探索技术,易于理解的网络语言和分析框架使它优于任何标准的分析方法。由于使用网络方法,同时适合整合互补基因组的数据,它可认为是一种系统生物学或系统遗传数据的分析方法。加权基因共表达网络分析通过在相似的模块间选择模块间枢纽基因,也使基于网络的元分析技术成为可能[3]

历史

加权基因共表达网络分析方法是加州大学洛杉矶分校大卫·格芬医学院人类遗传学教授、加州大学洛杉矶分校菲尔丁公共卫生学院生物统计学教授Steve Horvath、他在加州大学洛杉矶分校的同事、实验室成员(主要有Peter Langfelder、Bin Zhang、Jun Dong)联合创立的。研究的很大部分是应用领域的研究者合作产生的。加权相关网络是与癌症研究者Paul Mischel、Stanley F. Nelson和神经科学家Daniel H. Geschwind、Michael C. Oldham的讨论后发明的(根据[2]里的致谢章节)。存在很多关于依赖网络、自由尺度网络和共表达网络的研究文献[来源请求]

方法

第一,指定基因共表达相似性指标来定义网络。我们用 表示基因i和j之间的基因共表达相似性。很多共表达研究都使用相关性的绝对值,作为无符号共表达相似指标,

 

公式里,多个样本中基因表达量构成了基因表达谱  。然而,使用相关性的绝对值就不区分基因的抑制和激活,造成了生物学信息的损失。而在有符号网络中,基因之间的相似性表达了其表达谱的相关方向。为定义基因表达谱  之间一个有符号共表达指标,我们可以使用对相关性的简单转换:

 

与无符号指标 一样,有符号相似性 取0和1之间的值。请注意,两个表达量相反的基因在无符号时等于1,有符号时等于0;两个表达量无相关性的基因,无符号时等于0,有符号时等于0.5。

下一步,使用邻接矩阵(网络) 定量确定两个基因相互连接的程度。将共表达相似性矩阵 设定阈值定义为 。对相似性指标 设立固定的阈值会将数据分为两组,生成无权重基因共表达网络。如果 ,无权重网络邻接矩阵设定为1,否则设定为0。因为设定固定的阈值会将基因连接分成两组,对阈值的选择较为敏感,造成共表达信息的损失[4]。如果不设固定阈值,共表达信息连续的特性就得以保留。加权基因共表达网络分析使用以下的幂函数评估连接强度:

 ,

 是不固定阈值的参数。无符号和有符号网络分别使用  作为默认值。 也可以使用无尺度拓扑标准进行选择,即选择 可达成无尺度网络的最小值 [4]

由于 ,加权网络邻接矩阵与共表达相似矩阵线性的对数值相关。 取高值,会将高度相似性转换为高度邻接矩阵、低相似度推向0。由于这种应用于成对相关矩阵的不固定阈值的步骤会产生加权邻接矩阵,随后的分析称为加权基因共表达网络分析。

模块中心分析的重要一步是:用网络拓扑指标将基因集聚为网络模块。简单来说,一对基因如果相互连接,距离会较近。按照惯例,两个基因的距离在0到1之间。通常来说,加权基因共表达网络分析使用拓扑重叠指标作为距离[5][6]

拓扑重叠指标将两个基因之间的邻接矩阵和两个基因与其他基因之间的连接强度混合,是网络相互连接性稳健的指标。将此指标输入平均连锁层级聚类。动态分支切割法生成的聚类结果中的分支,就成了模块[7]。之后,在特定模块内的基因与模块特征向量一起,可以被视为标准模块表达数据最好的总结[8]。标准化表达谱的第一个主成分定义为模块特征向量。为了寻找与感兴趣的临床性状相关的模块,模块特征向量之后与其进行相关性比较,得出特征向量显著指标。人们可以在模块特征向量之间建立共表达网络,即以节点为模块的网络[9]

为了判断特定模块的模块间枢纽基因,可以使用两种连接指标。第一种称为 ,是将基因与相关模块的特征向量进行相关定义的。第二种称为kIN,定义为邻接矩阵相关模块基因的和。实际运用中,两种指标是等同的[8]。为了测试一个模块是否存在于另一个数据集,可以使用多种网络统计量,如 [10]

加权和未加权相关网络的比较

可以将加权相关网络理解成特殊形式的加权网络、依赖网络或者相关网络。加权相关网络分析由于以下几点,很具吸引力:

  • 网络建设(基于对皮尔逊积矩相关系数设定不固定阈值)保留了背后相关信息的连续性特征。比如,根据数值变量的相关性建立的加权相关网络不需要选择固定阈值。设固定阈值将信息分为两组可能会导致信息削减[4]
  • 对于设定不同的不固定阈值,网络建设十分稳健[4]。这与对称对相关性设定阈值的不加权网络的结果相反,其通常受阈值影响很大。
  • 可以根据相关性角度的解读对加权相关网络进行几何解读[8]
  • 算出的网络统计结果可以用来提升标准的数据挖掘方法(如聚类分析),因为相似性指标通常可转换为加权网络。[11][8]
  • 加权基因共表达网络分析提供强大的模块保留统计量,可用来定量预测,在其他条件下能否找到的可能性。模块保留统计量允许研究者研究网络间模块结构的差别[10]
  • 加权网络和相关网络可以由“可因子分解”网络近似计算[8][12]。稀疏的、无权重的网络通常难以进行此种近似。因此,加权(相关)网络允许吝啬参数化(就模块和模块资格而言)[2][13]

应用

加权基因共表达网络分析被广泛应用于在分析表达数据(即转录数据)。如,寻找模块间枢纽基因。[3][14]

在系统遗传学应用中,此分析常用于数据提炼步骤,模块由“模块特征向量”表示[15][16]。可用模块特征向量将模块与临床性状相关联。特征向量网络是模块特征向量之间的共表达网络(即节点为模块的网络)。 神经科学应用加权基因共表达网络分析[17][18],分析微阵列数据[19]、单细胞RNA测序数据[20][21]DNA甲基化数据[22]、miRNA数据、肽计数[23]人类微生物组计划数据(16S rRNA基因序列)的基因组数据[24]。其他的应用包括:脑影像数据,如功能性磁共振成像数据[25]

R软件包

加权基因共表达网络分析的R软件[26]提供了加权网络分析所有功能(模块建立、节点基因选择、模块保存统计、差异网络分析、网络统计)的函数。可以通过CRAN下载加权基因共表达网络分析包。

参考资料

  1. ^ 宋长新,雷萍,王婷. 基于WGCNA算法的基因共表达网络构建理论及其R软件实现[J]. 基因组学与应用生物学,2013,(01):135-141.
  2. ^ 2.0 2.1 2.2 Horvath S (2011). Weighted Network Analysis: Applications in Genomics and Systems Biology. Springer Book. 1st Edition., 2011, XXII, 414 p Hardcover ISBN 978-1-4419-8818-8 website
  3. ^ 3.0 3.1 Langfelder P, Mischel PS, Horvath S (2013) When Is Hub Gene Selection Better than Standard Meta-Analysis? PLoS ONE 8(4): e61505. doi:10.1371/journal.pone.0061505 PMCID: PMC3629234 PloS One页面存档备份,存于互联网档案馆 
  4. ^ 4.0 4.1 4.2 4.3 Zhang B, Horvath S (2005) A General Framework for Weighted Gene Co-Expression Network Analysis", Statistical Applications in Genetics and Molecular Biology: Vol. 4: No. 1, Article 17 PMID 16646834 [1]页面存档备份,存于互联网档案馆
  5. ^ Ravasz, E; Somera, AL; Mongru, DA; Oltvai, ZN; Barabasi, AL. Hierarchical organization of modularity in metabolic networks. Science. 2002, 297 (5586): 1551–1555. doi:10.1126/science.1073374. 
  6. ^ Yip A, Horvath S (2007) Gene network interconnectedness and the generalized topological overlap measure. BMC Bioinformatics 2007, 8:22 PMID 17250769 PMCID: PMC1797055 BMC Bioinformatics页面存档备份,存于互联网档案馆 
  7. ^ Langfelder, P; Zhang, B; Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut library for R.. Bioinformatics. 2007, 24: 719–20. PMID 18024473. doi:10.1093/bioinformatics/btm563. 
  8. ^ 8.0 8.1 8.2 8.3 8.4 Horvath, S; Dong, J. Geometric Interpretation of Gene Coexpression Network Analysis. PLoS Comput Biol. 2008, 4 (8): e1000117. PMC 2446438 . PMID 18704157. doi:10.1371/journal.pcbi.1000117.   
  9. ^ Langfelder, P; Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 2007, 2007 (1): 54. PMC 2267703 . PMID 18031580. doi:10.1186/1752-0509-1-54.   
  10. ^ 10.0 10.1 Langfelder P, Luo R, Oldham MC, Horvath S (2011) Is my network module preserved and reproducible? PloS Comp Biol. 7(1): e1001057 PMID 21283776 PMCID:PMC3024255 PloS Comp Biol页面存档备份,存于互联网档案馆 
  11. ^ Oldham MC, Langfelder P, Horvath S (2012) Network methods for describing sample relationships in genomic datasets: application to Huntington's disease. BMC Syst Biol. 2012 Jun 12;6(1):63. PMID 22691535 46(11) 1-17  
  12. ^ Dong J, Horvath S (2007) Understanding Network Concepts in Modules, BMC Systems Biology 2007, 1:24 PMID 17547772  
  13. ^ Ranola JM, Langfelder P, Lange K, Horvath S Cluster and propensity based approximation of a network. BMC Syst Biol. 2013 Mar 14;7(1):21 PMID 23497424 BMC Systems Biology页面存档备份,存于互联网档案馆 
  14. ^ Horvath, S; Zhang, B; Carlson, M; Lu, KV; Zhu, S; Felciano, RM; Laurance, MF; Zhao, W; Shu, Q; Lee, Y; Scheck, AC; Liau, LM; Wu, H; Geschwind, DH; Febbo, PG; Kornblum, HI; Cloughesy, TF; Nelson, SF; Mischel, PS. Analysis of Oncogenic Signaling Networks in Glioblastoma Identifies ASPM as a Novel Molecular Target. PNAS. 2006, 103 (46): 17402–17407. doi:10.1073/pnas.0608396103. 
  15. ^ Chen Y, Zhu J, Lum PY, Yang X, Pinto S, MacNeil DJ, Zhang C, Lamb J, Edwards S, Sieberts SK, Leonardson A, Castellini LW, Wang S, Champy MF, Zhang B, Emilsson V, Doss S, Ghazalpour A, Horvath S, Drake TA, Lusis AJ, Schadt EE. Variations in DNA elucidate molecular networks that cause disease. Nature. 2008 Mar 27;452(7186):429-35.
  16. ^ Plaisier CL, Horvath S, Huertas-Vazquez A, Cruz-Bautista I, Herrera MF, Tusie-Luna T, Aguilar-Salinas C, Pajukanta P (2009) A systems genetics approach implicates USF1, FADS3 and other causal candidate genes for familial combined hyperlipidemia. PloS Genetics;5(9):e1000642  
  17. ^ Voineagu I, Wang X, Johnston P, Lowe JK, Tian Y, Horvath S, Mill J, Cantor R, Blencowe BJ, Geschwind DH (2011) Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. PMID 21614001
  18. ^ Hawrylycz MJ, Lein ES, Guillozet-Bongaarts AL, Shen EH, Ng L, Miller JA, van de Lagemaat LN, Smith KA, Ebbert A, Riley ZL, Abajian C, Beckmann CF, Bernard A, Bertagnolli D, Boe AF, Cartagena PM, Chakravarty MM, Chapin M, Chong J, Dalley RA, Daly BD, Dang C, Datta S, et al, Koch C, Grant SG, Jones AR (2012) An anatomically comprehensive atlas of the adult human brain transcriptome. Nature. 2012 Sep 20;489(7416):391-9. doi: 10.1038 nature11405. PMID 22996553 Nature
  19. ^ Kadarmideen, Haja N.; Watson-Haigh, Nathan S.; Andronicos, Nicholas M. Systems biology of ovine intestinal parasite resistance: disease gene modules and biomarkers. Mol. BioSyst. 1 January 2011, 7 (1): 235–246 [2017-07-24]. doi:10.1039/C0MB00190B. (原始内容存档于2018-06-11). 
  20. ^ Kogelman, Lisette J. A.; Cirera, Susanna; Zhernakova, Daria V.; Fredholm, Merete; Franke, Lude; Kadarmideen, Haja N. Identification of co-expression gene networks, regulatory genes and pathways for obesity based on adipose tissue RNA Sequencing in a porcine model. BMC Medical Genomics. 1 January 2014, 7: 57. PMC 4183073 . PMID 25270054. doi:10.1186/1755-8794-7-57 –通过BioMed Central. 
  21. ^ Xue Z, Huang K, Cai C, Cai L, Jiang CY, Feng Y, Liu Z, Zeng Q, Cheng L, Sun YE, Liu JY, Horvath S, Fan G. (2013) Genetic programs in human and mouse early embryos revealed by single-cell RNA?sequencing. Nature. 2013 Jul 28. doi: 10.1038/nature12364 PMID 23892778 Nature
  22. ^ Horvath S, Zhang Y, Langfelder P, Kahn RS, Boks MP, van Eijk K, van den Berg LH, Ophoff RA. Aging effects on DNA methylation modules in human brain and blood tissue. Genome Biol. 2012 Oct 3;13(10):R97. PMID 23034122 Genome Biology页面存档备份,存于互联网档案馆
  23. ^ Shirasaki DI, Greiner ER, Al-Ramahi I, Gray M, Boontheung P, Geschwind DH, Botas J, Coppola G, Horvath S, Loo JA, Yang XW. (2012) Network organization of the huntingtin proteomic interactome in Mammalian brain. Neuron. 2012 Jul 12;75(1):41-57. PMID 22794259 Neuron页面存档备份,存于互联网档案馆
  24. ^ Tong M, Li X, Wegener Parfrey L, Roth B, Ippoliti A, Wei B, Borneman J, McGovern DP, Frank DN, Li E, Horvath S, Knight R, Braun J (2013) A modular organization of the human intestinal mucosal microbiota and its association with inflammatory bowel disease. PLoS One. 2013 Nov 19;8(11):e80702. doi: 10.1371/journal.pone.0080702. PMID 24260458 PMC  
  25. ^ Mumford JA, Horvath S, Oldham MC, Langfelder P, Geschwind DH, Poldrack RA (2010) Detecting network modules in fMRI time series: A weighted network analysis approach. Neuroimage. 2010 Oct 1;52(4):1465-1476. Epub 2010 May 27.PMID 20553896. PMC
  26. ^ Langfelder P, Horvath S (2008) WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics 2008, 9:559 PMID 19114008 PMCID: PMC2631488 BMC Bioinformatics页面存档备份,存于互联网档案馆