基因共表達網絡

基因共表達網絡是一種無向圖,每個節點代表基因,如果二者存在明顯的共表達關係,就用一個邊連接兩個節點。[1] 對不同的樣本或者不同的實驗條件建立基因表達譜後,可以通過查看不同樣本間產生相似表達模式的基因對建立基因共表達網絡。原因是,兩個共表達基因在不同的樣本中應以相同模式變化。共同表達的基因是由同一轉錄控制程序控制、功能相關、同一通路或蛋白結構的組成部分,所以基因共表達網絡具有生物學意義[2]

使用18名胃癌患者微陣列數據庫創建的7221個基因創建的基因共表達網絡。

基因共表達網絡不指定共表達關係的方向和類型。然而在基因調控網絡中,邊是有方向的,代表着反應、變換、互作、激活或者抑制的生化過程[3]。而基因共表達網絡並不嘗試判定因果關係,邊只代表基因之間的相關或者依賴關係[4]。有類似功能或參與統一生物功能的基因會產生很多相互作用,在基因共表達網絡中會體現為模塊或連接豐富的子圖[3]

基因共表達網絡中忽略邊的方向。雖然三個基因X、Y、Z共同表達,並無法確定是誰激活誰。

基因共表達網絡一般是用高通量基因表達譜技術(如微陣列RNA測序)生成的數據集建立的。

歷史

Butte和Kohane在1999年提出了基因共表達網絡的概念。[5]他們到很多醫學實驗室收集了很多病人的檢驗數據,計算了Pearson相關係數,用網絡來表示,將超過一定水平的數據進行連接(比如:胰島素與血糖水平)。Bute和Kohane又把這種方法與互信息一起作為共表達的指標,並使用基因表達數據建立了第一個基因共表達網絡[6]

建立基因共表達網絡

研究人員為構建基因共表達網絡開發了不少方法。根本上,他們都分兩步:計算共表達指標、選擇顯著閾值。首先,選擇共表達指標,之後用這個指標計算每一對基因之間的相似分數。之後,確定閾值,將高於閾值認定為具有顯著的共表達關係,用邊在網絡中連接。

 
構建基因共表達網絡分為兩個步驟:對每對基因計算共表達分數(如:Pearson相關係數的絕對值),之後設定顯著閾值(如:相關係數>0.8)。

通常用矩陣表示構建基因共表達網絡的輸入數據。如果我們有n個樣本m個基因的表達值,輸入數據就會是m×n矩陣(稱作表達矩陣)。比如,一個微陣列實驗中,測量各級各樣本的幾千個基因的表達值。第一步,先對表達矩陣每兩行計算相似分數(共表達指標)。之後的矩陣就會是一個m×m矩陣,稱作相似矩陣。這個矩陣的每個元素都是有關兩個基因共同改變幅度大小的。之後,將相關矩陣中每個高於特定閾值的指標都替換成1,其他的替換成0。此時的矩陣成為鄰接矩陣,代表所創建的基因共表達網絡的圖。此矩陣中,每個元素都顯示兩個基因是否在網絡中相互連接。

共表達指標

不同樣本各個基因的表達值都可以用向量來表示,計算兩組基因之間的共表達指標就和計算兩組向量之間部分指標相同。

基因共表達網絡最常用的共表達指標是皮爾遜積矩相關係數互信息斯皮爾曼等級相關係數歐幾里得距離 。歐幾里得距離計算兩組向量之間的幾何距離,同時會考慮兩組基因表達值的方向和大小。互信息指,知道一個基因的表達水平或降低後,另一個基因表達水平不確定性的幅度。Pearson相關係數測量兩組基因之間的一致性,是否一起上升下降。Spearman秩相關是使用基因表達量的排名來計算Pearson相關係數的方法[2]。還有偏相關[7]迴歸[8]和混合偏相關和互信息的方法[9]

每種指標都各有優缺點。當功能相關的基因絕對值差別很大時,歐幾里得距離就不適用了。另外,如果兩個基因表達量都很低,產生的相關只是隨機的,仍可能在歐幾里得空間中相近。[2]互信息的一個優點是可以探測非線性關係;但是由於探測複雜的非線性關係一般沒有生物學意義,這也可能成為一種缺點。另外,互信息指標需要較大樣本量才能算出較好的結果。Spearman秩對異常值的考慮較好,但是對表達值不敏感,小樣本數時可能出現很多假陽性結果。

基因共表達網絡的最流行指標是Pearson相關係數。Pearson相關係數處於-1和1之間,絕對值接近1說明相關性很強。

Pearson相關係數有兩個缺點:它只能檢測線性關係,對於異常值敏感。而且,它要求基因表達數據服從正態分布。Song et al.[10]認為,biweight midcorrelation (bicor)可以很好地替代Pearson相關係數。「Bicor是一個基於中位數的相關,比Pearson相關更穩健,比Spearman相關更強大」。有人認為,因為「多數基因對符合線性或單調關係」,所以「在測量靜止數據時,可以安全地用相關網絡代替互信息網絡」[10]

閾值選擇

建立基因共表達網絡有多種選擇閾值的方法。最簡單的是,選擇一個共表達的截點 ,選擇共表達將這個超過這個截點的邊視作共表達。另一個方法使用費雪變換根據樣本量計算每個相關性的標準分數。z-分數於是轉換為每一個相關性的p值,之後對p值設定截點。另一些方法置換數據,根據置換後數據集相關性的分布計算z分數[2]。林有一些使用的方法包括根據集聚係數的閾值選擇法[11]和隨機矩陣理論[12]

p值相關的方法的問題是,p值是常規的0.01或0.05,而非生物學意義。

WGCNA是建立和分析加權基因共表達網絡的一個框架[13]

WGCNA方法會選擇出根據無尺度拓撲的基因共表達網絡選擇閾值。這種方法會建立出幾個閾值的網絡,選擇出其中滿足無尺度網絡拓撲的網絡。而且,WGCNA方法會建立出一個所有可能的邊都出現在網絡中的加權網絡,但是每個邊有一個權重,顯示出此邊共表達關係的顯著性。

參見

參考文獻

  1. ^ Stuart, Joshua M; Segal, Eran; Koller, Daphne; Kim, Stuart K. A gene-coexpression network for global discovery of conserved genetic modules. Science. 2003, 302 (5643): 249–55. Bibcode:2003Sci...302..249S. PMID 12934013. doi:10.1126/science.1087447. 
  2. ^ 2.0 2.1 2.2 2.3 Weirauch, Matthew T. Gene coexpression networks for the analysis of DNA microarray data. Applied Statistics for Network Biology: Methods in Systems Biology. 2011. 
  3. ^ 3.0 3.1 Roy, Swarup; Bhattacharyya, Dhruba K; Kalita, Jugal K. Reconstruction of gene co-expression network from microarray data using local expression patterns. BMC Bioinformatics. 2014, 15: S10. PMC 4110735 . PMID 25079873. doi:10.1186/1471-2105-15-s7-s10. 
  4. ^ De Smet, Riet; Marchal, Kathleen. Advantages and limitations of current network inference methods. Nature Reviews Microbiology. 2010, 8 (10): 717–29. PMID 20805835. doi:10.1038/nrmicro2419. 
  5. ^ Butte, Atul J; Kohane, Isaac S. Unsupervised knowledge discovery in medical databases using relevance networks. Proceedings of the AMIA Symposium. 1999. 
  6. ^ Butte, Atul J; Kohane, Isaac S. Mutual information relevance networks: functional genomic clustering using pairwise entropy measurements. Pac Symp Biocomput. 2000, 5. 
  7. ^ Villa-Vialaneix, Nathalie; Liaubet, Laurence; Laurent, Thibault; Cherel, Pierre; Gamot, Adrien; SanCristobal, Magali. The structure of a gene co-expression network reveals biological functions underlying eQTLs. PLOS ONE. 2013, 8 (4): 60045. Bibcode:2013PLoSO...860045V. PMC 3618335 . PMID 23577081. doi:10.1371/journal.pone.0060045. 
  8. ^ Persson, Staffan; Wei, Hairong; Milne, Jennifer; Page, Grier P; Somerville, Christopher R. Identification of genes required for cellulose synthesis by regression analysis of public microarray data sets. Proceedings of the National Academy of Sciences of the United States of America. 2005, 102 (24): 8633–8. Bibcode:2005PNAS..102.8633P. PMC 1142401 . PMID 15932943. doi:10.1073/pnas.0503392102. 
  9. ^ Reverter, Antonio; Chan, Eva KF. Combining partial correlation and an information theory approach to the reversed engineering of gene co-expression networks. Bioinformatics. 2008, 24 (21): 2491–2497. PMID 18784117. doi:10.1093/bioinformatics/btn482. 
  10. ^ 10.0 10.1 Song, Lin; Langfelder, Peter; Horvath, Steve. Comparison of co-expression measures: mutual information, correlation, and model based indices. BMC Bioinformatics. 2012, 13 (1): 328. PMC 3586947 . PMID 23217028. doi:10.1186/1471-2105-13-328. 
  11. ^ Elo, Laura L; Järvenpää, Henna; Orešič, Matej; Lahesmaa, Riitta; Aittokallio, Tero. Systematic construction of gene coexpression networks with applications to human T helper cell differentiation process. Bioinformatics. 2007, 23 (16): 2096–2103. PMID 17553854. doi:10.1093/bioinformatics/btm309. 
  12. ^ Luo, Feng; Yang, Yunfeng; Zhong, Jianxin; Gao, Haichun; Khan, Latifur; Thompson, Dorothea K; Zhou, Jizhong. Constructing gene co-expression networks and predicting functions of unknown genes by random matrix theory. BMC Bioinformatics. 2007, 8 (1): 299. PMC 2212665 . PMID 17697349. doi:10.1186/1471-2105-8-299. 
  13. ^ Zhang, Bin; Horvath, Steve. A general framework for weighted gene co-expression network analysis. Statistical applications in genetics and molecular biology. 2005, 4 (1): Article17. PMID 16646834. doi:10.2202/1544-6115.1128.