生物資訊學

生物信息學(英語:bioinformatics)利用應用數學信息學統計學計算機科學的方法研究生物學的問題。生物信息學的研究材料和結果就是各種各樣的生物學數據,其研究工具是計算機,研究方法包括對生物學數據的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計算、模擬)。目前主要的研究方向有:序列比對序列組裝基因識別基因重組蛋白質結構預測基因表達蛋白質反應的預測,以及建立進化模型

人類X染色體圖譜

生物學技術往往生成大量的嘈雜數據。與數據挖掘類似,生物信息學利用數學工具從大量數據中提取有用的生物學信息。生物信息學所要處理的典型問題包括:重新組裝霰彈槍定序法測序過程中被打散的DNA序列,從蛋白質氨基酸序列預測蛋白質結構,利用mRNA微陣列質譜儀的數據檢驗基因調控假說

某些人將計算生物學作為生物信息學的同義詞處理;但是另外一些人認為計算生物學和生物信息學應當被當作不同的條目處理,因為生物信息學更側重於生物學領域中計算方法的使用和發展,而計算生物學強調應用信息學技術對生物學領域中的假說進行檢驗,並嘗試發展新的理論。[1]

定義

生物信息學可以定義為對分子生物學中兩類信息流英語Information flow的研究[2]

  • 第一類信息流源於分子生物學中心法則DNA序列被轉錄為mRNA序列,後者被翻譯為蛋白質序列。蛋白質序列繼而摺疊為具功能的三維結構。按照達爾文演化理論,這些功能被生物體的環境所選擇,從而驅動群體中DNA序列的進化。因此,第一類的生物信息學應用關注於中心法則中任一階段的信息傳遞,包括DNA序列中基因的組織與控制、確定DNA中的轉錄單位、從序列預測蛋白質結構以及分子功能分析。
  • 第二類信息流是基於科學方法:提出關於生物學活動的假設,設計實驗以驗證這些假設,評估結果與假設的相容性,然後根據實驗數據對原假設作擴展或修正。第二類的生物信息學應用關注於這一流程中的信息傳遞,包括產生假設、設計實驗、通過數據庫將實驗結果組織起來、檢驗數據與模型的相容性以及修正假設的各個系統。 

開拓者

邁克爾·沃特曼(又譯:麥克·沃特曼)(Michael Waterman)教授率先將數學和計算方法引入生物學研究,在生物信息領域有許多開創性的貢獻,被譽為「生物信息學之父」。他致力於將數學、統計、計算機科學應用於各種分子生物學問題中,開闢了多個重要研究方向。他與Temple Smith發展的Smith-Waterman算法奠定了生物信息學算法的基礎,他與Eric Lander發展的生物序列映射數學模型成為人類基因組計劃的重要理論基石,同時,他的工作在數學界和計算機領域也有着廣泛和深遠的影響。2008年起,沃特曼教授受聘為北京清華大學講席教授,領導由多位海外傑出科學家組成的北京清華大學生物信息學與系統生物學講席教授組,為中國清華大學乃至中國的生物信息學學科發展做出了突出貢獻。2013年獲得中華人民共和國友誼獎。

主要研究方向

序列分析

 
不同基因或蛋白質的序列可以並排排列,以測量它們的相似性。 該比對比較含有WPP結構域英語WPP domain的蛋白質序列。

1977年,噬菌體Φ-X174成為第一個被完整測定基因組序列的生物體。自此以後,越來越多生物體的DNA序列被人類測定。通過對這些序列的分析,人們希望獲知其中對應蛋白質編碼基因基因調控序列。不同物種間的基因比對既能夠解釋和預測他們蛋白質的功能的相似性,又能夠揭示不同物種間的聯繫。由於數據量巨大,依靠人工分析DNA序列早已變得不切實際,這使得人們不得不採用計算機分析數千種生物體的數十億個核苷酸組成的DNA序列。由於DNA序列中普遍存在變異現象,這些計算機程序需要識別大量相關但是不完全相同的序列。即便是在DNA測序的過程中,也存在着不確定的因素。在DNA測序的霰彈槍定序法The Institute for Genomic Research依此技術測定了第一個細菌的基因組)中,完整的DNA鏈被打散為成千上萬條長約600到800個核苷酸的DNA片段。這些DNA片段的兩端相互重疊,只有依照正確的順序組合,才能還原為完整的DNA序列。對於較大的基因組,霰彈槍定序法能夠迅速的測定DNA片段的序列,但將它們組裝起來的工作則相當複雜。在人類基因組計劃中,該基因重組過程花費了幾個月的CPU時間(on a circa-2000 vintage DEC Alpha computer)。由於現今幾乎所有基因序列均由霰彈法測定,基因重組算法是信息生物學研究的重點課題。

基因組中並不是所有的核苷酸都構成基因,所以序列分析的另一個研究課題是對基因組中的基因基因調控序列進行自動識別。在較高等的生物體中,DNA序列的大部分並沒有明顯的作用。但是,這些所謂的「垃圾DNA」卻可能具有未被識別的功能。

基因組注釋

基因組學中,對基因和其他生物特徵的標註稱為基因組注釋。1995年,Owen White(在1995年完成的人類首次為獨立的生物體——流感嗜血桿菌——測序的工作中,他是組員之一)[3] 設計出了第一套基因組注釋軟件系統。該系統能夠自動識別基因、轉錄基因和其他生物學特徵,並能夠初步的分析它們的功能。大多數現今的注釋系統的與之類似,但用以分析DNA序列的軟件在不斷進化之中。

在尋找基因和致力於發現新蛋白的努力中,人們習慣於把新的序列同已知功能的蛋白序列作比對。由於這些比對通常都希望能夠推測新蛋白的功能,不管它們是雙重比對還是多序列比對,都可以回答大量的其它的生物學問題。舉例來說,面對一堆搜集的比對序列,人們會研究隱含於蛋白之中的系統發生的關係,以便於更好地理解蛋白的進化。人們並不只是着眼於某一個蛋白,而是研究一個家族中的相關蛋白,看看進化壓力和生物秩序如何結合起來創造出新的具有雖然不同但是功能相關的蛋白。研究完多序列比對中的高度保守區域,我們可以對蛋白質的整個結構進行預測,並且猜測這些保守區域對於維持三維結構的重要性。

顯然,分析一群相關蛋白質時,很有必要了解比對的正確構成。發展用於多序列比對的程序是一個很有活力的研究領域,絕大多數方法都是基於漸進比對(progressive alignment)的概念。漸進比對的思想依賴於使用者用作比對的蛋白質序列之間確實存在的生物學上的或者更準確地說是系統發生學上的相互關聯。不同算法從不同方面解決這一問題,但是當比對的序列大大地超過兩個時(雙重比對),對於計算的挑戰就會很令人生畏。在實際操作中,算法會在計算速度和獲得最佳比對之間尋求平衡,常常會接受足夠相近的比對。不管最終使用的是什麼方法,使用者都必須審視結果的比對,因為在此基礎上作一些手工修改是十分必要的,尤其是對保守的區域。

計算進化生物學

進化生物學研究物種的起源和演化。引入信息學進化生物學中,使得研究者能夠:

  • 通過度量DNA序列的改變研究眾多生物體間的進化關係(超越了以前基於身體和生理特徵觀察的研究方法)
  • 通過整個基因組的比對,研究更為複雜的進化論課題,如基因複製基因橫向遷移
  • 種群進化建立複雜的計算模型,以預測種群隨時間的演化[4]
  • 保存大量物種的遺傳信息

未來的研究工作包括重建業已相當複雜的進化樹

計算進化生物學常常與採用遺傳算法的計算機科學相混淆。後者受到生物進化原理的啟發,發展出一套軟件用於改進配方、算法、集成電路設計等等。[5]

生物多樣性的度量

對一個特定的生態系統,小到一層生物膜、一滴海水、一鏟泥土,大到整個地球,其中全體物種的基因組成分可被定義為這個生態系統的生物多樣性。搜集各物種的名稱、描述、分布、遺傳信息、地位、種群大小、棲息地,和各生物體間的相互作用等信息,可以建立一個數據庫。有專門的軟件用於搜尋、分析和可視化這些信息,更重要的是,它們還能夠幫助人們相互交流這些信息。計算機能夠模擬相應的模型,以計算種群動態演變,遺傳健康狀態等等。

該領域的一個重要前景是為瀕危物種建立基因銀行,即將各物種的基因組信息保存下來。這樣即便在將來這些物種滅絕了,人類也可能利用它們的基因組信息重新創造出它們。

蛋白質結構預測

蛋白質結構預測是生物信息學的重要應用。蛋白質氨基酸序列(也稱為一級結構)可以容易的由它的基因編碼序列獲得。在絕大多數情況下,在蛋白質的原生環境中,其結構由它的氨基酸序列唯一的決定。蛋白質的結構對於理解蛋白質的功能十分重要。這些結構信息通常被稱為二級、三級、四級結構。目前尚沒有普遍可行方案實現這些結構的準確預測;大多數方案為啟發式的。

同源性是生物信息學中的一個重要概念。在基因組的研究中,同源性被用以分析基因的功能:若兩基因同源,則它們的功能可能相近;在蛋白質結構的研究中,同源性被用於尋找在形成蛋白質結構和蛋白質反應中起關鍵作用的蛋白質片斷。在一種被稱為同源建模的技術中,這些信息可與已知結構的蛋白質相比較,從而預測未知結構的蛋白質。目前為止,這是唯一可靠的預測蛋白質結構的方法。

人類血色素和豆類血色素間的相似性是以上方法的一個實例。兩種血色素有相同的功能,均能夠在各自的生物體內運輸氧氣。儘管它們的氨基酸序列大不相同,它們的蛋白質結構幾乎一樣。

蛋白質表達分析

通過蛋白質微陣列技術或高通量質譜分析對生物標本進行測量所獲得的數據中,包含有大量生物標本內蛋白質的信息。生物信息學被廣泛的應用於這些數據的分析。對於前者,生物信息學所面臨的問題與DNA芯片數據分析中遇到的問題相似;對於後者,生物信息學將所獲得的大量質譜數據與通過已知蛋白質數據庫預測的數據進行比較,並使用複雜的統計學方法進一步分析。[6]

網絡和系統生物學

網絡分析試圖了解生物網絡中的關係,如代謝或蛋白質 - 蛋白質相互作用網絡。儘管生物網絡可以由單一類型的分子或實體(例如基因)構建,但是網絡生物學通常嘗試整合許多不同的數據類型,例如蛋白質,小分子,基因表達數據等。另一個流行的遺傳網絡分析數據源是文獻數據。相關工具包括Pathway Studio頁面存檔備份,存於網際網路檔案館)和IPA頁面存檔備份,存於網際網路檔案館)。

系統生物學涉及使用細胞子系統(例如代謝物和包括代謝,信號轉導途徑和基因調節網絡的酶的網絡)的計算機模擬來分析和可視化這些細胞過程的複雜連接。例如,人工生命或虛擬進化試圖通過簡單(人工)生命形式的計算機模擬來理解進化過程。

比較基因組學

比較基因組學的核心課題是識別和建立不同生物體的基因或其他基因組特徵的聯繫。這些跨基因組的聯繫使得我們能夠跟蹤基因組的進化過程。基因組進化由多個不同層次的事件完成。在最低的層次,單個核苷酸上發生了點變異。在較高的層次,大的染色體片段經歷了複製、橫向遷移、逆轉、調換、刪除和插入等過程。在最高的層次上,整個基因組會經歷雜交倍交內共生等變異,並迅速產生新的物種。

基因表達分析

多種生物學技術可以用於測量基因的表達,如DNA微陣列表達序列標籤(expressed sequence tag),基因表達連續分析(serial analysis of gene expression),大規模平行信號測序(massively parallel signature sequencing),多元原位雜交法(multiplexed in-situ hybridization)等。上列所有方法均嚴重依賴於環境並會產生大量高雜訊的數據。自從高通量測序技術實現商品化應用以來,轉錄組測序(RNA-Seq)日益成為研究基因表達信息的主要技術手段。相比傳統方法,轉錄組測序技術具有諸多優勢,例如更高的靈敏度,更準確的表達水平測定,更易於發現先前未注釋的基因或轉錄本等。在這些技術的應用過程中,生物信息學致力於發展一套統計學工具以相應的大規模數據中提取有用的生物學信息。[7]

調控分析

調控是指當細胞受到外信號刺激之後其內發生的一系列反應過程的總和。生物信息學技術被用於分析調控的各個步驟。例如,基因表達的數據可用於分析基因調控。對於一個單細胞生物體,我們可以用生物芯片技術觀察受到不同外界刺激、處於細胞周期不同狀態的細胞,並將採集到的數據利用聚類算法分析,以尋找表達相似的基因或樣本。該結果可用於多種深入的分析。

導致癌症的突變分析

二代測序在生物信息學上的突破使得腫瘤基因組學的範疇得到很大的擴展,新方法與軟件的出現也讓生物信息學家更快、更便宜地對癌症基因組進行測序。二代測序使得分類基因組裡導致癌症的突變的流程變得更靈活,也使得透過為不同時間的樣本測序,追蹤癌症病人的病況演進的檢測手段在未來成為可能[8]

生物系統模擬

系統生物學通過對細胞子系統的計算機模擬,分析這些細胞過程間的複雜聯繫,並將分析結果可視化。例如,人工生命就通過計算機模擬簡單的生物形式,以幫助人類了解進化過程。

在藥物研發方面的應用

生物信息學可用於藥物靶標基因的發現和驗證。有許多數據庫可用來獲得在不同組織在正常/疾病狀態下基因表達的差異,通過搜索這些數據庫,可以得到候選基因作為藥物靶標,特異性地針對某一種疾病。另外,還可根據蛋白質功能區和三維結構的預測來對藥物靶標進行鑑定,以便早期了解所研究蛋白的屬性,預測它是否適用於藥物作用。

軟件工具

BLAST(基本局部比對搜尋工具)和FASTA是目前使用得最為頻繁的兩套數據庫搜索程序。它們的功能相近,都是把用戶提交的一個核酸序列或蛋白質序列拿去與指定的數據庫中的全部序列作比較。一般認為,BLAST運行速度快,對蛋白質序列的搜尋更為有效。FASTA運行較慢,對核酸序列更為敏感。也有基於網頁交互的軟件如STING,用於結構生物信息學的分析。

參見

參考文獻

  1. ^ Lesk, A. M. Bioinformatics. Encyclopaedia Britannica. 26 July 2013 [17 April 2017]. (原始內容存檔於2021-04-14). 
  2. ^ Altman, 1998
  3. ^ Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM. Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science. July 1995, 269 (5223): 496–512. Bibcode:1995Sci...269..496F. PMID 7542800. doi:10.1126/science.7542800. 
  4. ^ Carvajal-Rodríguez A. Simulation of Genes and Genomes Forward in Time. Current Genomics. 2012, 11 (1): 58–61. PMC 2851118 . PMID 20808525. doi:10.2174/138920210790218007. 
  5. ^ Carter, N. P.; Fiegler, H.; Piper, J. Comparative analysis of comparative genomic hybridization microarray technologies: Report of a workshop sponsored by the Wellcome trust. Cytometry Part A. 2002, 49 (2): 43–8. PMID 12357458. doi:10.1002/cyto.10153. 
  6. ^ The Human Protein Atlas. www.proteinatlas.org. [2017-10-02]. (原始內容存檔於2020-03-04). 
  7. ^ Grau, J.; Ben-Gal, I.; Posch, S.; Grosse, I. VOMBAT: prediction of transcription factor binding sites using variable order Bayesian trees (PDF). Nucleic Acids Research. 1 July 2006, 34 (Web Server): W529–W533 [2019-02-16]. PMC 1538886 . PMID 16845064. doi:10.1093/nar/gkl212. (原始內容存檔 (PDF)於2018-09-30). 
  8. ^ Hye-Jung, E.C.; Jaswinder, K.; Martin, K.; Samuel, A.A; Marco, A.M. “Second-Generation Sequencing for Cancer Genome Analysis”. Dellaire, Graham; Berman, Jason N.; Arceci, Robert J. (編). Cancer Genomics. Boston (US): Academic Press. 2014: 13–30. ISBN 9780123969675. doi:10.1016/B978-0-12-396967-5.00002-5. 
書籍

外部連結