BED (文件格式)

BEDBrowser Extensible Data,字面意思是「(基因組)瀏覽器可延展數據」)是一種基因組學中用於表示、標記基因組區域位置信息中的文件格式,於人類基因組計劃中首次出現[1]。BED文件是目前基因組學事實上的標準格式之一。

BED文件
副檔名
.bed
網路媒體型式
text/x-bed
格式類型文本文件
網站https://samtools.github.io/hts-specs/BEDv1.pdf

格式

引入BED格式的人類基因組計劃並未詳細規範BED文件格式,因此一般較通用加州大學聖克魯茲分校(UCSC)基因組瀏覽器英語UCSC Genome Browser中的描述文件[2]。2021年,全球基因組學與健康聯盟英語Global Alliance for Genomics and Health(GA4GH)發佈了首份BED文件格式的規範文件[3][4]

BED文件最少需要有3個分別表示區域染色體序號、起始位置,以及終止位置的列,根據不同需求可增加至12列記錄更多信息。一般來說,不同的列之間應以制表符分隔值(\t)隔開,且每一行的列數必須相同[5]

下表介紹BED文件每一列應該存儲的信息。三個必須出現的列標記為紅色。

BED文件的列
序號 原文名稱 定義
1 chrom 染色體序號。有時也可以是測序腳手架英語Scaffolding (bioinformatics)的序號。
2 chromStart 區域起始位置的編號(染色體起始點設為0)
3 chromEnd 區域終止位置的編號
4 name 該行表示區域的名稱
5 score 該區域的分數,如Peak calling(尋峰)的分數,應該在0-100之間
6 strand 該區域所在的DNA鏈,一般應取「+」(正鏈)、「-」(反義鏈),或「.」(不適用正反義鏈時)
7 thickStart 在基因組瀏覽器中應加粗表示區域的起始點(例如基因的起始密碼子
8 thickEnd 在基因組瀏覽器中應加粗表示區域的終止點(例如基因的終止密碼子
9 itemRgb 該區域在基因組瀏覽器中用什麼顏色表示,應使用三原色光模式(RGB)系統的顏色代碼
10 blockCount 該行表示的區域含多少個區塊(例如外顯子
11 blockSizes 該行表示的區域各個區塊的長度。不同區塊應使用半角逗號隔開。元素的數量應與第10列的值相同
12 blockStarts 該行表示的區域各個區塊的開始點。不同區塊應使用半角逗號隔開。元素的數量應與第10列的值相同

頭行文件

一部分BED文件會具有一些與BED文件本身無關的頭行文件,一般包含以下信息

  • "browser":與UCSC基因組瀏覽器設置相關的參數
  • "track": 與基因組瀏覽器中可視化參數設置相關
  • "#":註釋內容,內容任意

文件擴展名

BED文件的擴展名一般為「.bed」。有時候,也根據列數的不同標註為「.bed3」(有3列的BED文件)、「.bed6」(有6列的BED文件)等等[6]

例子

以下為一個含有最基本3列信息的BED文件範例:

chr7    127471196    127472363
chr7    127472363    127473530
chr7    127473530    127474697

以下是另一個BED文件的範例,UCSC基因組瀏覽器提供的BED文件一般都是這種格式。頭三行是UCSC基因組瀏覽器的設置參數,與BED文件本身無關。

browser position chr7:127471196-127495720
browser hide all
track name="ItemRGBDemo" description="Item RGB demonstration" visibility=2 itemRgb="On"
chr7    127471196    127472363    Pos1    0    +    127471196    127472363    255,0,0
chr7    127472363    127473530    Pos2    0    +    127472363    127473530    255,0,0
chr7    127473530    127474697    Pos3    0    +    127473530    127474697    255,0,0
chr7    127474697    127475864    Pos4    0    +    127474697    127475864    255,0,0
chr7    127475864    127477031    Neg1    0    -    127475864    127477031    0,0,255
chr7    127477031    127478198    Neg2    0    -    127477031    127478198    0,0,255
chr7    127478198    127479365    Neg3    0    -    127478198    127479365    0,0,255
chr7    127479365    127480532    Pos5    0    +    127479365    127480532    255,0,0
chr7    127480532    127481699    Neg4    0    -    127480532    127481699    0,0,255

.genome格式

genome文件是一種有時與BED文件配合使用的文件。這種文件含有兩列,第一列是染色體序號、第二列表示這條染色體的長度。genome文件主要是確保BED文件表示的區域不會位於染色體應有的長度之外。

 chrom   size                                                                         
 chr1    248956422
 chr2    242193529
 chr3    198295559
 chr4    190214555
 chr5    181538259
 chr6    170805979
 chr7    159345973
 ...

參見

參考資料

  1. ^ Kent WJ., Sugnet CW., Furey TS., Roskin KM., Pringle TH., Zahler AM. & Haussler D. The human genome browser at UCSC.. Genome Research. 2002, 12 (6): 996–1006. ISSN 1088-9051. PMC 186604 . PMID 12045153. doi:10.1101/gr.229102 . 
  2. ^ Frequently Asked Questions: Data File Formats. BED format. UCSC Genome Browser. University of California Santa Cruz Genomics Institute. [2 October 2019]. (原始內容存檔於2021-05-09). 
  3. ^ GA4GH BED v1.0: A formal standard sets ground rules for genomic features. www.ga4gh.org. 2022-03-30 [2022-05-07]. (原始內容存檔於2022-03-31). 
  4. ^ The Browser Extensible Data (BED) format (PDF). samtools.github.io. [2022-05-07]. (原始內容 (PDF)存檔於2022-01-21). 
  5. ^ Quinlan, AR; Hall, IM. The BEDTools manual (PDF). 21 September 2010 [3 October 2019]. (原始內容 (PDF)存檔於2022-02-26). 
  6. ^ Datatypes. Galaxy Community Hub. [3 October 2019]. (原始內容存檔於2021-12-09).