BED (文件格式)

BEDBrowser Extensible Data,字面意思是“(基因组)浏览器可延展数据”)是一种基因组学中用于表示、标记基因组区域位置信息中的文件格式,于人类基因组计划中首次出现[1]。BED文件是目前基因组学事实上的标准格式之一。

BED文件
扩展名
.bed
互联网媒体类型
text/x-bed
格式类型文本文件
网站https://samtools.github.io/hts-specs/BEDv1.pdf

格式

引入BED格式的人类基因组计划并未详细规范BED文件格式,因此一般较通用加州大学圣克鲁兹分校(UCSC)基因组浏览器英语UCSC Genome Browser中的描述文件[2]。2021年,全球基因组学与健康联盟英语Global Alliance for Genomics and Health(GA4GH)发布了首份BED文件格式的规范文件[3][4]

BED文件最少需要有3个分别表示区域染色体序号、起始位置,以及终止位置的列,根据不同需求可增加至12列记录更多信息。一般来说,不同的列之间应以制表符分隔值(\t)隔开,且每一行的列数必须相同[5]

下表介绍BED文件每一列应该存储的信息。三个必须出现的列标记为红色。

BED文件的列
序号 原文名称 定义
1 chrom 染色体序号。有时也可以是测序脚手架英语Scaffolding (bioinformatics)的序号。
2 chromStart 区域起始位置的编号(染色体起始点设为0)
3 chromEnd 区域终止位置的编号
4 name 该行表示区域的名称
5 score 该区域的分数,如Peak calling(寻峰)的分数,应该在0-100之间
6 strand 该区域所在的DNA链,一般应取“+”(正链)、“-”(反义链),或“.”(不适用正反义链时)
7 thickStart 在基因组浏览器中应加粗表示区域的起始点(例如基因的起始密码子
8 thickEnd 在基因组浏览器中应加粗表示区域的终止点(例如基因的终止密码子
9 itemRgb 该区域在基因组浏览器中用什么颜色表示,应使用三原色光模式(RGB)系统的颜色代码
10 blockCount 该行表示的区域含多少个区块(例如外显子
11 blockSizes 该行表示的区域各个区块的长度。不同区块应使用半角逗号隔开。元素的数量应与第10列的值相同
12 blockStarts 该行表示的区域各个区块的开始点。不同区块应使用半角逗号隔开。元素的数量应与第10列的值相同

头行文件

一部分BED文件会具有一些与BED文件本身无关的头行文件,一般包含以下信息

  • "browser":与UCSC基因组浏览器设置相关的参数
  • "track": 与基因组浏览器中可视化参数设置相关
  • "#":注释内容,内容任意

文件扩展名

BED文件的扩展名一般为“.bed”。有时候,也根据列数的不同标注为“.bed3”(有3列的BED文件)、“.bed6”(有6列的BED文件)等等[6]

例子

以下为一个含有最基本3列信息的BED文件范例:

chr7    127471196    127472363
chr7    127472363    127473530
chr7    127473530    127474697

以下是另一个BED文件的范例,UCSC基因组浏览器提供的BED文件一般都是这种格式。头三行是UCSC基因组浏览器的设置参数,与BED文件本身无关。

browser position chr7:127471196-127495720
browser hide all
track name="ItemRGBDemo" description="Item RGB demonstration" visibility=2 itemRgb="On"
chr7    127471196    127472363    Pos1    0    +    127471196    127472363    255,0,0
chr7    127472363    127473530    Pos2    0    +    127472363    127473530    255,0,0
chr7    127473530    127474697    Pos3    0    +    127473530    127474697    255,0,0
chr7    127474697    127475864    Pos4    0    +    127474697    127475864    255,0,0
chr7    127475864    127477031    Neg1    0    -    127475864    127477031    0,0,255
chr7    127477031    127478198    Neg2    0    -    127477031    127478198    0,0,255
chr7    127478198    127479365    Neg3    0    -    127478198    127479365    0,0,255
chr7    127479365    127480532    Pos5    0    +    127479365    127480532    255,0,0
chr7    127480532    127481699    Neg4    0    -    127480532    127481699    0,0,255

.genome格式

genome文件是一种有时与BED文件配合使用的文件。这种文件含有两列,第一列是染色体序号、第二列表示这条染色体的长度。genome文件主要是确保BED文件表示的区域不会位于染色体应有的长度之外。

 chrom   size                                                                         
 chr1    248956422
 chr2    242193529
 chr3    198295559
 chr4    190214555
 chr5    181538259
 chr6    170805979
 chr7    159345973
 ...

参见

参考资料

  1. ^ Kent WJ., Sugnet CW., Furey TS., Roskin KM., Pringle TH., Zahler AM. & Haussler D. The human genome browser at UCSC.. Genome Research. 2002, 12 (6): 996–1006. ISSN 1088-9051. PMC 186604 . PMID 12045153. doi:10.1101/gr.229102 . 
  2. ^ Frequently Asked Questions: Data File Formats. BED format. UCSC Genome Browser. University of California Santa Cruz Genomics Institute. [2 October 2019]. (原始内容存档于2021-05-09). 
  3. ^ GA4GH BED v1.0: A formal standard sets ground rules for genomic features. www.ga4gh.org. 2022-03-30 [2022-05-07]. (原始内容存档于2022-03-31). 
  4. ^ The Browser Extensible Data (BED) format (PDF). samtools.github.io. [2022-05-07]. (原始内容 (PDF)存档于2022-01-21). 
  5. ^ Quinlan, AR; Hall, IM. The BEDTools manual (PDF). 21 September 2010 [3 October 2019]. (原始内容 (PDF)存档于2022-02-26). 
  6. ^ Datatypes. Galaxy Community Hub. [3 October 2019]. (原始内容存档于2021-12-09).