SAM(Sequence Alignment Map,可直译为“序列比对地图”)是生物信息学中一种用于储存已比对到基因组上的序列信息的文件格式。SAM格式是在千人基因组计划期间由李恒英语Heng Li等人为了取代过去的MAQ格式开发出来的[1]。SAM这一名称是参与这一项目的犹他大学教授加博尔·马思决定的。他在现在的SAM格式开发出来以前就开发出了一种同名的结构文件,不过当时他开发的SAM格式更接近于BLAST算法的输出结果[2]。现在SAM格式已成为学界与工业界都广泛接受的生物信息学格式之一,经过数次修正之后,目前的SAM格式甚至也可以储存没有比对到基因组上的序列信息。SAM格式不仅可以储存第二代测序英语Massive parallel sequencing中的短长度序列的比对信息,也可以储存长至128MB的长序列的比对信息[3]

SAM file format
开发者
格式类型生物信息学
扩展自TSV文件
网站samtools.github.io/hts-specs/

SAM格式压缩后以二进制格式表示产生的文件称为BAM格式(Binary Alignment Map[4]

格式

SAM格式由头部(header)和比对(alignment section)两部分组成[1],可以使用SAMtools英语SAMtools软件进行分析和编辑。如果存在头部部分,它必须位于比对部分之前。头部部分以'@'符号开头,以区别于比对部分。比对部分有11个必需字段以及可变数量的可选字段[1]

名称 数据类型 说明
1 QNAME 字符 查询模板名称
2 FLAG 整数 比对FLAG数字之和
3 RNAME 字符 序列比对上的参考序列的名称,在真核生物中一般指染色体编号
4 POS 整数 序列上第一个碱基比对到参考序列上的位置,如没有比对上会记为0
5 MAPQ 整数 比对品质的评分,数值越大代表比对品质越高
6 CIGAR 字符 CIGAR值
7 RNEXT 字符 双端测序另一端序列比对上的参考序列的名称,在真核生物中一般指染色体编号。单端测序数据中此处会被记为“*”
8 PNEXT 整数 双端测序另一端序列比对到参考序列上的位置,如没有比对上会记为0
9 TLEN 整数 读长比对到参考序列上的长度,如果和参考序列完全比对,数值上等于读长本身的长度
10 SEQ 字符 读长序列信息
11 QUAL 字符 读长的测序品质,以Phred-33分数表示

参见

参考资料

  1. ^ 1.0 1.1 1.2 1.3 Li, H.; Handsaker, B.; Wysoker, A.; Fennell, T.; Ruan, J.; Homer, N.; Marth, G.; Abecasis, G.; Durbin, R. The Sequence Alignment/Map format and SAMtools (PDF). Bioinformatics. 2009, 25 (16): 2078–2079 [2023-07-19]. ISSN 1367-4803. PMC 2723002 . PMID 19505943. doi:10.1093/bioinformatics/btp352. (原始内容存档 (PDF)于2021-12-26). 
  2. ^ Play it again, SAMtools. Q&A with the SAMtools team on 12 years of providing bioinformatics "glue" - GigaBlog. gigasciencejournal.com. [2021-03-20]. (原始内容存档于2023-05-20) (英语). 
  3. ^ Dörpinghaus, J.; Weil, V.; Schaaf, S.; Apke, A. Computational Life Sciences: Data Engineering and Data Mining for Life Sciences. Studies in Big Data. Springer International Publishing. 2023: 447 [2023-07-19]. ISBN 978-3-031-08411-9. (原始内容存档于2023-07-19). 
  4. ^ SAM/BAM Format Specification (PDF). samtools.github.io. [2023-07-19]. (原始内容存档 (PDF)于2017-04-06).