GenBank
基因银行(GenBank)是一个开放获取的序列数据库,对所有公开可利用的核苷酸序列与其翻译的蛋白质进行收集并注释。
内容 | |
---|---|
有机体 | 所有 |
相关信息 | |
研究中心 | NCBI |
发布日期 | 1982年 |
访问入口 | |
数据格式 | |
网站 | NCBI |
下载地址 | ncbi ftp |
网络服务地址 | |
工具 | |
Web | BLAST |
Standalone | BLAST |
其他 | |
许可 | Public domain-US Government |
此数据库是国际协作核酸序列数据库(INSDC)的一部分,由美国国家生物技术信息中心(NCBI)主管,NCBI为美国国立卫生研究院的下属机构。GenBank和它的合作者从全球各个实验室接收了超过百万种生物的数据。
成立三十年来,GenBank数据库成为了最重要的也是最有影响力的生物全领域数据库,其数据正被全球数以百万计的研究人员获取与引用。GenBank中的数据量正以每18个月翻一番的速度持续指数增长[1][2],在2013年2月的版本194中,数据库包含有1.62亿个序列,含有1500亿个核苷酸堿基。[3]
历史
1979年,洛斯阿拉莫斯国家实验室(LANL)理论生物学和生物物理学小组 (页面存档备份,存于互联网档案馆)的Walter Goad等人建立了洛斯阿拉莫斯序列数据库,最终成为了公共的 GenBank数据库的前身[4]。1982年,由美国国立卫生研究院、美国国家科学基金会、美国能源部和国防部共同出资,LANL与BBN科技公司合作,成立了GenBank。到1983年底,已有超过2,000个序列被存储在GenBank。
在20世纪80年代中期,斯坦福大学的Intelligenetics bioinformatics公司与LANL合作经营着GenBank项目[5]。作为最早的互联网生物信息学社区项目,GenBank计划为生物学家打造一个开放获取的BIOSCI/Bionet消息社群。1989到1992年,GenBank被转移到新成立的美国国家生物技术信息中心[6]。
发展
在GenBank的版本162.0(2007年8月)的发行说明中道出:“从1982年到现在,GenBank中的碱基数每隔18个月翻一番。”[7]
截至2013年7月8日[update],GenBank的版本196.0已有165,740,164个基因座,152,599,230,112个碱基,165,740,164个报导序列[3]。 GenBank数据库还包括一些额外的数据集,不包括在这个统计内。
物种 | 碱基对 |
---|---|
智人 Homo sapiens | 1.6310774187×10 10 |
小家鼠 Mus musculus | 9.974977889×10 9 |
褐鼠 Rattus norvegicus | 6.521253272×10 9 |
家牛 Bos taurus | 5.386258455×10 9 |
玉米 Zea mays | 5.062731057×10 9 |
野猪 Sus scrofa | 4.88786186×10 9 |
斑马鱼 Danio rerio | 3.120857462×10 9 |
紫色球海胆 Strongylocentrotus purpuratus | 1.435236534×10 9 |
普通猕猴 Macaca mulatta | 1.256203101×10 9 |
水稻 Oryza sativa Japonica Group | 1.255686573×10 9 |
红花烟草 Nicotiana tabacum | 1.197357811×10 9 |
非洲爪蟾 Xenopus (Silurana) tropicalis | 1.249938611×10 9 |
黑腹果蝇 Drosophila melanogaster | 1.11996522×10 9 |
黑猩猩 Pan troglodytes | 1.008323292×10 9 |
拟南芥 Arabidopsis thaliana | 1.144226616×10 9 |
家犬 Canis lupus familiaris | 951,238,343 |
酿酒葡萄 Vitis vinifera | 999,010,073 |
原鸡 Gallus gallus | 899,631,338 |
大豆 Glycine max | 906,638,854 |
普通小麦 Triticum aestivum | 898,689,329 |
另见
- Ensembl
- Human Protein Reference Database (HPRD)
- 序列分析
- UniProt
- 已测序真核生物基因组列表
- 已测序古菌基因组列表
- RefSeq — the Reference Sequence Database
- Geneious — includes a GenBank Submission Tool
参考文献
- ^ Benson D; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Wheeler, D. L.; et al. GenBank. Nucleic Acids Research. 2008, 36 (Database): D25–D30. PMC 2238942 . PMID 18073190. doi:10.1093/nar/gkm929.
- ^ Benson D; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Sayers, E. W.; et al. GenBank. Nucleic Acids Research. 2009, 37 (Database): D26–D31. PMC 2686462 . PMID 18940867. doi:10.1093/nar/gkn723.
- ^ 3.0 3.1 GenBank release notes. NCBI. [2013-12-02]. (原始内容存档于2016-12-22).
- ^ Hanson, Todd. Walter Goad, GenBank founder, dies. Newsbulletin: obituary. Los Alamos National Laboratory. 2000-11-21 [2013-12-02]. (原始内容存档于2008-11-07).
- ^ LANL GenBank History. [2013-12-02]. (原始内容存档于2016-03-03).
- ^ Benton D. Recent changes in the GenBank On-line Service. Nucleic Acids Research. 1990, 18 (6): 1517–1520. PMC 330520 . PMID 2326192. doi:10.1093/nar/18.6.1517.
- ^ Dennis A. Benson, Mark Cavanaugh, Karen Clark, Ilene Karsch-Mizrachi, David J. Lipman, James Ostell, Eric W. Sayers. GenBank. Nucleic Acids Research. 2013-01, 41 (Database issue): D36–42 [2019-02-12]. ISSN 1362-4962. PMC 3531190 . PMID 23193287. doi:10.1093/nar/gks1195. (原始内容存档于2020-05-14).
- ^ Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. GenBank. Nucleic Acids Res. January 2011, 39 (Database issue): D32–37. PMC 3013681 . PMID 21071399. doi:10.1093/nar/gkq1079.
- 本条目引用的公有领域材料来自美国国家生物技术信息中心的文档《NCBI Handbook》。
外部链接
- GenBank (页面存档备份,存于互联网档案馆)
- Example sequence record, for hemoglobin beta
- BankIt (页面存档备份,存于互联网档案馆)
- Sequin (页面存档备份,存于互联网档案馆) — a stand-alone software tool developed by the NCBI for submitting and updating entries to the GenBank sequence database.
- EMBOSS (页面存档备份,存于互联网档案馆) — free, open source software for molecular biology
- GenBank, RefSeq, TPA and UniProt: What's in a Name?(页面存档备份,存于互联网档案馆)
- GenBank File-Format Converter (页面存档备份,存于互联网档案馆)