-->
GenBank-快懂百科
GenBank是美国国家生物技术信息中心(National Center for Biotechnology Information ,NCBI)建立的 DNA 序列数据库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模 基因组 测序计划( Benson等, 1998)。为保证数据尽可能的完全,GenBank与EMBL( 欧洲 EMBL-DNA数据库)、DDBJ ( 日本 DNA数据库:DNA Data Bank of Japan)建立了相互交换数据的合作关系。
简介 大型数据库 分成若干子库,有许多好处。首先,可以把数据库查询限定在某一特定部分,以便加快查询速度。其次,基因组计划快速测序得到的大量序列尚未加以注释,将它们单独分类,有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列(HighThroughput Genomic Sequences,HTG)、表达序列标记(Expressed Sequence Tags,EST)、序列标记位点(Sequence Tagged Sites,STS)和基因组概览序列(Genome Survey Sequences,GSS)单独分类。尽管这些数据尚 未加以注释,它们依然是GenBank的重要组成部分。 可通过Entrez数据库查询系统对GenBank进行查询。这个系统将 核酸 、 蛋白质 序列和基因图谱、 蛋白质结构 数据库整合在一起。此外,通过该系统的文献摘要数据库 MEDLINE ,可获取有关序列的进一步信息。在万维网上,进入NCBI的主页,可以用BLAST程序对GenBank数据库进行未知序列的同源性搜索(详见第六章)。 完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等子段建立的,用于数据库查询。GenPept是由GenBank中的 核酸 序列翻译而得到的 蛋白质 序列数据库,其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发,价格比较便宜。随着数据库容量的增长,一套最新版的GenBank需要12张光盘存放,不仅生产成本很高,也不便于使用。现在,光盘分发的方式已经停止,可以通过网络下载GenBank数据库。