
美国的国家生物技术信息中心(National Center forBiotechnology Information,NCBI)是1988年美国国家健康研究所(National Institutesof Health,NIH)和国家医学图书馆(United StatesNational Library of Medicine,NLM)联合发起成立的分子生物学、生物化学、遗传学知识储备和文献整理平台,并逐步演变为大规模生物医药数据存储、分类与管理,生物分子序列、结构与功能分析,分子生物软件开发、发布与维护,生物医学文献收集与整理,全球范围数据提交与专家注释于一体的世界生物医学信息与技术资源数据库。NCBI采用著名的Entrez搜索和信息检索系统,可以进行在线资源检索,同时构建FTP数据资源下载平台,方便用户批量下载数据。
NCBI目前拥有46个子库,每一个子库可以提供在线检索,同时有对应的FTP提供数据下载。
⑴GeneBank与RefSeq
GenBank是NIH遗传序列数据库,集成了所有公开可获得的已注释DNA序列,其收录的核酸序列数据根据不同的研究属性,分属于Nucleotide、GSS和EST三个子库。Nculeotide收录绝大多数常规的核酸序列,GSS(Genome Survey Sequence)收录来自早期基因组测序的短序列数据,EST(Expressed Sequence Tag)收录cDNA及cDNA特征序列信息。GenBank数据库是由用户提交的数据组成,具有较高的冗余度和差错率。为了提高可靠性,NCBI针对每个基因不同的数据类型提取一个可靠的注释条目作为参考条目,构成了RefSeq(reference sequence)数据库,其数据可在相应FTP进行下载。
⑵Gene
Gene数据库收录全部已测序物种的基因注释信息,包括基因的名称、染色体定位、基因序列和编码产物(mRNA、蛋白质)情况、基因功能和相关文献信息等,并与GenBank、OMIM、遗传多态数据库(如dbSNP、dbVar)等NCBI子库,及KEGG、Gene Ontology等外源性数据库进行交叉引用。Gene数据库是目前最权威的基因注释数据库,依照基因的发现顺序由1到多位数字构成Gene ID,如下所示:
⑶Genome
Genome数据库收录已经完成测序的生物体全部基因组序列和定位数据及正在测序的物种阶段性发布的基因组信息。Genome收录的物种涉及所有的生物领域:细菌、古细菌、真核生物,以及许多病毒、噬菌体、类病毒、质粒以及含有遗传物质的细胞器。NCBI提供在线数据可视化工具,方便用户浏览基因组各种信息,人类染色体信息如下所示:
原核生物标注了基因组大小、基因位置(绿色标签)等信息:
可以双击基因也即相应绿色标签来查看每一个基因的详细信息。
在下载的基因组信息表里含有每个基因组数据的FTP地址,据此可进行基因组序列的批量下载。
⑷Protein
Protein 数据库是一个非冗余数据库(Non-Redundant Protein Database,NR数据库),包含翻译自核酸数据库(GenBank,RefSeq,TPA)注释的编码区的蛋白序列,以及来自SwissProt、PIR、PRF和PDB等数据库的数据信息。
NR剔除了冗余序列最主要的来源,包括EST(Expressed Sequence Tag,表达序列标签)、STS(Sequence Tagged Sites,序列标记位点)、GSS(Genome Survey Sequences,基因组概览序列)、HTGS(High Throughput Genomic Sequences,高通量基因组序列)。其特点是内容全面,注释结果同时包含物种信息,可以作为物种分类时的参考,缺点是并不是所有的功能描述都特别准,数据未经过验证,可靠性有待提高,目前全部数据压缩后超过70G。
NR其实是一个以核酸序列为基础的交叉索引,将核酸数据和蛋白数据联系起来。NR中的记录都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来),对于很多序列还给出了在专门蛋白数据库中的序列号。而PDB + SwissProt + PIR+ PRF这些蛋白数据库中的条目,都给出了编码它们的核酸序列号,可以索引到NR中的相关序列。
⑸Taxonomy
Taxonomy 数据库储存有目前已知的超过160,000个物种的物种名、系统发育谱系、密码子表的使用等数据,NCBI为每个系统发育谱系(phylogenetic lineages)分配一个Taxonomy ID,可用于其他数据库序列的注释。最新的Taxonomy数据可从其FTP下载,每个文件储存的数据及其含义可见taxdump_readme.txt文件。
⑹SRA
近十几年来,基于大规模平行测序的高通量测序技术飞速发展,产生了如Roche 454、Solexa和Illumina等广泛应用的测序平台。这些测序平台可以同时对大量的短片段进行测序,由于其结果数据的复杂性以及高通量性,使原有的数据库难以有效存储和管理新的测序结果,而大部分小型实验室自身也不具备管理这些复杂数据的能力。因此NCBI创建了SRA(Sequence Read Archive)数据库,帮助用户管理这些测序数据,同时有助于科研界共享数据。
SRA数据库存储来自全世界范围内的高通量短片段原始序列数据(raw sequence data),其显著的特点是将meta数据与序列数据分离。meta数据为与测序实验及其实验样品相关的数据,例如实验目的、试验设计、测序平台、样本信息等,在SRA中meta数据分为以下层次来存储:
①研究课题(Study):其检索号以前缀DRP、ERP或SRP开头,一个study致力于一个特定的研究目的,包含了该项目的所有meta数据,一个study可以包含多个实验样品(Sample)。
②样本信息(Sample):其检索号以DRS、ERS或SRS开头,包含实验样品物种信息、系统发育信息、采样信息、表型数据等。每一个sample都对应一个实验(Experiment)。
③实验(Experiment):其检索号以DRX、ERX或SRX开头,experiment是SRA数据库的最基本单元,记载实验设计(Design),实验平台(Platform)和结果处理(processing)三部分信息,一个study可以有多个experiment,一个experiment至少有一个结果集(run)。
④结果集(Run):run没有检索号,一个run包括一批测序数据。
欧洲分子生物学实验室(European Molecular BiologyLaboratory,EMBL)于1980年在德国海德堡成立,是世界上第一家核酸序列数据管理机构。随着数据规模的不断扩大,EMBL于英国成立了欧洲生物信息研究所(European Bioinformatics Institute,EBI)。EBI维护着世界上最广泛的生物分子数据资源,包括EMBL-Bank(DNA和RNA序列)、Ensembl(基因组)、ArrayExpress(微阵列基因表达)、UniProt(蛋白质序列和注释)、interPro(蛋白质家族、结构域和基序)、Reactome(细胞通路)、ChEBI(小分子)等数据库。EMBL-EBI具有开放性、兼容性、综合性的特点,并使用专家注释系统提高数据质量。
⑴Ensemble
EMBL-EBI现有Ensembl和Ensembl Genomes基因组序列数据库,其中Ensembl提供高质量、综合注释的脊椎动物基因组数据,Ensembl Genomes提供非脊椎动物全基因组数据,该数据库并不包含原核生物数据。Ensembl提供在线的基因组浏览器,可以详细的展示基因、基因进化树、变异位点等信息。
⑵ENA
EMBL-EBI维护的欧洲核苷酸数据库ENA(European NucleotideArchive)提供世界范围的核酸测序原始数据、序列拼装和功能注释信息的维护和下载,并记录和存储数据集测序全过程的技术应用情况。ENAs数据库的检索窗口支持序列信息或序列编号检索,用户也可选择高级检索(Advanced Search),对检索条件进行限定。检索结果包括:基本注释、序列信息、物理图谱、序列特征、碱基序列和参考文献等。
⑶UniProt
Swiss-prot数据库是UniProt Knowledgebase(UniprotKB)中的手工注释和审查验证的部分数据库,是一个精选的高质量的、带手工注释和非冗余的蛋白质序列数据库,主要来自文献中的研究成果和E-value校验过计算分析结果以及欧洲分子生物学实验室核酸数据库(EMBL-Bank)数据。其特点在注释结果经过实验验证,可靠性较高,可用作其他数据库的参考。Swiss-Prot的数据存在一个滞后问题,即把EMBL翻译成蛋白质序列并进行注释需要时间。为了解决这一问题,TrEMBL数据库被建立了起来。
TrEMBL是一个自动数据库,该数据集包含高质量的计算分析结果,一般都在自动注释中富集,主要应对基因组项目获得的大量数据流以人工校验在时间上和人力上的不足。他能注释所有可用的蛋白序列。三大核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都被自动翻译并加入该数据库中,同时收录来自PDB数据库以及Ensembl、Refeq和CCDS基因预测的序列。其缺点为冗余度高、可信度较低。
UniParc(UniProt Archive),是一个综合性的非冗余数据库,包含了所有主要的、公开的数据库的蛋白质序列。由于蛋白质可能在不同的数据库中存在,并且可能在同一个数据库中有多个版本,为了去冗余,UniaraParc对每条唯一的序列只存一次!无论是否为同一物种的序列,只要序列相同就被合并为一条,每条序列提供稳定的、唯一的编号UPI。其缺点为该数据库值含有蛋白质的序列信息,而没有注释信息。
IMG(Integrated Microbial Genomes)由美国能源部联合基因组研究中心(Joint GenomeInstitute,JGI)于2005年创立,是综合的微生物基因组数据库及比较分析系统[34]。IMG收录了细菌、古菌、质粒、病毒以及少量真核生物基因组数据,其数据主要来源于NCBI的RefSeq数据库,但是增添了更加详细的注释信息,例如CRISPR序列、信号肽、非编码RNA、功能基因等。IMG基于COG、Pfam、TIGRfam、InterPro、GO和KEGG等数据库产生基因家族的注释信息。