您好,欢迎访问三七文档
全球蛋白资源数据库UniProt收藏UniProt是一个集中收录蛋白质资源并能与其它资源相互联系的数据库,也是目前为止收录蛋白质序列目录最广泛、功能注释最全面的一个数据库。UniProt是由欧洲生物信息学研究所(EuropeanBioinformaticsInstitute)、美国蛋白质信息资源(PronteinInformationResource)以及瑞士生物信息研究所(SwissInstituteofBioinformatics)等机构共同组成的UniProt协会(UniProtConsortium)编辑、制作的一个信息资源,旨在为从事现代生物研究的科研人员提供一个有关蛋白质序列及其相关功能方面的广泛的、高质量的并可免费使用的共享数据库。UniProt是一个向所有使用者免费开放的数据库,全球科研人员都可以登陆网站浏览并下载这些资料。借助它,科研人员可以对目的蛋白进行交互式分析或特定的分析。1UniProt数据库的构成UniProt数据库由UniProt知识库(UniProtKB)、UniProt档案(UniParc)、UniProt参考资料库(UniRef)以及UniProt元基因组学与环境微生物序列数据库(UniMES)构成。1.1UniProt知识库(UniProtKB)UniProt知识库是一个专家级的数据库,它可以通过与其它资源进行交互查找的方式为用户提供一个有关目的蛋白质的全面的综合信息。UniProtKB包括两个组成部分:UniProtKB/Swiss-Prot与UniProtKB/TrEMBL。1.1.1UniProtKB/Swiss-ProtUniProtKB/Swiss-Prot主要收录人工注释的序列及其相关文献信息和经过计算机辅助分析的序列。这些注释都是由专业的生物学家给出的,准确性无需置疑。在UniProtKB中,注释包括对蛋白质功能、酶学特性、具有生物学意义的相关结构域及位点、翻译后修饰情况、亚细胞定位、组织特异性、发育阶段特异性、结构、相互作用、剪接异构体、相关疾病信息的注释等等。注释的另一个重要工作就是对同一蛋白的所有相关报道进行归纳、总结。对蛋白质序列进行仔细检查之后,注释人员还会将相关参考序列、剪接变异体、基因变异体和疾病相关信息全都整合起来,而且不同序列间有任何的差异也会标示出来。注释人员还会将蛋白质数据与其它核酸数据库、物种特异性数据库、结构域数据库、家族遗传史或疾病资料数据库进行交叉参考。1.1.2UniProtKB/TrEMBLUniProtKB/TrEMBL收录的则是高质量的经计算机分析后进行自动注释和分类的序列。计算机辅助注释使用的是Spearmint规则,而人工注释依据的则是蛋白质家族规则,包括HAMAP家族规则(HAMAPfamilyrules)、RuleBase规则、PIRSF分类命名规则以及位点规则。UniProtKB/TrEMBL还收录了所有EMBL-Bank/GenBank/DDBJ核酸序列数据库中的编码序列的翻译后蛋白质序列和来自拟南芥信息资源库(TAIR)、SGD和人类Ensembl数据库中序列的翻译后蛋白质序列。其中,研究人员排除了诸如EMBL-Bank/GenBank/DDBJ数据库中编码小片段的序列、人工合成的序列、大部分非胚系免疫球蛋白序列、大部分T细胞受体序列、大部分专利序列和一些高度过表达的序列。这些选择的记录都是经过大量人工注释的,然后根据注释的情况收入UniProtKB/Swiss-Prot数据库。1.2UniProt档案(UniParc)UniProt档案则是关于蛋白质序列的全面数据库,它储存了大量的蛋白质序列资源,反映了所有蛋白质序列的历史。UniParc是储存序列的数据库,同时也是最全面的能反映所有蛋白质序列历史的数据库。UniParc收录了不同数据库来源的所有的最新蛋白质序列和修订过的蛋白质序列,因此可以保证数据收录的全面性。UniParc数据库收录的资源UniProtKB数库据NCBI的RefSeq数据库EMBL-Bank/DDBJ/GenBank这些核酸数据库中核酸模式生物数据库FlyBase序列的翻译后序列Ensembl数据库中真核生物基因组数据SGDH-邀请数据库(H-Inv)TAIR脊椎动物基因组注释数据库(VEGA)WormBaseIPI数据库TROME蛋白质研究基金会数据库(PRF)美国、欧洲、韩国、日本专利局中的数据蛋白质数据库(PDB)为了避免出现冗余数据,UniParc将所有完全一样的序列都合并成了一条记录,而不论这些数据是否来自同一物种。UniParc还会收录每天最新的数据和修改过的数据,并交叉参考这些数据,及时对UniParc中的数据做出修订。UniParc中每一条记录包含的基本信息包括标识符、序列、循环冗余校验码、来源数据库中的检索号、版本号、时间印记。如果UniParc中的记录没有收录在UniProtKB中,那么这个基因可能是假基因。此外,除了给出每一条记录在来源数据库中的检索号之外还会给出这条记录在来源数据库中的状态,例如是仍然存在或者是已经被删除,也会给出NCBIGI号和TaxId号。UniParc中的记录都是没有注释的,因为蛋白质只有在指定的条件下才能够进行注释。例如,序列完全相同的蛋白质如果属于不同的物种、组织或不同的发育阶段,其功能都有可能完全不同。1.3UniProt参考资料库(UniRef)UniProt参考资料库可以通过序列同一性对最相近的序列进行归并,加快搜索速度。UniRef对来自UniProtKB的各种数据包括各种剪接变异体进行了分类汇总,还从UniParc中选取了一些数据以求能完整的、没有遗漏的收录所有数据,同时也保证没有冗余数据,该数据库的同一性(identity)分为三个级别:100%、90%和50%。UniRef里的数据是按照级别来分类的,在UniRef数据库的每一个同一性级别中,每一条序列只会属于其中的一个聚类,这条序列在其它的同一性级别中也只会有一条父集(parentcluster)序列和子集(childcluster)序列。UniRef100数据库将相同的序列数据和亚片段数据整合在一起,使用一个检索入口进行检索。UniRef90数据库建立在UniRef100数据库的基础之上,而UniRef50数据库又是以UniRef90为基础。UniRef100、UniRef90和UniRef50这三个数据库的数据量分别减少10%、40%和70%。每一个聚类记录都包含下列信息:数据来源、蛋白质名称、分类学信息(但只会举一个蛋白质为代表)、聚类下条目数等。UniRef100是目前最全面的非冗余蛋白质序列数据库。UniRef90和UniRef50数据量有所减少是为了能更快地进行序列相似性搜索以减少结果的误差。UniRef现在已广泛用于自动基因组注释、蛋白质家族分类、系统生物学、结构基因组学、系统发生分析、质谱分析等各个研究领域。UniRef中的聚类信息是会随着UniProtKB的更新而同步更新的。1.4UniProt元基因组学与环境微生物序列数据库(UniMES)UniProt元基因组学与环境微生物序列数据库是为不断发展壮大的元基因组学研究领域服务的。UniProtKnowledgebase中的Swiss-Prot和TrEMBL两个数据库包含了分类学信息明确的序列数据。不过,不断增多的元基因组数据迫使人们需要另外再建一个数据库,即UniMES。目前,UniMES收录了来自全球海洋取样考察计划(GOS)得来的数据,而GOS以前则将数据上传至国际核酸序列数据库协作体(INSDC)。GOS的数据包含有大约2500万条DNA序列,估计可以编码大约600万种蛋白质,这些序列都是来自于海洋微生物。UniMES将这些可能的蛋白质序列和InterPro数据库自动分类、整理后的序列资源结合起来,成为了目前唯一能提供全球海洋取样考察计划获得的基因组信息数据库,同时它还是免费使用的。UniMES中的数据没有收录在UniProtKB和UniRef中,但UniParc中有收录。UniMES中的数据以FASTA形式储存,可以从FTP服务器上免费下载。2新进展新的UniProt网站UniProt协会发布了他们最新的官方网站,该网站有新的界面,新的搜索引擎,有更多的新选项方便大家使用。之前的镜像网站(、、、)则都被取消了。UniProt还提供使用本体术语扩展查询结果的功能。同时,UniProt对序列相似性搜索、多序列比对、分批处理和数据库标识符作图工具这些最常用的生物信息学工具也都进行了简化。用户还可以在网站上通过简单的HTTP(REST)操作进行编程查询操作。网站上除了现有的文件格式(例如纯文本格式、FASTA格式、UniProtKB中的XML格式等)之外还提供了可配置的空位分隔格式(tab-delimited)、RSS格式和GFF格式供用户下载资料,同时,所有的文件都有RDF格式()和在语义网(SemanticWeb)上使用的W3C格式下载。更多信息请浏览。3UniProtKB附加的蛋白质文献信息UniProt一直致力于将UniProtKB注释蛋白质时引用的文献等信息整合到UniProt中以供用户参考。目前,有将近218,000条PubMed的文献被引用来注释UniProtKB中将近410万条序列,而这些文献中有66%都被收录到UniProtKB/Swiss-Prot中。其它诸如EntrezGene数据库、模式生物数据库(MOD)、SGD、MGI等公共数据库也都为每条基因或蛋白记录提供引用文献信息。对于那些在不同数据库中都被注释过的基因来说,每一个数据库都会根据自己的特点来有选择的引用相关文献进行注释。因此,将各种不同的数据库文献资源都整合到UniProtKB非常有必要。UniProt现在已经将收录人类、小鼠、酵母和其它物种基因或蛋白质信息的5个外部数据库的引用文献信息整合进来了,这些外部数据库包括:EntrezGene里的GeneRIF数据库()、SGD()、MGI()、GAD(geneticassociationdn.nih.gov)以及PDB()。上述5个外部数据库中共整合了约244,000条来自PubMed同时UniProtKB中还不曾收录的引用文献,这些文献涵盖了UniProtKB中约110,000条记录。其它额外的文献记录都直接链接到UniProt蛋白质查询网页上了。UniProt还将继续从其它MOD数据库和蛋白质功能数据库中发掘更多的文献资料补充到UniProtKB中。这些补充的文献资料不仅有利于对UniProtKB中的记录进行注释,同时也有利于帮助用户发掘出更多他们感兴趣的蛋白的资料。4格式改变UniProt格式的改变是为了改善资料的一致性(consistency)和可用性(usability)。UniProt建议用户密切关注它的newsfeeds,以充分利用这些改变带来的便利。最近几个月来发生的以及在未来几个月里将要发生的格式变化,请浏览。5UniProtKB注释UniProtKB包括两个部分:Swiss-Prot和TrEMBL。UniProtKB/Swiss-Prot包含人工注释的记录,及其相关参考文献和计算机辅助分析信息。人工注释信息包括蛋白质序列和试验证据或计算机预测信息。还有许多生物学专家不断的对这些数据进行完善和补充。对UniProtKB/Swiss-P
本文标题:uniprot
链接地址:https://www.777doc.com/doc-4928364 .html