您好,欢迎访问三七文档
当前位置:首页 > 建筑/环境 > 工程监理 > 核酸研究,2001,卷29,号1,11-16
核酸研究,2001,卷29,号1,11-162001牛津大学杂志NCBI的数据库资源DavidL.Wheeler*,DeannaM.Church,AlexE.Lash,DetlefD.Leipe,ThomasL.Madden,JoanU.Pontius,GregoryD.Schuler,LynnM.Schriml,TatianaA.Tatusova,LukasWagnerandBarbaraA.Rapp2003年接收,2003年10月收录摘要:除了维持GenBank核酸序列数据库之外,NCBI还提供数据分析与GeneBank上运行数据的返回资源以及通过NCBI网站的大量的其他生物资源。NCBI的返回资源包括Entrez,PubMed,LocusLink,TaxonomyBrowser.数据分析资源包括BLAST,ElectronicPCR,orfFinder,RefSeq,UniGene,HomoloGene,DatabaseofSingleNucleotidePolymorphisms(dbSNP),HumanGenomeSequencing,HumanMapViewer,GeneMap’99,Human–MouseHomologyMap,CancerChromosomeAberrationProject(CCAP),EntrezGenomes,ClustersofOrthologousGroups(COGs)database,RetroviralGenotypingTools,CancerGenomeAnatomyProject(CGAP),SAGEmap,GeneExpressionOmnibus(GEO),OnlineMendelianInheritanceinMan(OMIM),theMolecularModelingDatabase(MMDB)andtheConservedDomainDatabase(CDD).增大许多网页应用是BLAST的惯用补充,这优化了查询特殊的数据。所有的资源都可以通过NCBI的主页获得,网址是:前言:位于国家卫生局的NCBI是为了发展分子生物学的信息系统而创立于1988年。除了维持直接隶属于科学组织的GenBank的核酸序列数据库之外,NCBI还要为GenBank数据的电脑资源分析以及大量其它的通过NCBI可用的生物数据提供返回资源。NCBI主页上的可用资源有全部基因组中的部分基因的代表性短序列,蛋白质结构和混乱基因的临床描述。NCBI提供了一系列的计算机资源以支持各种类型的数据分析。从这个概观来看,NCBI的数据资源可以化为七类:资源返回系统,序列相似性查询程序,应用基因水平序列分析的资源,化学序列资源,基因组大小分析的资源,基因表达育表型分析资源,蛋白质结构与模建资源。有表格提供对这些资源的浏览。基因库相关工具:Entrez:Entrez是一个整合的数据库返回系统,可以通过以下链接得到:DNA和蛋白质序列,基因图谱,人口设定,MMDB上的蛋白质结构,PubMed和OMLM上的生物医学数据,以及NCBI上的分类廉洁。Entrea中的序列,尤其是蛋白质序列是从大量的数据库资源获得的[包括GenBank蛋白质翻译,蛋白质鉴定资源,SWISS-PROT,蛋白质研究基地,蛋白质数据库与RefSeq],因此比单独的GenBank拥有更多的序列数据。PubMed包括MEDLINE上主要的一千零七万参考文献和摘要,以及网上1100多种可用杂志的全文。Entrez利用简单得Boolean咨询以及相关信息的深入链接提供了序列或者纪录文本的全文查询。有些链接是简单的前后参考,例如,从一个序列链接到收录的论文的摘要,从蛋白质序列到相关的DNA序列,或者是到其他序列的排列。其他的链接是基于编辑的序列的相似性或者MEDLINE上的摘要。这些前编辑的“邻居“为浏览一组相关纪录提供了快速通道。有一种叫做linkOut的服务扩大了从单个数据库记录到相关外部服务的外部链接范围,这其中包括生物—-特定基因组。分类浏览器:NCBI的分类检索数据库对多余7900种生物作了索引,这些生物都至少有一条核酸或者蛋白质序列在序列数据库中被标记。分类浏览器可以用来查看某一特定的生物或者生物群的分类地位,或者返回序列以及结构数据。NCBI研究者是根据生物名字全部,部分拼写的语音发音的顺序进行排序的,并且可以直接链接到生物在生物学领域的普通应用上。新的ntrez分类系统增加展示传统分类树的功能这就给用户展示了整个NCBI分类系统的限定子集。LocusLinkLocuslink数据库是关于正式的基因名称和基因其他的特征并描述这个数据在其他数据库中的位置。它通过与国际上几个合作者协力而发展起来的,它为待定序列提供了唯一的怀疑界面,并为基因提供描述性的信息。同源序列程序的比对家族BLAST家族的研究程序为GenBank上同源序列研究提供了最常用的分析模式。标准的BLAST2.1程序的NCBI界面包括序列号,可应用核酸研究的单位矩阵进行研究,或者在PAM或BLOSUM上的得分矩阵对蛋白质进行研究。BLAET提供了部分的排列数据,但可以链接到所有的文件记录,并有排列得分以及对统计重要性的评价,这被称为预测值,用于判断比对的质量。BLAST提供了比对的图表信息,并且比对得分用不同的颜色做标记,这样就清楚的显示了序列同源性的延伸与质量,也显示了在排列中缺口的位置。BLAST同样提供了按分类组织的结果,这样强调了序列同源性的分类模式。BLAST检索的默认值是在Entrez上组织的非冗余的核酸和蛋白质数据。一些专业的数据库也可以进行检索,但研究者被限定在某一特定生物的序列上。质疑序列通过过滤一降低复杂性或者说是人类基因的重复性。用户的BLAST页面允许对以完成的人类基因组数据,微生物基因组或者与疟疾相关的病原体基因组进行质疑。专业的BLAST的翻译满足了对蛋白质的同源性研究的需要。PSI-BLAST最初提供了传统的BLAST的研究来产生排列,而这个排列产生了位置特定得分矩阵。BLAST的子集利用PSSM在数据库中找到同源性。PHI-BLAST要求有一个质疑序列以及在质疑序列中要有一个现存的模式。这种模式指定说明必须在质疑序列与数据库序列之间有同源性,而这种的最佳的排列被建立。另一个变量“BLAST2序列”与两个DNA或者蛋白质序列相比教而产生排列的点线展示。基本的BLAST2.0也可以通过电子邮件进行,地址是blast@ncbi.nlm.nih.bov.可以通过发送“help”到服务地址而获得文件。基因水平的序列资源专一基因库为了应付EST数据的冗余性,NCBI建立了UniGene,这个系统自动的将GenBank包括ESTs中的序列分割成非冗余的基因方向簇。现在已经建立了五个专一基因库,分别是关于人类,老鼠,兔子,斑马和奶牛。专业基因库是从GenBank合适的生物分类的入口开始的,专一基因库结合了ESTs中的生物,并根据相同的3端未翻译的序列建立了序列簇。每一个专一基因簇包含了代表专一基因的序列,并且链接了相关的信息,例如基因表达的组织类型,模式生物的蛋白质相似性,基因的LocusLink报告和图谱位置。在人类的专一数据库中,超过十万八千个GenBank中中的人类的ESTs已经将在数量上21折叠降低到大约84000序列簇,相似地,老鼠,兔子,斑马,奶牛地ESTs分别为73000,37000,10000,5500个基因簇。人类人类地专一基因库在建立人类基因图谱时作为图谱资源而被广泛地应用。在这种情况中,基因地3端UTRs与ESTs被转化成序列标签位点,这个位点用于定位物理图谱,并与已经存在地基因组地基因图谱相整合。专一基因库也被用于大规模研究基因表达时芯片制作地专一序列资源。专一基因库每周更新最新地EST序列,两月更新一次最新地特征性序列。专一基因库可以通过多种方式进行研究,可通过基因名,染色体位点,CDNA文库,注册号,以及一般地正文单词。簇序列也可以通过FTP下载。同源基因库:同源基因库包括未编辑地和已经编辑的序列和在UniGene和linkzhong中代表性地人类,老鼠,兔子,斑马,奶牛地同源基因。未编辑地序列包括杰克逊图书馆中地老鼠基因库,俄勒岗大学地斑马信心数据库地基因配对。已经编辑地被公认地同源序列是通过利用BLAST比对每一对生物地所有专一基因簇而得到的。同源基因库中也包含了三正极餐,即两种生物中地相正簇都与第三种生物中地同一簇相正。对于人类,老鼠,兔子这三种生物,现在已经有超过7000地自身保守地三体。同源基因库可以通过UniGene,ClusterIDs,LocusLink,LoucusIDs,基因特征,基因名,核酸注册号,以及Unigene中地簇名进行访问。现行地这些数据都可以通过FTP进行访问。相关序列:相关序列库在这篇文章中地其他处已经描述了。它提供了mRNA和人类以及其他生物的未编辑相关序列。单一核甘酸多样性数据库:单一核甘酸多样性数据库也已经在这篇文献中的别处描述了,它是单一碱基替换和短片断缺失重复多样性的仓库,这种多样性是研究团体的积淀。开放阅读框探测器:开放阅读框探测器执行对核甘酸访问的六个方面的翻译,并返回一个图表显示美一个找到的开放阅读框的位置。返回的开放阅读框的大小限制也许是由用户设定,预测的蛋白质产品的序列可以直接通过BLAST相似性检索或COG数据库的检索得到。e-PCR:建立在PCR基础上的STSs可用于基因鉴定及建立图谱。E-PCR定位STSs在核甘酸序列中的位置的工具,它通过比较dbSTS数据库中的STS序列和引物配对情况进行的。E-PCR应用接受序列号或者作为注入结果的序列,而返回相符和的dbSTS记录的链接列表以及用于放大每一个已鉴定的STS的引物。染色体序列资源人类基因组测序:人类基因组测序位点显示了人类基因组测序工程的特定染色体的进步。提供了个人标签和集合的通道,提供了特定染色体BLAST检索。也有起作用的基因组测序中心的链接。测序数据也许可以通过标签或者染色体进行下载。人类基因组图谱阅读器:人类基因组图谱阅读器可以通过同时显示七条平行的染色体图谱展示人类基因组数据。展示的图谱可以通过设定19来选择,还包括细胞遗传学图谱,如染色体意符,序列图谱,如这些展示标签,基因,SNPs以及放射杂交图谱,如G3和基因图谱99的GB4。搜索整个人类基因组或者特定的染色体可以通过利用基因名或者特征,标记名称,SNP鉴定,注册号以及其他的特征。人类基因组图谱阅读器是与像LocusLink和dbSNP等其他的NCBI数据库紧密结合的。一个类似于人类基因组图谱阅读器的阅读器也可以用来演示果蝇的基因库数据。基因图谱99:它是一个国际性的团体,成立于1994年,是为了建立人类基因图谱,而这通过与已经完全测好的基因标记做比较来决定ESTs的位置实现的。这图谱的现行地视图是放射性杂交图谱。基因图谱99特写了30261个唯一基因的位点。人类-老鼠同源性图谱,老鼠测序资源:人类-老鼠同源性图谱是人类与老鼠在同源性片断上的DNA的基因位点列表。这张图谱是通过结合老鼠基因组数据库的资源与经过同源性鉴定的公认地正相性进行的。这些图谱可链接到GeneMap99,OMIM,Locuslink,dbSTS,BLAST2序列和在杰克逊大学的老鼠基因组数据库。其他的老鼠基因组资源能够在老鼠基因组测序页面中找到。而这个页面与上面提及的人类基因组测序页面是相似的。癌症染色体畸变工程:癌症染色体畸变工程是国家癌症协会和NCBI的主动服务。数据包括由杰翰逊编辑的反复发作的与癌症形成相关的染色体畸形的数据,这些数据来自瑞典鲁德大学德癌症染色体畸变库。CCAP也提供了BAC人类染色体图谱数据,这些数据是由CCAP德荧光原位杂交实现的。基因组刻度分析资源Entrez基因组:Entrez基因组数据库提供了进入基因数据的入口,这些数据是由科学团体超过900捉拿嘎生物的测序和图谱分析得到的,而现在也
本文标题:核酸研究,2001,卷29,号1,11-16
链接地址:https://www.777doc.com/doc-2295399 .html