您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > ncbi站点的一般介绍
NCBI站点的一般介绍及其它资源库的介绍GenBankOverview生物信息学站点地图其它资源库的介绍国际核苷酸序列数据库合作组织GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立,与日本DNA数据库(DNADataBankofJapan,DDBJ)以及欧洲生物信息研究所的欧洲分子生物学实验室核苷酸数据库(EuropeanMolecularBiologyLaboratory,EMBL)一起,都是国际核苷酸序列数据库合作的成员。GenBank,DDBJ,andEMBL,所有这3个中心都可以独立地接受数据提交,而3个中心之间则逐日交换信息,并制成相同的充分详细的数据库向公众开放。因此他们是相等的。什么是GenBank?GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸序列。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成DNA序列数据库的直接提交。这些作者将序列数据库作为论文的一部分来发表,或将数据库直接公开。GenBankGenBank是一个有13亿碱基,来自于100,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。遗传密码-15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。访问GenBank通过EntrezNucleotides来查询。用accessionnumber,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关于Entrez更多的信息请看下文。用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。另外一种选择是可以用FTP下载整个的GenBank和更新数据。纪录样本每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成DNA序列数据库的直接提交。这些作者将序列数据库作为论文的一部分来发表,或将数据库直接公开。关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。DDBJ/EMBJ/GenBank特性表(见讲义或网络课件)特性表格式和标准被合作数据库用在序列记录的注释上,使得数据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及IUPAC规定的核苷酸和氨基酸的代号。数据纪录的格式和搜索方式可能会不一样,但是accessionnumber,序列数据和注解都是一模一样的。即,你可以用accessionnumberU12345在GenBank,DDBJ或EMBL中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等。GenBank普通文件格式参见GenBank记录样本和在GenBank公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。ASN.1格式—摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。分子数据库概览核酸序列Entrez核酸—用accessionnumber,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索核酸序列记录(在GenBank+PDB中)。更多的关于Entrez的信息见下。如果要检索大量数据,也可使用BatchEntrez(批量Entrez)。Entrez基因组提供了一个编码区的概要和各种物种的分类表(TaxTable)。编码区概要列出了在基因组中所有的的蛋白,并提供链接到FASTA文件和BLAST。分类表总结了蛋白BLAST分析的结果,建议他们的可能功能,并用颜色编码的图来显示物种同其它物种之间的关系。BLAST将你的序列同核酸库中的的序列比较,检索相似的序列。(更详细的信息见下面Tools/Sequence相似搜索部分)BLAST查找BLAST指南BLAST程序对数据库搜索进行大量的改良,提高了搜索速度,同时把数据库搜索建立在了严格的统计学基础上。局部比对的限制条件不包括空位。这个限制条件对应用Karlin—Altschul统计学极为有利,另一方面,既然空位没有明确地放在模型中,结果就不会像人们期望的那样接近于期望的比对。这并不是说插入确实会妨碍匹配,在大多数情况下,比对仅仅会被分解为若干个明显的HSPs。无论如何,老版本的BLAST程序(1.4以前)的局限性在新版本中已经被取消了,新版本在对待空位问题上有着明确的作法。BLAST程序的修订版最近发布的BLAST程序的修订版提高了搜索速度,敏感度和实用性。这个完全重新写过的软件包指定为2.0版本(避免同WU—BLUST混淆,这个软件是由华盛顿大学设计的,有时称为BLAST2)应该注意到,在发布的2.0版本中,命令行的参数有很大改变。序列相似性搜索通过计算机网络或调制解调器登陆到Internet上并把含有你的序列的e-mail发送到NCBI。DATALIB认准你将搜索的数据库,可选择下列数据库:nr“非丰余的”蛋白或核酸序列数据库,它包括来自PDB,GenBank(R),更新的GenBank(r),EMBL的最新情报;gbGenBank(R)核酸序列数据库;embEMBL数据库;Entrez基因组(各种物种)Entrez是NCBI的一个计划,它包含了GenBank数据。但Entrez和GenBank从本质上是不同的,前者是一个信息检索系统,而后者是一个Entrez从中检索的数据库。Entrez基因组—超过800种在GenBank中被完整测序的物种,包括大于500种病毒,〉25种细菌,酵母,和许多viroids,质粒,和细胞器。还包括正在进行中的基因组,比如人,小鼠,线虫,疟原虫,果蝇,利什曼原虫,水稻,和玉米。EntrezMapViewerEntrez基因组一个软件组成部分,提供整合的果蝇(细胞遗传学和序列图谱)和人类(细胞遗传学,遗传连锁,序列,放射杂交,和其它图谱)的染色体图谱的浏览。通过每个物种的Entrez基因组页面来下载〈350kb的基因组。通过NCBIftp站点来下载〉350kb的基因组—参见在genbank/genomes目录下的readme文件,ftp链接在每个物种的Entrez基因组页面上也有。http://www.ncbi.nlm.nih.gov/Sitemap/index.htmlFASTAFASTA程序是第一个广泛使用的数据库相似性搜索程序。程序引用取代矩阵实行局部比对以获得最佳搜索。但众所周知,使用这种策略会非常耗费工作时,为了提高速度,在实施耗时的最佳搜索之前,程序使用已知的字串检索出可能的匹配。在速度和敏感度之间权衡选择依赖于ktup参数。它决定了字串的大小。增大ktup参数就会减少字串命中的数目,也就会减少所需要的最佳搜索的数目和搜索的速度。从2.0版本开始,FASTA对每一个检索的比对都提供一个统计学显著性的评估。Ftp://ftp.virginis.edu/pub/fasta/FASTA格式定义行号后只跟随序列数据,参见描述数据库的readme文件,包括nt.Z(每天更新的非冗余BLAST核酸数据库,包括GenBank+EMBL+DDBJ+PDB序列,不包括EST,STS,GSS,orHTGS序列),nr.Z(每日更新的非冗余蛋白质),est.Z,gss.Z,htg.Z,sts.Z,和其它文件。FTPGenPept下载“genpept.fsa.Z”文件,这个文件包含了从GenBank/EMBL/DDBJ记录中翻译过来的FASTA格式的氨基酸序列,这些记录都有一到两个CDS特性的描述。FTP基因组蛋白从ftp站点的genbank/genomes目录下下载各种物种的FASTA格式的氨基酸序列*.faa和蛋白表文件*.ptt。参见readme文件。蛋白表也可以在Entrez基因组中看到。向GenBank提交数据关于提交序列数据,收到accessionnumber,和对纪录作更新的一般信息。BankIt-用于一条或者少数条提交的基于WWW的提交工具软件。注意在提交前用VecScreen去除载体)Sequin提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。可以独立使用,或者用基于TCP/IP的“networkaware”模式,可以链接到其他NCBI的资源和软件,比如Entrez和PowerBLAST。GenBankESTs-表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。STSs序列标签位点短的在基因组上可以被唯一操作的序列,用于产生作图位点。SNPs-人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中(dbSNP)。www.ncbi.nih.gov/SNP/GSSs基因组调查序列,短的、单次(测序)阅读的cDNA序列,exontrap获得的序列,cosmid/BAC/YAC末端,及其他。HTGs来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段3)序列。注意:完成的人类的HTG序列可以同时在GenBank和HumanGenomeSequencing页面上访问。RefSeqNCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNAcontigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。Accessionnumbers用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,和NC_xxxxxx的形式来表示。dbEST—表达序列标签数据库,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。dbGSS—基因组调查序列的数据库,短的、单次(测序)阅读的cDNA序列,exontrap获得的序列,cosmid/BAC/YAC末端,及其他。dbSTS序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,用于产生作图位点。dbSNP—单核苷酸多态性数据库,包括SNPs,小范围的插入/缺失,多态重复单元,和微卫星变异。UniGene数据库把GenBank中同某个基因有关的非冗余序列聚集成组(或整理成簇的EST和全长mRNA序列库),每一个代表一种特定已知的或假设的物种基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。人类UniGene小鼠UniGene大鼠UniGene斑马鱼UniGene完整的基因组参见下面Genome和Maps部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒。人OMIM:在线人类孟德尔遗传经常更新的人类基因和遗传失调的目录,有链接到其它相关的文献参考,序列记录,和相关数据库。蛋白序列Entrez蛋白—用accessionnumber,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索蛋白序列记录(在GenPept+Swiss-Prot+PIR+RPF+PDB中)。更多的关于Entrez的信息见下。如果要检索大量数据,也可使用BatchEntrez(批量Entrez)。PROWWeb上的蛋白资源,关于大约200种人类的CD细胞表面分子的简短官方向导。互相检索,为每个CD抗原提供大约20中标准信息的分类(生化功能,配体,等等)结构(Structure)结构主页—关于NCBI结构小组的一般信息和他们的研究计划,另外也可以访问分子模
本文标题:ncbi站点的一般介绍
链接地址:https://www.777doc.com/doc-304 .html