您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > NCBI及GeneBank介绍(CHENGWEI)-XXXX0327
NCBI及GenBank数据库的使用动物科学学院程伟2013年3月27日内容提要1.NCBI的介绍2.GeneBank及PubMed的介绍3.检索事例4.BLAST(BasicLocalAlignmentsTool)序列相似性比较工具介绍5.NCBI热门资源介绍1.WHATISNCBI?1.1.NCBI主页1.2.跨库检索功能Entrez是NCBI网站的一个信息检索系统,GenBank是从中检索的数据库。1.2.跨库检索功能——检索事例家蚕,俗名silkworm,学名Bombyxmori。家蚕生活史silkwormBombyxmori2.1.GenBankGenBankistheNIHgeneticsequencedatabase,anannotatedcollectionofallpubliclyavailableDNAsequences.GenBankispartoftheInternationalNucleotideSequenceDatabaseCollaboration,whichcomprisestheDNADataBankofJapan(DDBJ),theEuropeanMolecularBiologyLaboratory(EMBL),andGenBankatNCBI.Thesethreeorganizationsexchangedataonadailybasis.GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸序列。GenBank由美国国立卫生研究院下属国立生物技术信息中心建立,与日本DNA数据库以及欧洲分子生物学实验室核苷酸数据库一起,都是国际核苷酸序列数据库集团的成员。2.2.PubMedPubMedcomprisesmorethan22millioncitationsforbiomedicalliteraturefromMEDLINE((美)联机医学文献分析和检索系统),lifesciencejournals,andonlinebooks.Citationsmayincludelinkstofull-textcontentfromPubMedCentralandpublisherwebsites.PubMed由源自(美)联机医学文献分析和检索系统、生命科学杂志和网上图书的超过22,000,000篇生物医学引文组成。引文也可能链接自PubMedCentral和出版商网站的全文。2.2.1PubMedhttp://www.ncbi.nlm.nih.gov/pubmed/2.3.GenBankVSPubMeda.GenBank的检索结果是序列及其注释信息;b.PubMed的检索结果是与序列数据相关的文献信息。GenBank数据更新早、检全率高。c.GenBank可对序列数据进行限制检索;PubMed只能对文献、杂志、作者等进行限制检索。因而GenBank数据库的检准率也高于PubMed。2.4GenBank数据库界面点击进入核酸数据库检索界面2.5核苷酸序列数据库(一)限定词检索(基因名、物种名、作者等)(二)特殊标志符检索(AY123456、AF123456等)(三)序列长度检索([SLEN])(四)范围检索(五)限制检索2.5核苷酸序列数据库——基本检索功能2.5核苷酸序列数据库——基本检索功能(一)限定词检索(基因名、物种名、作者等)2.5核苷酸序列数据库——基本检索功能(二)特殊标志符检索1、基因信息号(GI):一串阿拉伯数字。e.g.:69959952、GenBank/EMBL/DDBJ序列接受号:(1)1个字母+5个阿拉伯数字;e.g.:U12345(2)2个字母+6个阿拉伯数字;e.g.:AY1234563、PDB序列接受号(ProteinDataBank):1个阿拉伯数字+3个字母。e.g.:1TUP(二)特殊标志符的格式(核酸序列)2.5核苷酸序列数据库——基本检索功能4、RefSeq(ReferenceSequence)序列接受号:(1)mRNA记录(NM_*):e.g.:NM_000492(2)基因组DNA重叠群(NT_*):e.g.:NT_000347(3)完整的基因组或染色体(NC_*):e.g.:NC_000907(4)基因组的局部区域(NG_*):e.g.:NG_000019(5)从人类基因组序列注释、加工得到的序列模型记录(XM,XP,orXR_*):e.g.:XM_000483(三)序列长度检索([SLEN])2.5核苷酸序列数据库——基本检索功能1、序列接受号范围检索:AF114696:AF114714[ACCN]序列接受号的检索限定词为[ACCN]or[ACCESSION]2、序列长度范围检索:3000:4000[SLEN]3、日期范围检索:2005/01:2007/11/13[MDAT]or[PDAT]范围检索:中间用冒号连接(必须英文环境下!)2.5核苷酸序列数据库——基本检索功能(四)范围检索(五)限制检索2.5核苷酸序列数据库——基本检索功能限制检索范围限制数据来源限制基因位点限制数据修订日期限制序列片段的显示限制分子类型排除(exclude)某种类型的序列2.6.核苷酸序列数据库三大子数据库1.EST(ExpressedSequenceTags):表达序列标记数据库。2.GSS(GenomeSurveySequences):基因组测序序列数据库。3.Nucleotide:包含所有未被以上两个子数据库收录的核苷酸序列3.检索事例检索号:JX984951NorovirusHu/GII.4/GZ2010-L88/Guangzhou/CHN/2011capsidprotein(VP1)gene,completecds电子显微镜下诺如病毒形态诺如病毒三维结构cds:Codingsequence.GenBank识别标志意义LOCUS标识字符串及短描述字ACCESSION唯一的提取号DEFINITION简单的描述VERSION可更新的序列版本号KEYWORDS关键字SOURCE来源生物体ORGANISM生物体分类谱系REFERENCE引文编号AUTHORS引文作者TITLE引文题目JOURNAL引文出处评注。特性表头。编码序列。GenBank序列开始标志,为空行。序列结束标志。4.BLAST(BasicLocalAlignmentsTool)序列相似性比较的工具1.可以将你的序列同核酸库中的的序列比较,检索相似的序列。2.BLAST程序对数据库搜索进行大量的改良,提高了搜索速度,同时把数据库搜索建立在了严格的统计学基础上。3.主要用于已知序列和数据库中的序列比较。基本的blast程序blastn页面向GenBank提交数据提交数据的不同选择5.NCBI热门资源——OMIM在线人类孟德尔遗传OnlineMendelianInheritanceinMan综合的、权威的、经常更新的人类基因和遗传表型的概要,包括所有已知的孟德尔遗传病和超过12,000种基因。OMIM强调表型和基因型关系。每天更新,词目包含大量的其他遗传资源。http://www.ncbi.nlm.nih.gov/omim/5.NCBI热门资源——ESTsExpressedsequencetag•ESTs表达序列标签,是一些短的(300~500bp)、单次(测序)阅读的cDNA序列。它们代表了特定组织或发育阶段表达的基因。也包括来自于差异显示和RACE实验的cDNA序列。•EST记录很少有注释,只有文库和生物来源信息,包括DDBJ/EMBL,以及GenBank。•2007年有12.5millionsequence,over430differentorganisms.•http://www.ncbi.nlm.nih.gov/nucest/5.NCBI热门资源——STSs序列(测序)标签位点STSs(Sequencedtaggedsite):短的在基因组上可以被唯一操作的序列,用于产生作图位点。在操作中,STS是用于辨别PCR引物对并生成作图试剂的唯一的序列,每个STS序列位点对应于基因组中一个单独的位置。不同数据库的定义方式不同。方便STS与其他部分序列之间的交叉比较。http://www.ncbi.nlm.nih.gov/unists/5.NCBI热门资源——SNPsSingleNucleotidePolymorphismsdbSNP—单核苷酸多态性数据库,包括SNPs,小范围的插入/缺失,多态重复单元,和微卫星变异。人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中。http://www.ncbi.nlm.nih.gov/snp5.NCBI热门资源——UniGene•被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的物种基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。•http://www.ncbi.nlm.nih.gov/unigene/statistics/NCBI资源十分丰富,要想熟练地在NCBI获得有用信息,还需要不断地摸索!谢谢!
本文标题:NCBI及GeneBank介绍(CHENGWEI)-XXXX0327
链接地址:https://www.777doc.com/doc-946 .html