您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第三章生物信息数据库-序列注释格式
第三章生物信息学数据库-序列注释格式马飞南京师范大学比较基因组学与生物信息学实验室GenBank数据库结构作用:了解序列数据库的格式,有助于更好地提高数据库检索的效率和准确性。DDBJ数据库的内容和格式与GenBank相同,此处不作详细介绍。分别介绍EMBL和GenBank的数据库结构GenBank数据库数据注释()GenBank库包含所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。NCBI可提供广泛的数据查询、序列相似性搜索以及其它分析服务。数据库•序列文件:注释内容——文章•索引文件:检索目录——文摘GenBank数据库结构完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库数据格式为FastA。GenBank数据记录GenBank数据记录GenBank数据库结构GenBank中最常用的是序列文件。序列文件的基本单位:是序列条目,包括核苷酸碱基排列顺序和注释两部分。生物信息资源中心通过计算机网络提供该数据库文件。注释条目:文章的格式GenBank数据库结构GenBank序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。字段分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记GenBank数据库结构序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可占一行,也可以占若干行。若一行中写不下时,继续行以空格开始GenBank数据库物种:GenBank库里的数据按来源于大约100,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)记录:每条GenBank数据记录包含对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,及序列本身GenBank数据库序列特征表:包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等分类:所有数据记录被划分为如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被分成若干文件注释内容序列条目关键字:•LOCUS(代码),•DEFINITION(说明),•ACCESSION(编号),•NID符(核酸标识),•KEYWORDS(关键词),•SOURCE(数据来源),•REFERENCE(文献),•FEATURES(特性表),•BASECOUNT(碱基组成)•ORIGIN(碱基排列顺序)。先版的核酸序列数据库将引入新的关键词SV(序列版本号),用“编号.版本号”表示,并取代关键词NIDLOCUSLOCUS(代码):是该序列条目的标记,或者说标识符,•蕴涵这个序列的功能:如HUMCYCLOX表示人的环氧化酶。•序列长度•类型•种属来源以•录入日期等说明字段是有关这一序列的简单描述ACCESSIONACCESSION(编号):具有唯一性和永久性,在文献中引用这个序列时,应该以此编号为准。KEYWORDSKEYWORDS(关键词)字段:由该序列的提交者提供,包括•该序列的基因产物•其它相关信息SOURCESOURCE(数据来源)字段:说明该序列是从什么生物体、什么组织得到的次关键字ORGANISM(种属):指出该生物体的分类学地位REFERENCEREFERENCE(文献)字段:说明该序列中的相关文献,包括•AUTHORS(作者),•TITLE(题目)及•JOURNAL(杂志名)等,以次关键词列出。MEDLINE的代码:该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。一个序列可有多篇文献,以不同序号表示,并给出该序列中哪一部分与文献有关。FEATURESFEATURES(特性表):具有特定的格式,用来详细描述序列特性。特性表中带有‘/db-xref/’标志的字符可以连接到其它数据库,如分类数据库(taxon9606),以及蛋白质序列数据库(PID:g181254)。序列中各部分的位置都在表中标明,5’非编码区,编码区,3’非编码区,多聚腺苷酸重复区域等。翻译所得信号肽以及最终蛋白质产物碱基含量字段,给出序列中的碱组成ORIGINORIGIN行是序列的引导行下面便是碱基序列以双斜杠行“//”结束。GenBank数据库—数据库格式FASTA格式gi|1293613|gb|U49845.1|SCU49845SaccharomycescerevisiaeTCP1-betagene,partialcds;andAxl2p(AXL2)andRev7p(REV7)genes,completecdsGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT……(该序列没有完全列出)GenBank数据库—数据库格式(1)FASTA格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。大于号()表示一个新文件的开始结束用(//)FASTA格式并没有什么特殊的要求。FASTA格式序列的提交GenBank数据库—数据库格式(1)FASTA格式特点:•只存储了最少量的信息•它将所存储的信息转化为简单的字符串•人和计算机对其存储的信息都具有极大的可读性FASTA格式在许多分子生物学软件包中得到广泛应用。GenBank数据库—数据库格式(2)GenBank纯文本文件格式(GenBankflatfile,GBFF):GenBank、EMBL、DDBJ每天都相互同步更新各自的数据库,它们是怎样交换数据的呢?GBFF文件格式GBFF是GenBank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一。头部中部尾部GENBANK纯文本文件格式LOCUSSCU498455028bpDNAPLN21-JUN-1999DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.ACCESSIONU49845VERSIONU49845.1GI:1293613KEYWORDS.SOURCEbaker'syeast.ORGANISMSaccharomycescerevisiaeEukaryota;Fungi;Ascomycota;Hemiascomycetes;Saccharomycetales;Saccharomycetaceae;Saccharomyces.REFERENCE1(bases1to5028)AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.TITLECloningandsequenceofREV7,agenewhosefunctionisrequiredforDNAdamage-inducedmutagenesisinSaccharomycescerevisiaeJOURNALYeast10(11),1503-1509(1994)MEDLINE95176709REFERENCE2(bases1to5028)AUTHORSRoemer,T.,Madden,K.,Chang,J.andSnyder,M.TITLESelectionofaxialgrowthsitesinyeastrequiresAxl2p,anovelplasmamembraneglycoproteinJOURNALGenesDev.10(7),777-793(1996)MEDLINE96194260REFERENCE3(bases1to5028)AUTHORSRoemer,T.TITLEDirectSubmissionJOURNALSubmitted(22-FEB-1996)TerryRoemer,Biology,YaleUniversity,NewHaven,CT,USAFEATURESLocation/Qualifierssource1..5028/organism=Saccharomycescerevisiae/db_xref=taxon:4932/chromosome=IX/map=9CDS1..206/codon_start=3/product=TCP1-beta/protein_id=AAA98665.1/db_xref=GI:1293614/translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEAAEVLLRVDNIIRARPRTANRQHMgene687..3158/gene=AXL2CDS687..3158/gene=AXL2/note=plasmamembraneglycoprotein/codon_start=1/function=requiredforaxialbuddingpatternofS.cerevisiae/product=Axl2p/protein_id=AAA98666.1/db_xref=GI:1293615/translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF……(有部分序列未列出)VDFSNKSNVNVGQVKDIHGRIPEMLBASECOUNT1510a1074c835g1609tORIGIN1gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg61ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct……(有部分序列未列出)4921ttttcagtgttagattgctctaattctttgagctgttctctcagctcctcatatttttct4981tgccatgactcagattctaattttaagctattcaatttctctttgatc//GBFF格式按域(Field)可以划分为三个部分•头部包含整个记录的信息(描述符);•第二部分包含了注释这一记录的特性;•第三部分是核苷酸序列本身。所有序列数据库记录都在最后一行以“//”结尾。GBFF格式头部-Locus行所有的GBFF都起始于LOCUS行:---------+---------+---------+---------+---------+-------1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999G
本文标题:第三章生物信息数据库-序列注释格式
链接地址:https://www.777doc.com/doc-2122358 .html