您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 药学 > 教你使用NCBI_PDB数据库
Bioinformatics,2009-2010,Semester1,SoochowBioinformatics,2009-2010,Semester1,Soochow生物信息学第三讲:序列的采集、存储和查询Bioinformatics,2009-2010,Semester1,Soochow本章内容提要1.DNA测序2.序列数据的存储3.序列数据的文件格式4.序列数据的查询Bioinformatics,2009-2010,Semester1,Soochow1.DNA测序1.DNA一次测序的长度为500bp。2.基因组的测序方案:将大的染色体打断成100kbp的片断,插入到BAC(BacterialArtificialChromosome)中。再随机打断,克隆,然后再组装成长的序列(contig)。3.EST(Expressedsequencetag)测序:细胞中mRNA反转录成cDNA,方向不定,测序。4.UniGene:为每一个基因创造一个唯一的条目,收集这个基因所有的ESTs.5.GSS(基因组测序序列):类似于ESTs,来源基因组。6.HTG(高通量基因组序列):高通量、尚未完工的DNA序列。Bioinformatics,2009-2010,Semester1,Soochow基因组测序:两种方案1.DNA片段在染色体上的位置、方向已知。首先染色体被打断成150kbp左右的片段,然后克隆到BACs中,再进一步打碎,克隆,测序,组装。2.“鸟枪法”,shotgun,随机将DNA片段打碎,克隆,测序,组装。DNA片段在染色体上的位置和方向未知。Bioinformatics,2009-2010,Semester1,SoochowBioinformatics,2009-2010,Semester1,Soochow2.序列数据的存储1.核酸三大数据库:GenBank,EBI,DDBJ.2.Ensembl数据库:基因组注释。3.ESTs数据库;4.UniGene数据库5.Refseq数据库;6.NCBI的Gene信息数据库;7.蛋白质序列:Swissprot/TrEMBL/UniProt数据库。Bioinformatics,2009-2010,Semester1,Soochow三大数据库之间的联系Bioinformatics,2009-2010,Semester1,SoochowGenBank中测序最多的20个物种161.0版,2007.08Bioinformatics,2009-2010,Semester1,SoochowdbEST:表达序列标签数据库2007.08,总序列45,660,524条,最多的20个物种如下Bioinformatics,2009-2010,Semester1,SoochowUniGene:AnOrganizedViewoftheTranscriptomBioinformatics,2009-2010,Semester1,SoochowRefseq数据库1.提供高质量的,无冗余的,完整的序列信息;2.包括基因组的DNA,转录成的RNA以及蛋白质序列信息。3.序列文件的标识符:DNA/RNA序列,NM_XXXXXX;蛋白质序列:NP_XXXXXXBioinformatics,2009-2010,Semester1,SoochowBioinformatics,2009-2010,Semester1,SoochowNCBIGene1.=gene2.序列从Refseq数据库中得到;3.详尽的注释信息,包括基因在基因组的定位,基因名称、蛋白质名称,基因结构,等等。Bioinformatics,2009-2010,Semester1,SoochowUniProt1.专家审核的蛋白质序列数据与知识库;2.UniProtKnowledgebase:Release12.1,2007.083.包括:Swiss-ProtRelease54.1of21-Aug-2007:277883entries;TrEMBLRelease37.1of21-Aug-2007:4754787entriesBioinformatics,2009-2010,Semester1,SoochowSwiss-ProtRelease54.1Bioinformatics,2009-2010,Semester1,SoochowTrEMBLRelease37.1Bioinformatics,2009-2010,Semester1,Soochow3.序列数据的文件格式1.DNA/RNA/氨基酸代码的标识2.GenBank数据格式3.UniProt4.FASTABioinformatics,2009-2010,Semester1,SoochowGenBank数据格式Definition:标题序列长度数据类型Accessionnumber版本号GInumberBioinformatics,2009-2010,Semester1,SoochowGenBank的数据类型Bioinformatics,2009-2010,Semester1,SoochowUniProt数据格式AccessionnumberBioinformatics,2009-2010,Semester1,SoochowFASTA格式Bioinformatics,2009-2010,Semester1,Soochow4.序列数据的查询某天,Prof.Gene发现人的Hela细胞中,有丝分裂期间有异常情况:细胞不再分裂,而是开始凋亡(表型,phenotype),通过实验的方法(例如,酵母双杂交),发现了与有丝分裂期间某个蛋白可能相互作用的一个基因,测序结果如下(genotype):CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGAACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGAGGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGTGTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGACGACCCCATAGAGGAACATAAAAAGCATTCGTCCGGTTGCGCTTTCCTTTCTGTCAAGAAGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAACTGGACAGAGAAAGAGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAGGAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGATTGAGGCCTCTGGCBioinformatics,2009-2010,Semester1,Soochow问题:1.这是哪个基因?2.编码的蛋白质序列是怎样的?3.有没有保守的功能结构域(domain)?4.它的功能是怎样的?5.它在真核生物中保守吗?6.有没有三级结构信息?Bioinformatics,2009-2010,Semester1,SoochowNCBI:BLAST:找基因序列输入序列Bioinformatics,2009-2010,Semester1,Soochow提交序列Bioinformatics,2009-2010,Semester1,SoochowNM_001168.2:SurvivinUniGeneGeo:基因表达信息Geneinfo:基因信息Bioinformatics,2009-2010,Semester1,SoochowSurvivinBioinformatics,2009-2010,Semester1,SoochowGeneinfo:17号染色体Bioinformatics,2009-2010,Semester1,Soochow功能注释:GeneOntologyBioinformatics,2009-2010,Semester1,Soochow结论11.该基因为人的Survivin基因,染色体定位:17号染色体,73721872-73733311;基因标识符:NM_001168.2;2.初步的功能分析:细胞周期,caspase酶的抑制因子,等等。Bioinformatics,2009-2010,Semester1,SoochowNM_001168.2:SurvivinBioinformatics,2009-2010,Semester1,SoochowHumanSurvivin!Bioinformatics,2009-2010,Semester1,Soochow获取蛋白质的序列信息Bioinformatics,2009-2010,Semester1,SoochowSurvivin:142aaBioinformatics,2009-2010,Semester1,Soochow结论2人的Survivin蛋白质包含142个氨基酸,序列标识符为:NP_001159.2Bioinformatics,2009-2010,Semester1,Soochow获取FASTA序列Bioinformatics,2009-2010,Semester1,SoochowFASTA格式的序列Bioinformatics,2009-2010,Semester1,SoochowPHI-BLAST:finddomainBioinformatics,2009-2010,Semester1,Soochow填入蛋白质的FASTA序列Bioinformatics,2009-2010,Semester1,SoochowBIRdomainBioinformatics,2009-2010,Semester1,Soochow结论3Survivin具有保守的功能结构域BIRBioinformatics,2009-2010,Semester1,SoochowUniProt:蛋白质数据库Bioinformatics,2009-2010,Semester1,Soochow在人中做BLAST搜索Bioinformatics,2009-2010,Semester1,SoochowSurvivin:O15392Bioinformatics,2009-2010,Semester1,SoochowSurvivin的蛋白质信息Bioinformatics,2009-2010,Semester1,Soochow功能注释Bioinformatics,2009-2010,Semester1,Soochow结论4:功能分析1.在瘤形成过程中可能起一定作用;2.阻碍G2/M期的细胞编程性凋亡;3.Chromosomalpassengercomplex(CPC)的成员之一。…细胞亚定位:胞质,核。Bioinformatics,2009-2010,Semester1,Soochow人的Survivin在酵母中有同源物吗?Bioinformatics,2009-2010,Semester1,Soochow提交序列Bioinformatics,2009-2010,Semester1,Soochow在酵母中进行序列比对Bioinformatics,2009-2010,Semester1,Soochow酵母BIR1:P47134Bioinformatics,2009-2010,Semester1,Soochow酵母BIR1的信息B
本文标题:教你使用NCBI_PDB数据库
链接地址:https://www.777doc.com/doc-3156638 .html