您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 第三章生物信息数据库-概述及类型
第三章生物信息学数据库及其检索南京师范大学比较基因组学与生物信息学实验室第一节生物数据库概述生物信息学-数据库生物学已经积累了相当丰富多样和复杂的数据。这些数据可以被分类,但相当难于综合以及用公式进行描述。随着生物学知识大量增加,要完成对数据的处理只能使用计算机。目标:在分子生物学和基因组学中常见数据类型的概述介绍主要序列数据库,比较它们包含的数据内容和注释质量的区别数据库接受数据的形式(文本搜索,相似性搜索,浏览和交叉索引)序列与非序列数据库介绍以及它们的用途一级序列与结构数据库介绍分子生物学数据类型物种基因组图谱小鼠X染色体来源于小鼠基因组计划物种基因组图谱DNA序列RNA序列...AATGGTACCGATGACCTGGAGCTTGGTTCGA...分子生物学数据类型物种基因组图谱DNA序列RNA序列蛋白质序列...TRLRPLLALLALWPPPPARAFVNQHLCGSHLVEA...分子生物学数据类型物种基因组图谱DNA序列RNA序列蛋白质序列RNA结构E.colismallsubunitrRNAGutellR.R.(1994)Collectionofsmallsubunit(16S-and16S-like)ribosomalRNAstructuresNucleicAcidsRes22:3502分子生物学数据类型物种基因组图谱DNA序列RNA序列蛋白质序列蛋白质结构RNA结构PDBentry1CISP.Osmark,P.Sorensen,F.M.Poulsen分子生物学数据类型物种基因组图谱DNA序列RNA序列蛋白质序列蛋白质结构DNA模体RNA结构核酸结构模体:转录因子结合位点(CBF1:CCGNC)(TACCGACAT)RNA催化模体蛋白质模体:结构模体保守区(D/N-R-X-G-R-R/K;I-X2-R-X3-G-X3-G)NAD+结合区含有一个保守的模体[G]-[X]-[G]-[X2]-[G](GSGAWA)(D.salina)活性位点等分子生物学数据类型蛋白质模体物种基因组图谱DNA序列RNA序列蛋白质序列蛋白质结构DNA模体蛋白质模体RNA表达RNA结构分子生物学数据类型在RNA水平上使用DNA微阵列检测变异一个芯片上包含酵母基因组全序列:680红色点:RNA表达水平增加的基因绿色点:RNA表达水平降低的基因物种基因组图谱DNA序列RNA序列蛋白质序列蛋白质结构DNA模体蛋白质模体蛋白质表达RNA表达RNA结构分子生物学数据类型蛋白质组学:2D凝胶电泳SWISS-2DPAGE数据库://kegg.genome.ad.jp/kegg/分子生物学数据类型物种基因组图谱DNA序列RNA序列蛋白质序列蛋白质结构DNA模体蛋白质模体抑制因子和药物底物代谢途径蛋白质表达RNA表达RNA结构分子生物学数据类型药物设计与抑制因子结合的HIV-1蛋白酶复合体PDBentry1DIFA.M.Silva,R.E.Cachau,H.L.Sham,J.W.Erickson物种组织和细胞基因组图谱DNA序列RNA序列蛋白质序列蛋白质结构DNA模体蛋白质模体抑制因子和药物底物代谢途径蛋白质表达RNA表达RNA结构结构突变/多形性分子生物学数据类型种群物种组织和细胞基因组图谱DNA序列RNA序列蛋白质序列蛋白质结构DNA模体蛋白质模体抑制因子和药物底物代谢途径蛋白质表达RNA表达RNA结构突变/多形性疾病分子生物学数据类型种群物种组织和细胞基因组图谱DNA序列RNA序列蛋白质序列蛋白质结构DNA模体蛋白质模体抑制因子和药物底物代谢途径蛋白质表达RNA表达RNA结构突变/多形性疾病文献分子生物学数据类型分子生物学数据库序列数据库•含注释•无注释•针对特定对象结构数据库模体数据库RNA表达基因组数据库蛋白质组数据库突变多形性代谢途径物种种群文献序列数据库含注释的序列数据库•SWISS-PROT,GenBank等•用途:功能识别,获取信息无注释的序列数据库•EST数据库,高通量基因组序列•用途:发现新基因对特定对象的数据库•RDP,G-蛋白偶联受体数据库等•用途:视数据库而定,通常用于获取特定领域的信息生物信息学数据库工具生物信息数据库相互关系染色体核酸蛋白质基因组图谱DNA序列蛋白质序列蛋白质结构基因组数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库二级数据库复合数据库基因组作图序列测定结构测定主要数据库:通用核酸数据库•GenBank(美国)•EMBL(欧洲)•DDBJ(日本)通用核酸数据库GenBank-按物种分类Entries碱基物种22174601556595261Homosapiens553872260818221Musmusculus77205177824883Caenorhabditiselegans123758133950582Drosophilamelanogaster72565117022315Arabidopsisthaliana8713847136422Oryzasativa8050742049391Rattusnorvegicus1440330390617Saccharomycescerevisiae6100126060656Rattussp.524018407242Escherichiacoli3222717046673Fugurubripes3348214732289Daniorerio3150414498639Humanimmunodeficiencyvirustype1988214270269Schizosaccharomycespombe544611539475Plasmodiumfalciparum1970410817282Zeamays110110008018Bacillussubtilis138989038361Magnaporthegrisea160898486371Dictyosteliumdiscoideum114297007861LycopersiconesculentumGenBank剖析I:数据结构记录分为3部分:•记录起始•特征表•序列GenBank剖析II:记录起始LOCUSANACIAG3042bpDNAPLN28-NOV-1996DEFINITIONA.nidulansaciAgeneforAciAprotein.ACCESSIONZ11612S51247NIDg5544KEYWORDSaciAgene;AciAprotein.SOURCEEmericellanidulans.ORGANISMEmericellanidulansEukaryotae;mitochondrialeukaryotes;Fungi;Ascomycota;Euascomycetes;Plectomycetes;Eurotiales;Trichocomaceae;Emericella.REFERENCE1(bases1to3042)AUTHORSSaleeba,J.A.,Cobbett,C.S.andHynes,M.J.TITLECharacterizationoftheamdA-regulatedaciAgeneofAspergillusnidulansJOURNALMol.Gen.Genet.235(2-3),349-358(1992)MEDLINE93101140REFERENCE2(bases1to3042)AUTHORSSaleeba,J.A.TITLEDirectSubmissionJOURNALSubmitted(24-JAN-1992)JenniferA.Saleeba,DepartmentofGenetics,Universityof,Melbourne,GrattanStreet,Parkville,Victoria,3052,AustraliaGenBank记录起始III:特征FEATURESLocation/Qualifierssource1..3042/organism=Emericellanidulans/strain=Glasgow/chromosome=Segmentofchromosome1mRNAjoin(969..1263,1318..1493,1553..2624)/gene=aciAexon969..1263/gene=aciA/number=1mRNAjoin(1205..1263,1318..1493,1553..2624)/gene=aciAexon1205..1263/gene=aciA/number=1CDSjoin(1249..1263,1318..1493,1553..2495)/gene=aciA/codon_start=1/product=AciA/db_xref=PID:g5545/db_xref=SWISS-PROT:Q03134GenBank记录起始IV:序列ANACIAGA.nidulansaciAgeneforAciAproteinSeq:ANACIAGLength:3042SunJan1921:10:371997Check:422..1AAGCTTACTTGTGTCCATTTTCTGGATTCCAGACTCAAGACCAGTGCTAA51AGAAAACCCCTAGATTACTATTTCAACCATATTATTTTTTTCCTTGCCAG101AATTTAATCGCGAGCGTAGAAGCCAACTATACTACAAACAGGCTGTCCCA151ATGAAACTGTAGATTTCTATCGAGTGCTTCTACTTTTACCAAAATTTATT201ATTACTTATCTCCTTTTGTCAATTCCACGCTCTGAGCTGGGGCTTTTTGC251TGACAGTCAAGTGAGGGGGAGGGGCGGGAGTTTACCCCTCATGCGGGGAA301GACCGTGTGTTGTAGATCATACTGACAGCCAGCGACAAAGTATGTCGGCC351AGTTTGCAAGTCAACCTGAGGCAGCAGAGACGATTGGAAGAGC…….通用蛋白质数据库SWISS-PROT•人工维护•详细注释GenPept/TREMBL•翻译编码序列来源于GenBank/EMBL•简略注释,包含大量数据PIR•不同注释类型使用序列数据库搜索记录起始•以关键词搜索注释(物种名,基因名等)搜索序列•使用BLAST搜索序列相似性•搜索含有特定特征的序列浏览•使用其它数据库的后续链接后续链接:SWISS-PROTentry交叉索引DREMBL;M16591;AAA52643.1;-.DREMBL;M16592;AAA52644.1;-.DRPIR;A27812;TVHUHC.DRPDB;2HCK;20-AUG-97.DRPDB;3HCK;15-OCT-97.DRPDB;1BU1;11-NOV-98.DRMIM;142370;-.DRPROSITE;PS00107;PROTEIN_KINASE_ATP;1.DRPROSITE;PS00109;PROTEIN_
本文标题:第三章生物信息数据库-概述及类型
链接地址:https://www.777doc.com/doc-2121769 .html