您好,欢迎访问三七文档
2020/3/24第二章核酸序列分析NucleicAcidsequenceAnalysis2020/3/24§2.1生物信息学数据库Bioinformaticsdatabase2020/3/24生物信息学最重要的任务是从海量数据中提取新知识2020/3/24生物信息学数据存在的问题•信息源分布在世界各地不同的站点上•涉及多个数据源的全局问题无法立刻得到答案–Painfullycollectingunstructuredinformationaroundthesites–Manuallyputtingpiecestogether–Hopefullygettingtherightpicture...•总之,信息源的特点是:–自治的(autonomous)–分布式的(distributed)–异构的(heterogeneous)数据集成DataIntegration2020/3/24一、生物信息学数据库生物信息学数据库的种类分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类:基因组数据库核酸和蛋白质一级结构数据库生物大分子(主要是蛋白质)三维空间结构数据库由上述3类数据库和文献资料为基础构建的二级数据库2020/3/24生物信息数据库的分类一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释一级核酸数据库:EMBLdatabase,GenBankdatabase,DDBJdatabase一级蛋白质序列数据库:SWISS-PORTdatabase,PIRdatabase一级蛋白质结构数据库:PDBdatabase二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立人类基因组图谱库GDB蛋白质结构分类数据库SCOP,CATH蛋白质序列功能位点数据库Prosite2020/3/24《核酸研究》杂志——《NucleicAcidsResearch》()自1993年起,每年都会在第一期推出生物数据库特刊,介绍上一年度的数据库增加和更新情况。至2010年,生物信息学数据库总数已达1230个。2020/3/242020/3/24核酸序列数据库2020/3/242020/3/24相关数据库及其主要分类1核酸序列数据库2.RNA序列数据库3.蛋白质序列数据库4.结构数据库5.基因组数据库(非脊椎动物)6.代谢酶相关产物7.人类和其他脊椎动物基因组8.人类基因和疾病9.其他数据和其他基因表达数据库10.蛋白组资源11.其他分子生物学数据库12.细胞器官数据库13.植物数据库14.免疫学数据库2020/3/24二、核酸数据库1、国际三大核酸数据库•数据库(Database)网址(Address)GenBankEMBLDDBJ:由美国国家生物技术信息中心(NationalCenterforBiotechnologyInformation,NCBI)建立。该中心隶属于美国国家医学图书馆,位于美国国家卫生研究院(NIH)内。EMBL:欧洲分子生物学实验室(EuropeanMolecularBiologyLaboratory,其下有EuropeanBioinformaticsCentre),主要位于英国剑桥Cambridge和德国汉堡Hamburg。DDBJ:日本DNA数据库(DNADataBankofJapan),由theNationalInstituteofGenetics,NIG主管。2020/3/24这3个大型数据库于1988年达成协议,组成合作联合体。它们每天交换信息,并对数据库DNA序列记录的统一标准达成一致。每个机构负责收集来自不同地理分布的数据(EMBL负责欧洲,GenBank负责美洲,DDBJ负责亚洲等),然后来自各地的所有信息汇总在一起,3个数据库的数据共享并向世界开放,故这3个数据库又被称为公共序列数据库(PublicSequenceDatabase)。所以从理论上说,这3个数据库所拥有的DNA序列数据是完全相同的。你可以从中选择一个你喜欢的数据库;但是如果你的研究需要实时(24小时以内)的,则要注意这些数据库间的记录是会有差异的。2020/3/24北京大学生物信息学中心(CentreofBioinformatics,PekingUniversity):北京华大基因研究中心(中国科学院北京基因组研究所):清华大学生物系生物信息研究室:中国科学院上海生命科学研究院生物信息中心:、我国主要生物信息学机构2020/3/24三、基因组数据库如:大肠杆菌基因组ECDC、酵母菌基因组CYGD、线虫基因组AceDB、果蝇基因组FlyBase、老鼠基因组MGD、人类基因组GDB、拟南芥TAIR(AtDB)数据库和水稻基因组RGP等。部分生物基因组计划网址如下:2020/3/24大肠杆菌EColi——ECDC数据库~gx1052/ECDC/ecdc.htm酵母菌Yeast——CYGD数据库线虫Caenorhabditiselegans——AceDB数据库://——FlyBase数据库://morgan.harvard.edu老鼠Mouse——MGD数据库目前完成全基因组测序工作的物种有很多,并在随时更新(update).可以进入ncbi的基因组计划二次数据库查看,其网址:四、数据库格式历史原因:没有完全统一的数据库格式了解所用数据库格式的重要性一般由两部分组成:文字注释序列2020/3/24FASTA序列格式包括三个部分:(1)在注释行的第一行用字符“”标识,后面是序列的名字和来源(2)标准的单字符表示序列(3)可选的“*”表示序列的结束,它可能出现也可能不出现,但它是许多序列分析程序正确读取序列所必须的。FASTA格式是序列分析软件最常用的格式。这种格式提供了从一个窗口到另一个窗口非常方便的拷贝途径,因为序列中没有数字或其他非字符。FASTA序列格式和蛋白质信息资源NBRF格式很相似。1、FASTA序列格式(Person格式)2020/3/24•说明3点:•序列文件的第一行是由大于符号(>)打头的任意文字说明,主要为标记序列用。•从第二行开始是序列本身,标准核苷酸符号或氨基酸单字母符号。通常核苷酸符号大小写均可,而氨基酸一般用大写字母。•文件中和每一行都不要超过80个字符(通常60个字符)。2020/3/24核酸序列氨基酸序列2020/3/24•组成序列信息字符串的符号必须为标准的国际生物化学联合会(IUB)/国际纯粹与应用化学联合会(IUPAC)•氨基酸或核苷酸的符号符号的大小写同义,单个“连字符”表示一个空位•不清楚的核苷酸残基用N表示,不确定的氨基酸残基用X表示•标题行的名称是用户自定义的,可以是汉字,也可以是英文注意2020/3/242.序列详细注释的GenBank格式•GBFF(GenBankflatfile,GenBank平面文件)格式•GenBank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一。2020/3/24GenBank格式GenBank格式:每个条目都是一份纯文本文件。每行左端或为空格或为识别字,识别字均为完整英文字,不用缩写。GenBank条目,使用一大批与EMBL和DDBJ数据库统一的关键字。格式可以分成3个部分:1)头部包含关于整个序列的信息(描述字符),从LOCUS行到ORIGIN行;2)注释这一序列的特性(FeatureTable),为注释的核心部分;3)序列本身(Sequence)。注:所有的核苷酸数据库记录(EMBL/GenBank/DDBJ)都在最后一行以//结尾。2020/3/24一个简单的GenBank记录LOCUSAF0620693808bpmRNAINV02-MAR-2000DEFINITIONLimuluspolyphemusmyosinIIImRNA,completecds.ACCESSIONAF062069VERSIONAF062069.2GI:7144484KEYWORDS.SOURCEAtlantichorseshoecrab.ORGANISMLimuluspolyphemusEukaryota;Metazoa;Arthropoda;Chelicerata;Merostomata;Xiphosura;Limulidae;Limulus.REFERENCE1(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITLEAmyosinIIIfromLimuluseyesisaclock-regulatedphosphoproteinJOURNALJ.Neurosci.(1998)InpressREFERENCE2(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITLEDirectSubmissionJOURNALSubmitted(29-APR-1998)WhitneyLaboratory,UniversityofFlorida,9505OceanShoreBlvd.,St.Augustine,FL32086,USAREFERENCE3(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITLEDirectSubmissionJOURNALSubmitted(02-MAR-2000)WhitneyLaboratory,UniversityofFlorida,9505OceanShoreBlvd.,St.Augustine,FL32086,USAREMARKSequenceupdatebysubmitterCOMMENTOnMar2,2000thissequenceversionreplacedgi:3132700.2020/3/24FEATURESLocation/Qualifierssource1..3808/organism=Limuluspolyphemus/db_xref=taxon:6850/tissue_type=lateraleyeCDS258..3302/note=N-terminalproteinkinasedomain;C-terminalmyosinhea
本文标题:生物信息学课件
链接地址:https://www.777doc.com/doc-4543505 .html