您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第三章DNA序列分析-2008-10-9.
第三章DNA序列分析3.1概述3.1.1序列分析的意义(1)DNA序列自身编码特征的分析是基因组信息学研究的基础,特别是随着大规模测序的日益增加,它的每一个环节都与信息分析紧密相关。(2)基因组不仅是基因的简单排列,更重要的是它有其特有的组织结构和信息结构,这种结构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。(3)虽然对约占模式生物(包括人类)基因组90%的非编码区的作用人们还不清楚,但从生物进化的观点看来,这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调控有关。寻找这些区域的编码特征,信息调节与表达规律是未来相当长时间内的热点,是取得重要成果的源泉。(4)在不同物种、不同进化水平的生物的相关基因之间进行比较分析,是基因研究的重要手段。目前,模式生物全基因组序列数据越来越多,因此,基因的比较研究,也必须从基因的比较,上升到对不同进化水平的生物在全基因组水平上的比较研究。这样的研究将更有效地揭示基因在生命系统中的地位和作用,解释整个生命系统的组成和作用方式。3.1.2序列分析的内容(1)通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。(2)通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。(3)通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。(4)通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。3.1.3DNA序列分析的目标任务对于呈指数式增长的序列数据,通过序列分析,可以获得如下几个方面的信息:(1)序列及所代表的类群间的系统发育关系;(2)限制性酶切(位点)图谱;(3)籍内含子/外显子(intron/exon)预测所确定的遗传结构;(4)籍开放阅读框(ORF)分析所推导的蛋白质编码序列(codingsequence,CDS)。基因与基因组分析技术路线可读框预测和基因标注序列拼接与组装结果上传到数据库碱基读取载体标识与去除测序仪中原始数据的采样与分析大规模基因序列测定生物信息学的内容基因预测DNA序列中编码区的鉴定预测方法的依据:编码统计学:编码区序列同非编码区序列相比,有不同的特点,存在一些非随机的特点GC含量密码子偏倚性(CODONFREQUENCY)第三个碱基组成基因结构/统计学方法比较/同源性生物信息学的内容蛋白质结构新蛋白的完整、精确和动态的三维结构计算机辅助结构模拟理解蛋白质的氨基酸序列和三维结构之间的关系蛋白质序列及特性分析蛋白质组学蛋白质与蛋白质组分析生物信息学的内容研究主要集中在核苷酸序列的存储、分类、检索和分析等方面新基因的发现非蛋白编码区生物学意义的分析基因组整体功能及其调节网络的系统把握基因组演化与物种演化基因组分析3.2基因的结构什么是基因?基因是有遗传效应的DNA片断,是决定生物性状的基本单位。每个DNA分子上有很多个基因,每个基因可以含有成百上千个脱氧核苷酸。不同基因中脱氧核苷酸的排列顺序不同,因此不同的基因含有不同的遗传信息。基因的功能:基因能够储存、传递和表达遗传信息,也都可能发生突变,从而决定生物体的性状。基因如何决定生物性状?通过转录、翻译,控制合成具有一定氨基酸顺序的蛋白质,从而控制生物的性状。DNA→RNARNA→蛋白质基因的表达原核细胞的基因结构编码区非编码区非编码区编码区上游编码区下游不能编码蛋白质可调控遗传信息的表达(调控序列)编码蛋白质(编码序列)原核基因识别重点在于识别编码区域非翻译区域(untranslatedregions,UTR)编码区域两端的DNA,有一部分被转录,但是不被翻译,这一部分称为非翻译区域5’UTR---基因上游区域的非翻译区域3’UTR---基因下游区域的非翻译区域一个开放阅读框(ORF,openreadingframe)是一个没有终止编码的密码子序列。原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。原核细胞的基因结构编码区非编码区非编码区与RNA聚合酶结合位点RNA聚合酶是由多个肽链构成的蛋白质,能识别并与调控序列中的结合位点结合,催化转录形成RNA。RNA聚合酶AGGTCACGTCGTCCAGTGCAGCRNA聚合酶AGGUCACGUCGRNA聚合酶一个典型的原核细胞基因结构示意图非编码区非编码区编码区TCCAGTAGGTCAAGATCTmRNA多肽链科学工作者分离得到了某原核生物基因,并将其解离成两条单链。现让其中一条链与由该基因转录而来的信使RNA杂交配对,结果如图所示。非编码区非编码区编码区信使RNA基因的一条链ABC基于基因密码子特性的识别方法辨别编码区域与非编码区域的一种方法是检查终止密码子的出现频率终止密码子出现的期望次数为:每21个(64/3)密码子出现一次终止密码子基本思想:如果能够找到一个比较长的序列,其相应的密码子序列不含终止密码子,则这段序列可能就是编码区域。基本算法:扫描给定的DNA序列,在三个不同的阅读框中寻找较长的ORF。遇到终止密码子以后,回头寻找起始密码子。这种算法过于简单,不适合于处理短的ORF或者交叠的ORF。识别编码区域的另一种方法是分析各种密码子出现的频率将一个随机均匀分布的DNA序列翻译成氨基酸序列,则在氨基酸序列中上述3种氨基酸出现的比例应该为6:4:1例如,亮氨酸、丙氨酸、色氨酸分别有6个、4个和1个密码子但是在真实的氨基酸序列中,上述比例并不正确这说明DNA的编码区域并非随机假设在一条DNA序列中已经找到所有的ORF,那么可以利用密码子频率进一步区分编码ORF和非编码ORF马尔柯夫链模型利用这种方法,可以计算一个ORF成为编码区域的可能性。真核细胞的基因结构一个典型的真核细胞基因结构示意图编码区含有能够编码蛋白质的序列(外显子,exon)不能编码蛋白质的插入序列(内含子,intron)真核生物的结构基因是断裂基因非编码区非编码区编码区与RNA聚合酶结合位点外显子内含子12345真核细胞的基因结构编码区非编码区非编码区编码区下游调控遗传信息的表达(调控序列)外显子(能编码蛋白质)内含子(不能编码蛋白质)非编码区非编码区编码区与RNA聚合酶结合位点外显子内含子12345加工转录mRNA前体成熟mRNA加工一个典型的真核细胞基因结构示意图非编码区非编码区编码区与RNA聚合酶结合位点外显子内含子12345原核细胞基因真核细胞基因相同点不同点原核细胞基因与真核细胞基因的比较都是由能够编码蛋白质的编码区和具有调控作用的非编码区组成。编码区是连续的编码区是间隔的,是不连续的猜想:为什么成熟信使RNA比编码区(单链)碱基数量要少?成熟信使RNA对应基因的一条链编码区真核生物基因的有关实验非编码区非编码区ABC哪些情况下,真核生物基因结构改变(基因突变)可能不会导致性状改变?(1)内含子改变(2)非编码区改变,mRNA遗传密码不变(3)外显子改变,转录成不同密码子决定同一种氨基酸(4)蛋白质氨基酸序列不同,也可能完成相同功能(5)突变后,基因变为隐性12345非编码区非编码区编码区不同基因所含的外显子和内含子数量不同如人血红蛋白的-珠蛋白基因有1700个碱基对,含有3个外显子和2个内含子,编码146个氨基酸。一种凝血因子基因有186000碱基对,含有26个外显子和25个内含子,编码2552个氨基酸。计算人的-珠蛋白和凝血因子基因中外显子的碱基对在整个基因碱基对中所占的比例:(146×3)÷1700×100%=26%(2552×3)÷186000×100%=4%从这个比例中你能得出什么结论?在真核细胞中,不同基因的编码序列,在各自基因中所占的比例是不同的。在真核细胞中,编码序列在整个基因中所占的比例是较少的,而非编码序列所占的比例则是较大的,从某种意义上体现了真核细胞基因结构与功能的复杂性。3.3核酸序列的概念性翻译3.4真核基因识别真核基因远比原核基因复杂:一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因上游区域。3.4.1基因识别基本思路•找出基因两端的功能区域:转录启动区终止区•在启动区下游位置寻找翻译起始密码子•识别转录剪切位点剪切给体位点剪切接受体位点各种不同的方法有不同的适应面,而不同的方法有时可以结合起来以提高基因识别的准确率。关键问题是如何提高一个识别算法的敏感性(sensitivity,Sn)和特异性(specificity,Sp)。3.4.2基因识别的主要方法两大类识别方法:从头算方法(或基于统计的方法)根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间区域基于同源序列比较的方法利用数据库中现有与基因有关的信息(如EST序列、蛋白质序列),通过同源比较,帮助发现新基因。最理想的方法是综合两大类方法的优点,开发混合算法。基因识别方法有:(1)基于规则的系统(2)语义学方法(3)线性辨别分析(LDA)(4)决策树(5)动态规划(6)隐马尔柯夫模型(7)剪切对比排列(splicedalignment)3.4.3编码区域识别两类方法:基于特征信号的识别内部外显子剪切位点5’端的外显子一定在核心启动子的下游3’端的外显子的下游包含多聚A信号和终止编码基于统计度量的方法根据密码子使用倾向双联密码统计度量等在一个基因中,第i个(i=1,64)密码子相对使用倾向RSCUi的定义如下:Obsi是该基因中第i个密码子实际出现的次数Expi是对应密码子期望的出现次数aai是统计的第i个密码子出现的次数syni是所有与第i个密码子同义密码子出现的次数RSCU大于1表示相应密码子出现的次数比期望次数高,而小于1则表示出现次数相对较少。iiiExpObsRSCUiiisynaaExp(5-66)(5-65)密码子使用倾向设一段DNA序列为S,从S的第i位到第j位的双联密码统计度量IF6(i,j)定义为:fk是从第k位开始的双联密码的频率Fk是该双联密码随机出现的频率4,...,8,5,25,...,7,4,16,...,6,3,06)/ln()/ln()/ln(max),(jkkikijkkikijkkikiFfFfFfjiIF(5-67)双联密码统计度量通过相似搜索发现编码区域或者外显子EST(ExpressedSequenceTags)cDNA蛋白质序列目前大多数预测程序都将数据库相似性搜索的信息结合进基因预测过程同时考虑序列特征信号和统计度量GRAIL用人工神经网络识别编码区域输入是一系列反映功能位点信号特征和序列编码统计特征的参数输出就是对一段DNA序列是否是编码区域的判别结果神经网络具有非线性映射能力,能够发现输入和输出之间的高阶相关性3.4.4ORFFinder(OpenReadingFramefinder)Entrez中提供的生物分子数据分析工具,是一个图形化的分析工具,它能够在用户给定的核酸序列或者数据库中的核酸序列中寻找可能的开放阅读框,并推导出相应的氨基酸序列。碱基组成DNA序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建立可能是方便的,但几乎所有的研究都证明碱基是以不同频率分布的。表1包含了9个完整DNA分子序列的资料,表2的数据来自两个胎儿球蛋白基因(Gr和A
本文标题:第三章DNA序列分析-2008-10-9.
链接地址:https://www.777doc.com/doc-2120097 .html