您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 第六章-基因组信息分析
1、基因组DNA的奥秘•遗传信息存贮在4种字符组成的核酸序列中•“天书”——用遗传语言书写的人类遗传蓝本包含的信息量巨大更重要的是目前人类对它了解甚少天书中只有4个字符(碱基A、T、G、C)既没有段落,也没有标点符号是一个长度为3×109的一维序列。第一节关于遗传语言•科学家对这本天书了解最多的部分就是遗传密码或者说掌握了DNA对蛋白质编码的规律•关于密码子(1)密码子的使用是非随机的•如果密码子的第一、第二位碱基是A、U,那么第三位将尽可能使用G、C;反之亦然。•如果三位都用G、C,则配对容易,分解难;三位都用A、U,则相反。•一般地说,高表达的基因,要求翻译速度快,要求密码子和反密码子配对快、分手也快。(2)密码子的使用有一定的统计规律•对同义密码子的使用存在着偏爱不同种属偏爱的密码子不同人类基因组:密码子第三位取A、U的情况占90%而第三位取G、C仅占10%密码子的使用偏性与基因功能、蛋白质结构相关(3)密码子中的密码•三个碱基的位置与所编码的氨基酸性质存在着联系例如:•芳香族氨基酸——以U作为第一位碱基•中间位置碱基的性质与氨基酸是亲疏水性相关疏水氨基酸的密码子,其第二位碱基是U亲水氨基酸的密码子,其第二位碱基是A第二位碱基是G、C的密码子所编码的氨基酸亲水性、疏水性居中。基因组信息人类基因组:•编码区域只占1%-3%•对于非编码序列,尚不清楚其含义或功能•非编码区域对于生命活动具有重要的意义包括内含子、简单重复序列、移动元件、伪基因重复序列:卫星(satellite)DNA小卫星(mini-satellite)DNA微卫星(micro-satellite)顺式调控元件:启动子、增强子、沉默子2、探索遗传语言•用语言学的方法进行研究自然语言计算机程序设计语言遗传语言二进制序列0、1的长程关联性分析结果:编码区域——自然语言非编码区域——程序设计语言蛋白质编码区域所包含的信息相当于待加工的“数据”数据经过加工处理以后产生对应的蛋白质;而非编码区域则相当于“程序”或“指令”,确定如何在时间和空间方面控制基因的表达和蛋白质的合成•用密码学方法进行研究是否存在其它密码?——调控信息密码?——蛋白质结构的密码?•编码在DNA上的一维程序如何在四维时空中控制生命体的生长发育3、关于生物复杂性生物的复杂性不仅仅是基因的数目人类基因约为30000个线虫有20000个基因230000/220000=210000≌1030004、基因组计划带来的希望•实验数据的积累速度在迅速地增加•计算机科学和技术也在不断地发展单个基因组分析基因序列基因功能基因的表达调控基因产物基因多态性比较基因组分析物种关系物种进化物种起源人、鼠基因组比较人基因组鼠基因组鼠染色体上的颜色和数字代表在人染色体上对应的片段.老鼠约75%的基因与人类相同。第二节DNA序列分析DNA序列分析——基因序列——基因表达调控信息寻找基因牵涉到两个方面的工作:•识别与基因相关的特殊序列信号•预测基因的编码区域•结合两个方面的结果确定基因的位置和结构基因表达调控信息隐藏在基因的上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。一、DNA序列分析步骤和分析结果评价在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用。存放这些信息的DNA片段称为功能位点•如启动子(Promoter)、基因终止序列(Terminatorsequence)、剪切位点(Splicesite)等。发现重复元素数据库搜索分析功能位点序列组成统计分析综合分析一个基本的DNA序列分析方案功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。两个集合:训练集(trainingset)用于建立完成识别任务的数学模型。测试集或控制集(controlset)用于检验所建模型的正确性。用训练集中实例对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。然后,用模型对测试集中的实例进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。收集已知的功能序列和非功能序列实例(这些序列之间是非相关的)训练集(trainingset)测试集或控制集(controlset)建立完成识别任务的模型检验所建模型的正确性对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。识别“功能序列”和“非功能序列”的过程Sn——敏感性Sp——特异性Tp是正确识别的功能序列数,Tn为正确识别的非功能序列数,Fn是被错误识别为非功能序列的功能序列数,Fp是被错误识别为功能序列的非功能序列数。pnnpnppnFTTSFTTS敏感性和特异性的权衡对于一个实用程序,既要求有较高的敏感性,也要求有较高的特异性。如果敏感性很高,但特异性比较低,则在实际应用中会产生高比率的假阳性;相反,如果特异性很高,而敏感性比较低,则会产生高比率的假阴性。对于敏感性和特异性需要进行权衡,给出综合评价指标。二、核苷酸关联分析对于一个给定的基因组,最简单的计算就是统计DNA序列中各类核苷酸出现的频率。对于随机分布的DNA序列,每种核苷酸的出现是均匀分布的•出现频率各为0.25。而真实基因组的核苷酸分布则是非均匀的核苷酸频率A0.3248693727808C0.1751306272192G0.1751306272192T0.3248693727808酵母基因组核苷酸出现频率在统计过程中,如果同时计算DNA的正反两条链,则根据碱基配对原则,A和T、C和G的出现频率相同。如果仅统计一条链,则虽然A和T、C和G的出现频率不同,但是非常接近。核苷酸频率A0.344C0.155G0.157T0.343单链核苷酸出现频率基因和其它功能区域在正反两条链上出现的可能性通常一样核苷酸出现频率也不应该有偏差正反两条链在信息的组织结构方面不应该有差别单链上A和T、C和G的出现频率相近。正反两条链碱基互补的原则单链上A和T、C和G的出现频率相近的解释两联核苷酸频率不同基因组中两个连续核苷酸出现的频率也是不相同的4种核苷酸可以组合成16种两联核苷酸酵母基因组两联核苷酸频率表对酵母基因组两联核苷酸的统计结果其中核苷酸对出现频率最高的达到0.119而出现频率最低的只有0.028令:Pij——代表两联核苷酸(i,j)的出现频率Pi——代表核苷酸i的出现频率则:Pij’=Pij/(PiPj)的值反应核苷酸i和j的关联关系如果Pij’=1,则在两个连续的位置上,核苷酸i和j的出现是相对独立的。关联性分析对于酵母基因组PA=0.3248PAA=0.1193PAA’=0.1193/(0.3248*0.3248)=1.1311表明在两个连续位置上“A”的出现不是独立的,而是相关的。关联性分析同样,对于相隔一定距离k(k代表核苷酸个数)的两个核苷酸,也可能具有一定的相关性。假设Pij(k)代表核苷酸j出现在核苷酸i之后第k个位置的频率,则可定义一个反应统计相关性的互信息I(k)I(k)值得大小实际上反应了距离为k的两个核苷酸之间的相关性的程度41,2)(log)()(jijiijijppkpkpkI三联核苷酸——基因密码子在进行编码区域识别时,常常需要对三联核苷酸进行统计分析,这实际上是分析密码子的使用偏性。•由于密码子的简并性(degeneracy),每个氨基酸至少对应1种密码子,最多有6种对应的密码子。•在基因中,同义密码子的使用并不是完全一致的。•不同物种、不同生物体的基因密码子使用存在着很大的差异基因密码子的使用与基因编码的蛋白的结构和功能有关,与基因表达的生理功能有着密切的联系蛋白的三级结构与密码子使用概率有密切的关系•通过对密码子的聚类分析,可以很清晰地将具有不同三级结构蛋白质的编码基因分成不同的类,而具有相似三级结构蛋白的编码基因则大致聚在同一类中,从而证明基因密码子的使用偏性与蛋白质三级结构具有密切的相关性。在不同物种中,类型相同的基因具有相近的同义密码子使用偏性•对于同一类型的基因由物种引起的同义密码子使用偏性的差异较小三、功能位点分析功能位点(functionalsite)•与特定功能相关的位点,是生物分子序列上的一个功能单元,或者是生物分子序列上一个较短的片段。功能位点又称为功能序列(functionalsequence)、序列模式(motif)、信号(signal)等。核酸序列中的功能位点包括转录因子结合位点、转录剪切位点、翻译起始位点等。在蛋白质序列分析中,常使用序列模式这个名词,蛋白质的序列模式往往与蛋白质结构域或者作用部位有关。功能位点示意基因组序列中若干个相邻的功能位点组合形成功能区域(functionalregion)。功能位点分析的任务•发现功能位点特征•识别功能位点1、利用共有序列搜索功能位点共有序列(consensus)又称一致性片段•共有序列是关于功能位点特征的描述,它描述了功能位点每个位置上核苷酸进化的保守性例如:NTATN利用共有序列进行功能位点分析牵涉到两个方面的问题,•如何构造共有序列•如何利用共有序列在给定的核酸序列上搜索寻找功能位点,并计算所找到的功能位点的可靠性共有序列具有以下几个方面的特征:(1)共有序列中既有保守的位置,也有可变的位置;(2)任何位置上的核苷酸可以用15种类型之一来表示:核苷酸表示符号符号含义说明GG腺嘌呤AA鸟嘌呤TT胸腺嘧啶CC胞嘧啶RGorA嘌呤YTorC嘧啶MAorC氨基KGorT羧基SGorC强氢键(3个氢键)WAorT弱氢键(2个氢键)HAorCorT非GBGorTorC非AVGorCorA非T(非U)DGorAorT非CNGorAorTorC任意碱基共有序列构造过程:(1)初始化共有序列为一系列可变位置,以“N”代表;(2)在可变位置寻找出现次数最多的核苷酸,并将该位置转化为保守位置;(3)对当前所得到的共有序列进行特异性检查,若通过检查,转(5),否则转(4);(4)形成与当前共有序列一致的位点子集,转(2);(5)从原位点集合中删除与当前共有序列一致的位点,若还有剩余位点,则转(1),构造另外的共有序列。TTATGATATATACGCTTGTCTCCACTTATGATATATACGCTTGTCTCCACTNNNNtTATGtACGCtTGTCtCCACtTATGtACGCtTGTCtCCACTNNNC[1][2][3][4][2][3]NNNNNTNNNN非特异TNNNC非特异tACGctTGTctCCAc[4][2]tACGctTGTctCCAc[3]TNSNC特异[5]Consensus1:TNSNC剩余位点:TTATGATATA[5]Consensus2:NTATNTNNSC在给定的序列中搜索与共有序列一致的序列片段数据库搜索共有序列表示方法的缺点:•是关于序列特征的一种定性描述,对于DNA序列,它能够说明序列每个位置可能出现的碱基类型,但是不能准确地说明各位置上不同类型碱基出现的可能性大小。2、用感知矩阵分析功能位点用权系数描述功能位点各位置上每种核苷酸的相对重要性感知矩阵(或加权矩阵)•根据一系列功能位点的多重对比排列结果而建立的•其大小为4n4代表碱基的种类数目,n代表功能位点的长度矩阵的每一个元素M(a,j)的值代表第a种核苷酸在功能位点第j个位置上出现的得分,a{A,T,G,C}。123456A18227-319T26142-10G3110-50-19C5-916880感知矩阵示例对于一个序列s=a1a2…an,根据对应位置上核苷酸的类型,取感知矩阵中对应的权值,加和以后得到该序列的得分设S=ATTGCA,则Ws=1+6+14-5+8+19=43T——功能位点阈值T‘——非功能位点阈值•如果WsT,则S是功能位点;•如果WsT',则S是非功能位点。njjsjaMW1),(第三节基因识
本文标题:第六章-基因组信息分析
链接地址:https://www.777doc.com/doc-4649071 .html