您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > chapter4DNA序列分析
第4章DNA序列分析DNA序列分析——基因序列——基因表达调控信息寻找基因牵涉到两个方面的工作:–识别与基因相关的特殊序列信号–预测基因的编码区域–结合两个方面的结果确定基因的位置和结构基因表达调控信息隐藏在基因的上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。第1节DNA序列分析步骤和分析结果评价•在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用。•存放这些信息的DNA片段称为功能位点–如启动子(Promoter)、基因终止序列(Terminatorsequence)、剪切位点(Splicesite)等。发现重复元素数据库搜索分析功能位点序列组成统计分析综合分析一个基本的DNA序列分析方案•功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。•两个集合:训练集(trainingset)•用于建立完成识别任务的数学模型。测试集或控制集(controlset)•用于检验所建模型的正确性。•用训练集中实例对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。然后,用模型对测试集中的实例进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。收集已知的功能序列和非功能序列实例(这些序列之间是非相关的)训练集(trainingset)测试集或控制集(controlset)建立完成识别任务的模型检验所建模型的正确性对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。识别“功能序列”和“非功能序列”的过程•Sn——敏感性•Sp——特异性•Tp是正确识别的功能序列数,•Tn为正确识别的非功能序列数,•Fn是被错误识别为非功能序列的功能序列数,•Fp是被错误识别为功能序列的非功能序列数。pnnpnppnFTTSFTTS敏感性和特异性的权衡•对于一个实用程序,既要求有较高的敏感性,也要求有较高的特异性。•如果敏感性很高,但特异性比较低,则在实际应用中会产生高比率的假阳性;•相反,如果特异性很高,而敏感性比较低,则会产生高比率的假阴性。•对于敏感性和特异性需要进行权衡,给出综合评价指标。•对于一个识别程序准确性可按下式进行综合评价:•另一个综合评介指标为相关系数,其计算计算公式为:2pnSSAC)()()()(nnpppnnppnnpFTFTFTFTFFTTCC•选择训练集和测试集–在检测算法的可行性时,需要从已知的数据中按照不同的方式选择训练集和测试集•测试集的构成非常关键–在不同的测试集上进行测试可能会得到不同的准确性结果,甚至准确性相差很大。•建立标准的功能序列测试集合。–如基因转录剪切位点的测试集合、编码区域的测试集合等。第2节核苷酸关联分析•对于一个给定的基因组,最简单的计算就是统计DNA序列中各类核苷酸出现的频率。•对于随机分布的DNA序列,每种核苷酸的出现是均匀分布的–出现频率各为0.25。•而真实基因组的核苷酸分布则是非均匀的核苷酸频率A0.3248693727808C0.1751306272192G0.1751306272192T0.3248693727808酵母基因组核苷酸出现频率•在统计过程中,如果同时计算DNA的正反两条链,则根据碱基配对原则,A和T、C和G的出现频率相同。•如果仅统计一条链,则虽然A和T、C和G的出现频率不同,但是非常接近。核苷酸频率A0.344C0.155G0.157T0.343单链核苷酸出现频率基因和其它功能区域在正反两条链上出现的可能性通常一样核苷酸出现频率也不应该有偏差正反两条链在信息的组织结构方面不应该有差别单链上A和T、C和G的出现频率相近。正反两条链碱基互补的原则单链上A和T、C和G的出现频率相近的解释两联核苷酸频率•不同基因组中两个连续核苷酸出现的频率也是不相同的•4种核苷酸可以组合成16种两联核苷酸酵母基因组两联核苷酸频率表对酵母基因组两联核苷酸的统计结果其中核苷酸对出现频率最高的达到0.119而出现频率最低的只有0.028令:Pij——代表两联核苷酸(i,j)的出现频率Pi——代表核苷酸i的出现频率则:Pij’=Pij/(PiPj)的值反应核苷酸i和j的关联关系如果Pij’=1,则在两个连续的位置上,核苷酸i和j的出现是相对独立的。关联性分析•对于酵母基因组PA=0.3248PAA=0.1193PAA’=0.1193/(0.3248*0.3248)=1.1311表明在两个连续位置上“A”的出现不是独立的,而是相关的。关联性分析•同样,对于相隔一定距离k(k代表核苷酸个数)的两个核苷酸,也可能具有一定的相关性。•假设Pij(k)代表核苷酸j出现在核苷酸i之后第k个位置的频率,则可定义一个反应统计相关性的互信息I(k)•I(k)值得大小实际上反应了距离为k的两个核苷酸之间的相关性的程度41,2)(log)()(jijiijijppkpkpkI三联核苷酸——基因密码子•在进行编码区域识别时,常常需要对三联核苷酸进行统计分析,这实际上是分析密码子的使用偏性。–由于密码子的简并性(degeneracy),每个氨基酸至少对应1种密码子,最多有6种对应的密码子。–在基因中,同义密码子的使用并不是完全一致的。–不同物种、不同生物体的基因密码子使用存在着很大的差异•基因密码子的使用与基因编码的蛋白的结构和功能有关,与基因表达的生理功能有着密切的联系•蛋白的三级结构与密码子使用概率有密切的关系–通过对密码子的聚类分析,可以很清晰地将具有不同三级结构蛋白质的编码基因分成不同的类,而具有相似三级结构蛋白的编码基因则大致聚在同一类中,从而证明基因密码子的使用偏性与蛋白质三级结构具有密切的相关性。•在不同物种中,类型相同的基因具有相近的同义密码子使用偏性–对于同一类型的基因由物种引起的同义密码子使用偏性的差异较小针对酵母第一染色体的分析结果第3节功能位点分析•功能位点(functionalsite)–与特定功能相关的位点,是生物分子序列上的一个功能单元,或者是生物分子序列上一个较短的片段。•功能位点又称为功能序列(functionalsequence)、序列模式(motif)、信号(signal)等。•核酸序列中的功能位点包括转录因子结合位点、转录剪切位点、翻译起始位点等。•在蛋白质序列分析中,常使用序列模式这个名词,蛋白质的序列模式往往与蛋白质结构域或者作用部位有关。功能位点示意•基因组序列中若干个相邻的功能位点组合形成功能区域(functionalregion)。•功能位点分析的任务–发现功能位点特征–识别功能位点1、利用共有序列搜索功能位点•共有序列(consensus)又称一致性片段–共有序列是关于功能位点特征的描述,它描述了功能位点每个位置上核苷酸进化的保守性例如:NTATN•利用共有序列进行功能位点分析牵涉到两个方面的问题,–如何构造共有序列–如何利用共有序列在给定的核酸序列上搜索寻找功能位点,并计算所找到的功能位点的可靠性•共有序列具有以下几个方面的特征:(1)共有序列中既有保守的位置,也有可变的位置;(2)任何位置上的核苷酸可以用15种类型之一来表示:核苷酸表示符号符号含义说明GG腺嘌呤AA鸟嘌呤TT胸腺嘧啶CC胞嘧啶RGorA嘌呤YTorC嘧啶MAorC氨基KGorT羧基SGorC强氢键(3个氢键)WAorT弱氢键(2个氢键)HAorCorT非GBGorTorC非AVGorCorA非T(非U)DGorAorT非CNGorAorTorC任意碱基•共有序列构造过程:(1)初始化共有序列为一系列可变位置,以“N”代表;(2)在可变位置寻找出现次数最多的核苷酸,并将该位置转化为保守位置;(3)对当前所得到的共有序列进行特异性检查,若通过检查,转(5),否则转(4);(4)形成与当前共有序列一致的位点子集,转(2);(5)从原位点集合中删除与当前共有序列一致的位点,若还有剩余位点,则转(1),构造另外的共有序列。TTATGATATATACGCTTGTCTCCACTTATGATATATACGCTTGTCTCCACTNNNNtTATGtACGCtTGTCtCCACtTATGtACGCtTGTCtCCACTNNNC[1][2][3][4][2][3]NNNNNTNNNN非特异TNNNC非特异tACGctTGTctCCAc[4][2]tACGctTGTctCCAc[3]TNSNC特异[5]Consensus1:TNSNC剩余位点:TTATGATATA[5]Consensus2:NTATNTNNSC•在给定的序列中搜索与共有序列一致的序列片段•数据库搜索•共有序列表示方法的缺点:–是关于序列特征的一种定性描述,对于DNA序列,它能够说明序列每个位置可能出现的碱基类型,但是不能准确地说明各位置上不同类型碱基出现的可能性大小。2、用感知矩阵分析功能位点•用权系数描述功能位点各位置上每种核苷酸的相对重要性•感知矩阵(或加权矩阵)–根据一系列功能位点的多重对比排列结果而建立的–其大小为4n4代表碱基的种类数目,n代表功能位点的长度•矩阵的每一个元素M(a,j)的值代表第a种核苷酸在功能位点第j个位置上出现的得分,a{A,T,G,C}。123456A18227-319T26142-10G3110-50-19C5-916880感知矩阵示例•对于一个序列s=a1a2…an,根据对应位置上核苷酸的类型,取感知矩阵中对应的权值,加和以后得到该序列的得分•设S=ATTGCA,则Ws=1+6+14-5+8+19=43•T——功能位点阈值•T‘——非功能位点阈值–如果WsT,则S是功能位点;–如果WsT',则S是非功能位点。njjsjaMW1),(感知矩阵M的构造算法令A+代表功能位点集合A-代表非功能位点集合•过程如下:(1)初始化M为零矩阵;(2)执行过程(3)-(6)的循环;(3)逐步取训练集合中的每个实例Si,如果SiA+,转过程(4);如果SiA-,转过程(5);(4)如果W(Si)T,M不变,否则根据Si的核苷酸分布将M中所有对应元素的值加1;转(6);(5)如果W(Si)T‘,M不变,否则根据Si的核苷酸分布将M中所有对应元素的值减1;转(6);(6)若训练集合中的所有实例都处理过,则循环结束,转(7),否则继续执行循环体,直到处理完所有实例;(7)如果M稳定,则结束;否则转(2)。•上述算法反复调整感知矩阵M的元素值,直到M矩阵能够正确识别训练集中的所有功能位点和非功能位点。•对于最终得到的感知矩阵,要求其具有敏感性和特异性,每一列上的元素值应该尽可能地有明显的差别,以便反应功能位点各个位置上的特点。•与感知矩阵类似,如果令矩阵每一个元素M(a,j)的值代表第a种核苷酸在功能位点第j个位置上出现的概率,则M是一个概率矩阵。•假设各个位置上出现的碱基是相互独立的,即任何两个位置上的碱基是不相关的,那么对于给定一个序列s=a1a2…an,可以计算出功能位点序列为s的概率:njjnjaMsaaasP121),()|...(是功能位点•如果分别统计功能位点和非功能位点,通过计算可以形成两个矩阵M和M’,进一步计算可以判断一个给定的序列究竟属于功能位点,还是属于非功能位点。给定一个序列s=a1a2…an,定义似然比LR(M,M’,s):•在进行功能位点检测时,计算LR(M,M’,s),并与给定的阈值L比较,如果LR(M,M’,s)L,则序列s可能是一个功能位点。njjjnjjnjjnnjaMjaMjaMjaMsaaasPsaaasPsMMLR1112121),('),(),('),()|...()|...(),',(是非功能位点是功能位点•概率矩阵M和M’的每个元素是一个0和1之间的正数。•如果令一个4n新矩阵U的元素(a,j)的值为•log2(M(a,j)/M’(a,j))•则矩阵U的每个元素值可能是正值,也可
本文标题:chapter4DNA序列分析
链接地址:https://www.777doc.com/doc-3620859 .html