您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > ling_7_RNA二级结构_找基因.
§3.RNA二级结构预测背景:•以前人们认为,绝大部分的RNA分子要么是蛋白质基因表达的信使分子(mRNA),要么是协助完成基因表达的结构分子(tRNA和rRNA)。•但是,近几年来,人们发现了很多新的RNA分子,它们虽然也从基因组DNA中转录而来,它们不是tRNA和rRNA以及其他已知的RNA(如snRNA),又不表达为蛋白质,因此也不是mRNA。不管是原核生物还是真核生物,都存在这类RNA分子,原核的情况下称为smallRNA(sRNA),真核的情况下通常称为noncodingRNA(ncRNA)。•人们发现,这一类RNA分子起着非常重要的生物学功能,如影响发育过程、调节转录、影响染色体复制、对RNA进行加工和修饰、影响mRNA的稳定性进而影响翻译、甚至影响蛋白质的降解和转运,……,等等。•这一类RNA分子一般通过两种机制发挥功能:1.和目标分子形成碱基配对,如RNAi;2.形成空间结构,如核酶(ribozyme)。•现在,越来越多的科学家开展了对这类RNA的研究,《SCIENCE》杂志连续几年将之评为十大热门研究领域之一。•在这种形势下,对RNA结构的预测就显得格外重要。一条单链RNA可以折叠成非常多可能的二级结构,这种可能的数目随着序列的长度呈指数增长。一条200个碱基的RNA,就有1050种可能的结构,而一般说来,正确的只有一种。必须有一种评价函数(指标),使得正确结构对应的值最大(或最小)。§3.9.1RNA结构的特征和术语因为RNA是单链分子,在实际的生物体环境中它会折叠起来,形成很多的茎(stem)和环(loop)。绝大部分的茎环结构互相之间是“嵌套”关系(nested),即对于任意两对碱基对(i,j)和(m,n),要么imnj,要么mijn。§3.9.2碱基对数目最大化(Nussinov)方法文献:SIAMJournalofAppliedMathematics35:68-82,1978该方法认为,那种具有最大数目的碱基对的结构就是正确的结构。计算时采用动态规划的思想,是一种递归的过程:先定出一小段序列的最好二级结构,再用相同的法则将序列扩展,找到相应的最好二级结构;这种方法不断进行,直到全长序列。KeyIdea:要在更短序列的最好二级结构基础上获得序列i到j的最好二级结构,只有4种可能的途经:1.原有结构两端各延伸一个残基并将它们配对;2.向5’端延伸一个不配对的残基;3.向3’端延伸一个不配对的残基;4.将已存在最好二级结构的两段合并起来;具体算法:•将一段长度为L的RNA序列记为b1,b2,……,bi,……,bj,……bL并定义非互补碱基对时和当为互补碱基对时和当jijibbbbji01),(并记从bi到bj所构成的子序列所能形成的最大碱基对数目为(i,j)。第一步:初始化Let(i,i-1)=0,fori=2toL;(i,i)=0,fori=1toL;第二步:递归计算从所有的长度为2的子序列开始,一直到长度为L,按以下公式计算(i,j):)],1(),([max1111maxjkki)γ(i,j,j)γ(iδ(i,j)),jγ(iγ(i,j)jki以序列GGGAAAUCC为例子:a.初始化(i,i-1)=0,fori=2toL;(i,i)=0,fori=1toL;b.开始递归计算)],1(),([max1111maxjkki)γ(i,j,j)γ(iδ(i,j)),jγ(iγ(i,j)jkiC.继续递归过程d.完成递归计算(1,L)的值就是该序列所能形成碱基对的最大数目。从(1,L)开始,通过回溯过程,就可得到相应的二级结构。回溯算法从右上角(1,L)开始,放进堆栈。递归:反复运用以下规则,直到堆栈为空:取出堆栈上层位置,假设为(i,j),如果i=j,继续取堆栈;如果(i+1,j)=(i,j),放(i+1,j)入堆栈;如果(i,j-1)=(i,j),放(i,j-1)入堆栈;如果(i+1,j-1)+(i,j)=(i,j)记录(i,j)碱基对,放(i+1,j-1)入堆栈;{前三种情况不止一种成立时,须综合考虑}否则fork=i+1toj-1:{if(i,k)+(k+1,j)=(i,j)放(k+1,j)和(i,k)入堆栈并跳出循环;}选取不同的回溯路径得到不同的结构注意:回溯的线路经常不是唯一的,所以结构也是不唯一的,其中有些显然是不可能的。另外,这种方法无法考虑“假结”(pseudoknot)的情况。这种算法可以加以推广,比如让GC配对得3分,而AU配对得2分,这时候只需对(i,j)函数重新定义即可。§3.9.3自由能最小化(Zuker)方法简介文献:NucleicAcidsResearch9:133-148,1981MethodsinEnzymology180:262-288,1989•实际上,RNA折叠的真正动力是链内“相互作用”的而不是“数碱基对”。•Zuker方法是一种自由能最小化方法,它假设正确的结构应具有最低的自由能(G)。•Zuker方法中G被近似为来自loops,basepairs及其他二级结构元素的贡献之和。•对于一个stem,其贡献计算为碱基对的“堆积能”而不是简单的各碱基对贡献之和。例如,一个有n个碱基对的stem,其贡献是n-1个堆积能之和。详细规则参考:PNAS83:9373-9377,1986有了这些规则,运用类似于前面Nussinov方法中的动态规划算法(当然实际要复杂很多,但思想一样),就可获得可能为自由能最小化的二级结构。§3.9.4多序列alignment法的基本思路•一个生物分子,如果它主要依靠其结构发挥功能,则一般地其结构的保守性要高于其序列的保守性;•对于结构RNA中的stem,为了保证其结构不被破坏,就有了碱基“协同突变”的特点:根据这个特点,我们能很有把握地推测其二级结构。显然,位点对(2,9)提供了比其它位点对更多更可靠的二级结构信息。信息论中一种称为mutualinformation的指标恰好能定量计算这种信息,公式为:.;),,,(log,2列中出现的概率和第在第是观察到的碱基对列中出现的概率在第之一是观察到的碱基jixxfiGACUxfffffMjixxixxxxxxxxxijjiijijijijiMij的意义是:i,j两列的实际变化偏离“各自独立变化”的程度。例1:i…jU…AU…AU…AU…AMij=0例2:i…jU…AC…GA…UG…CMij=2例3i…jU…AU…AG…CG…CMij=1例4:i…jU…CU…AG…CG…AMij=0思考,如何将其和具体的生物学意义联系起来?基于一千多个tRNA的多序列alignment,可以画出右图上部的mutualinformation图。对照酵母tRNA-Phe的二级结构结构(右图下部),可以发现,上图中的4簇尖峰和下图中的4个臂完全吻合,甚至因在三级结构上靠近而产生的相关(虚线)也有所体现。到目前为止,这种基于多序列alignment的RNA二级结构预测方法是公认的最成功方法,但是需要很多条件。§3.9.5网上RNA二级结构预测软件Mfoldserver,网址:,网址:~ivo/RNA/其中的程序RNAfold用的就是自由能最小化(Zuker)方法;GeneBee服务器,网址:利用GeneBee服务器的一个示例稍等几分钟,即可看到结果:注意:•同一个序列用不同的预测程序可能得到不同的结果;•如果一条较短序列是一条较长序列的子序列,即使用同一个程序预测,短序列的结构可能和长序列的相应部分的结构不同;•同一个序列同一个程序,但条件参数不同,也会得到不同的预测结构。§3.10找基因§3.10.1在基因组DNA序列中寻找编码区基于编码区特征的方法基于数据库的方法注意两类假基因(pseudogenes)§3.10.2基因的电脑克隆§3.10.3几个常用软件服务器CTCGGGCCGTCTCTTGGGCTTGATCGGCCTTCTTGCGCATCTCACGCGCTCCTGCGGCGGCCTGTAGGGCAGGCTCATACCCCTGCCGAACCGCTTTTGTCAGCCGGTCGGCCACGGCTTCCGGCGTCTCAACGCGCTTTGAGATTCCCAGCTTTTCGGCCAATCCCTGCGGTGCATAGGCGCGTGGCTCGACCGCTTGCGGGCTGATGGTGACGTGGCCCACTGGTGGCCGCTCCAGGGCCTCGTAGAACGCCTGAATGCGCGTGTGACGTGCCTTGCTGCCCTCGATGCCCCGTTGCAGCCCTAGATCGGCCACAGCGGCCGCAAACGTGGTCTGGTCGCGGGTCATCTGCGCTTTGTTGCCGATGAACTCCTTGGCCGACAGCCTGCCGTCCTGCGTCAGCGGCACCACGAACGCGGTCATGTGCGGGCTGGTTTCGTCACGGTGGATGCTGGCCGTCACGATGCGATCCGCCCCGTACTTGTCCGCCAGCCACTTGTGCGCCTTCTCGAAGAACGCCGCCTGCTGTTCTTGGCTGGCCGACTTCCACCATTCCGGGCTGGCCGTCATGACGTACTCGACCGCCAACACAGCGTCCTTGCGCCGCTTCTCTGGCAGCAACTCGCGCAGTCGGCCCATCGCTTCATCGGTGCTGCTGGCCGCCCAGTGCTCGTTCTCTGGCGTCCTGCTGGCGTCAGCGTTGGGCGTCTCGCGCTCGCGGTAGGCGTGCTTGAGACTGGCCGCCACGTTGCCCATTTTCGCCAGCTTCTTGCATCGCATGATCGCGTATGCCGCCATGCCTGCCCCTCCCTTTTGGTGTCCAACCGGCTCGACGGGGGCAGCGCAAGGCGGTGCCTCCGGCGGGCCACTCAATGCTTGAGTATACTCACTAGACTTTGCTTCGCAAAGTCGTGACCGCCTACGGCGGCTGCGGCGCCCTACGGGCTTGCTCTCCGGGCTTCGCCCTGCGCGGTCGCTGCGCTCCCTTGCCAGCCCGTGGATATGTGGACGATGGCCGCGAGCGGCCACCGGCTGGCTCGCTTCGCTCGGCCCGTGGACAACCCTGCTGGACAAGCTGATGGACAGGCTGCGCCTGCCCACGAGCTTGACCACAGGGATTGCCCACCGGCTACCCAGCCTTCGACCACATACCCACCGGCTCCAACTGCGCGGCCTGCGGCCTTGCCCCATCAATTTTTTTAATTTTCTCTGGGGAAAAGCCTCCGGCCTGCGGCCTGCGCGCTTCGCTTGCCGGTTGGACACCAAGTGGAAGGCGGGTCAAGGCTCGCGCAGCGACCGCGCAGCGGCTTGGCCTTGACGCGCCTGGAACGACCCAAGCCTATGCGAGTGGGGGCAGTCGAAGGCGAAGCCCGCCCGCCTGCCCCCCGAGCCTCACGGC•••••••§3.10.1在基因组DNA序列中寻找编码区基于编码区特征的方法优点:不必依赖于数据库(不必学习和训练),普适性强。缺点:准确度低,特别是对于真核基因,由于其高度复杂性,预测的准确率更低。1.寻找长O
本文标题:ling_7_RNA二级结构_找基因.
链接地址:https://www.777doc.com/doc-2884598 .html