您好,欢迎访问三七文档
生物信息学第六讲核酸序列的一般分析主要内容:一、基因组DNA简介二、序列格式转化三、DNA序列分析四、序列翻译、ORF查找五、限制性内切酶分析六、引物设计七、RNA二级结构分析一、基因组DNA简介•遗传信息存贮在4种字符组成的核酸序列中•“天书”——用遗传语言书写的人类遗传蓝本包含的信息量巨大更重要的是目前人类对它了解甚少天书中只有4个字符(碱基A、T、G、C)既没有段落,也没有标点符号是一个长度为3×109的一维序列。•科学家对这本天书了解最多的部分就是遗传密码或者说掌握了DNA对蛋白质编码的规律•关于密码子(1)密码子的使用是非随机的•如果密码子的第一、第二位碱基是A、U,那么第三位将尽可能使用G、C;反之亦然。•如果三位都用G、C,则配对容易,分解难;三位都用A、U,则相反。•一般地说,高表达的基因,要求翻译速度快,要求密码子和反密码子配对快、分开也快。(2)密码子的使用有一定的统计规律•对同义密码子的使用存在着偏爱不同种属偏爱的密码子不同人类基因组:密码子第三位取A、U的情况占90%而第三位取G、C仅占10%密码子的使用偏性与基因功能、蛋白质结构相关(3)密码子中的密码•三个碱基的位置与所编码的氨基酸性质存在着联系例如:•芳香族氨基酸——以U作为第一位碱基•中间位置碱基的性质与氨基酸是亲疏水性相关疏水氨基酸的密码子,其第二位碱基是U亲水氨基酸的密码子,其第二位碱基是A第二位碱基是G、C的密码子所编码的氨基酸亲水性、疏水性居中。人类基因组信息:•编码区域只占1%-3%•对于非编码序列,尚不清楚其含义或功能•非编码区域对于生命活动具有重要的意义包括内含子、简单重复序列、移动元件、伪基因重复序列:卫星(satellite)DNA小卫星(mini-satellite)DNA微卫星(micro-satellite)顺式调控元件:启动子、增强子、沉默子关于生物复杂性:生物的复杂性不仅仅是基因的数目人类基因约为30000个线虫有20000个基因230000/220000=210000≌103000基因组计划带来的希望:•实验数据的积累速度在迅速地增加•计算机科学和技术也在不断地发展单个基因组分析:基因序列基因功能基因的表达调控基因产物基因多态性比较基因组分析:物种关系物种进化物种起源二、序列格式转化各种软件为了自己的需要,通常对序列格式有一定的要求,给我们的使用带来了一定的困难。格式转换软件可以将不同格式数据转换以方便使用。很多综合性软件可以进行序列格式转换,如DNAstar,seqverter等。常见序列格式:(1)FASTA格式(又称Pearson格式)是比较简单而使用最多的序列格式。序列以号开头,其后是单行的关于序列的描述信息,最后是序列。例子:10KD_VIGUNP18646vignaunguiculata10kdaproteinprecursorMEKKSIAGLCFLFLVLFVAQEVVVQSEAKTCENLVDTYRGPCFTTGSCDDHCKNKEHLLS(2)Genbank格式(GenBankflatfile,GBFF)最广泛地用于表示生物序列的格式之一,也是DDBJ/EMBL/GenBank交换数据时采用的格式。例如:LOCUSAB094638_1146bpDNA13-APR-2006BASECOUNT38a17c43g48t0othersORIGIN1gttttaatgtgttgccttggttgagtggtgaagctggttagggtagcgtgtaaaacatgg61tgggtagattaatgctttgtgtcaccatgccgtttggttcgattaatgtaatcataagga121gagaccataagttatgaatacgcaga(3)EBML格式与GBFF格式的主要区别是:每行左端均有由两个大写字母组成的识别标志,是GenBank识别标志的缩写。另外,序列的序号在右侧。(4)GCG格式:是商业性的GCG软件包的专用格式。最新下载*下载后直接安装即可Seqverter三、DNA序列分析——基因序列——基因表达调控信息寻找基因涉及到两个方面的工作:–识别与基因相关的特殊序列信号–预测基因的编码区域结合两个方面的结果确定基因的位置和结构基因表达调控信息隐藏在基因的上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。1.DNA序列分析步骤•在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用。•存放这些信息的DNA片段称为功能位点–如启动子(Promoter)、基因终止序列(Terminatorsequence)、剪切位点(Splicesite)等。发现重复序列数据库搜索分析功能位点序列组成统计分析综合分析一个基本的DNA序列分析方案2.核苷酸关联分析•对于一个给定的基因组,最简单的计算就是统计DNA序列中各类核苷酸出现的频率•对于随机分布的DNA序列,每种核苷酸的出现是均匀分布的–出现频率各为0.25。•而真实基因组的核苷酸分布则是非均匀的核苷酸频率A0.3248693727808C0.1751306272192G0.1751306272192T0.3248693727808酵母基因组核苷酸出现频率•在统计过程中,如果同时计算DNA的正反两条链,则根据碱基配对原则,A和T、C和G的出现频率相同。•如果仅统计一条链,则虽然A和T、C和G的出现频率不同,但是非常接近。两联核苷酸频率:•不同基因组中两个连续核苷酸出现的频率也是不相同的•4种核苷酸可以组合成16种两联核苷酸酵母基因组两联核苷酸频率表对酵母基因组两联核苷酸的统计结果其中核苷酸对出现频率最高的达到0.119而出现频率最低的只有0.028三联核苷酸——基因密码子:•在进行编码区域识别时,常常需要对三联核苷酸进行统计分析,这实际上是分析密码子的使用偏性。–由于密码子的简并性(degeneracy),每个氨基酸至少对应1种密码子,最多有6种对应的密码子。–在基因中,同义密码子的使用并不是完全一致的。–不同物种、不同生物体的基因密码子使用存在着很大的差异•基因密码子的使用与基因编码的蛋白的结构和功能有关,与基因表达的生理功能有着密切的联系•蛋白的三级结构与密码子使用概率有密切的关系–通过对密码子的聚类分析,可以很清晰地将具有不同三级结构蛋白质的编码基因分成不同的类,而具有相似三级结构蛋白的编码基因则大致聚在同一类中,从而证明基因密码子的使用偏性与蛋白质三级结构具有密切的相关性。•在不同物种中,类型相同的基因具有相近的同义密码子使用偏性–对于同一类型的基因由物种引起的同义密码子使用偏性的差异较小3.功能位点分析•功能位点(functionalsite)–与特定功能相关的位点,是生物分子序列上的一个功能单元,或者是生物分子序列上一个较短的片段。•功能位点又称为功能序列(functionalsequence)、序列模式(motif)、信号(signal)等。•核酸序列中的功能位点包括转录因子结合位点、转录剪切位点、翻译起始位点等。•在蛋白质序列分析中,常使用序列模式这个名词,蛋白质的序列模式往往与蛋白质结构域或者作用部位有关。功能位点示意•基因组序列中若干个相邻的功能位点组合形成功能区域(functionalregion)。•功能位点分析的任务–发现功能位点特征–识别功能位点四、序列翻译、ORF查找对于一条新的核酸序列,除了对数据库进行类似性检索和同源性比较外,还有许多其他分析内容。例如:计算DNA的碱基组成、检索内部重复序列、检索DNA的特殊位点或信号、开放读框的查找、鉴定DNA的编码区和翻译基因序列等。基因编码区是指可以由核糖体翻译成蛋白质的序列,它的5’端有转录和翻译的起始位点,3’端有终止位点。基因的起始位点通常是ATG,终止位点为TAA、TAG、TGA。一个起始和终止密码子之间的序列称为一个开放阅读框(OpenReadingFrame,简称ORF),它是一个潜在的蛋白质编码区。•对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行阅读。•例如,序列ATTCGATCGCAA•这三种阅读顺序称为阅读框(readingframes)CAAAATTCGATCGATTCGATCGCAATCGATCGCA(1)(3)(2)AT基因可变剪切示意图geneA基因可变剪切示意图序列翻译、ORF查找1.Generunner功能:序列编辑与类似序列查找、建立自己的序列数据库进行查找、序列比较、序列翻译、蛋白序列分析等,还包括DNA分析常用到的一些功能,如碱基百分组成、分子量计算等。Generunner输入序列在EnterGIorACCESSION后面的框中输入公共序列的gi号或ACCESSION号在orsequenceinFASTAformat后面的框中输入完整的序列设置序列范围在FROM:TO:后面的框中输入进行ORF查找的序列范围Geneticcodes可以选择采用何种遗传编码按OrfFind按钮即可执行限制性内切酶是在许多细菌体内发现的能识别和切割外源DNA的核酸酶。细菌自身的DNA因其限制型内切酶的识别位点被相应的DNA甲基化酶所甲基化,而不被内切酶所水解。限制型内切酶的这种作用使之成为遗传工程实验的重要工具酶之一。五、限制性内切酶分析每一种限制性内切酶都有特定的DNA识别顺序,并且呈回文排列。确定DNA酶切位点是基因操作的必不可少的步骤,因此DNA序列分析软件包大多整合有检索酶切位点的程序。这些程序附带一个酶切位点的数据库文件,根据这个文件对序列作酶切位点的查找。RESTRICTIONANALYSISDNAssist1.02DFW2.21Generunner下载地址:限制性内切酶分析常用软件Dnastar1.序列格式转换2.限制性内切酶分析3.序列拼接下载网址:从原理来说,引物的设计和分析并不是DNA序列分析的一个基本方法,但是在分子生物学研究中常常需要用到。我们主要介绍针对PCR的引物设计。六、引物设计引物设计的标准有:引物的长度通常为20-30个碱基引物避免有发卡结构引物避免有彼此之间的互补配对两个引物之间避免有类似序列引物与核酸序列数据库的其他序列无明显类似引物5’端能加上合适的酶切位点引物组成均匀,避免含有相同碱基的多聚体,两个引物的G+C%含量近似可见,引物设计包含序列组成的计算、序列对DNA序列数据库的类似性检索、两个序列的比较、碱基互补配对和发卡结构分析以及酶切位点检索等基本的DNA序列分析过程。事实上,许多PCR引物设计程序会略过或简化上述的某些过程。PrimerPremier5.0下载安装执行安装程序即可*下载的为demo版,只能对它的示例序列进行操作在C盘下找到WIN.INI,将vspace=DU改为vspace=PU便可以使用全部功能。功能可以简单地通过手动拖动鼠标以扩增出相应片段所需的引物,而在手动的任何时候,下面显示各种参数的改变和可能的二聚体、异二聚体、发夹结构等。也可以给定条件,让软件自动搜索引物,并将引物分析结果显示出来。而且进行这些操作非常简单。PrimerPremier5.0其他引物设计软件:Primer3
本文标题:核酸序列的一般分析
链接地址:https://www.777doc.com/doc-6151627 .html