您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > chap5-DNA序列分析
2020/2/13生物信息学数据挖掘1第五章核酸序列分析2020/2/13生物信息学数据挖掘2纲要第一节核酸序列分析基础第二节核酸序列的遗传性质分析第三节核酸序列的物理性质分析2020/2/13生物信息学数据挖掘3基因的结构基因的表达与调控功能位点(functionalsite)第一节核酸序列分析基础2020/2/13生物信息学数据挖掘4ATGInitiationcodonTAA,TGA,orTAGStopcodonGTAGAGGTTranscriptionStartsite5’UTR3’UTRIntronsTATABoxAATAAAPoly(A)signalPoly(A)tailCCAATBoxEnhancerTranscriptionEXONEXONEXON1.基因的结构2020/2/13生物信息学数据挖掘52.基因的表达与调控2020/2/13生物信息学数据挖掘63.功能位点(functionalsite)定义:与特定功能相关的位点。生物分子序列上的一个功能单元,或短片段。核酸序列的功能位点转录因子结合位点转录剪切位点翻译起始位点等蛋白质序列的功能位点常称为序列模体(Motif)序列模式蛋白质结构域作用部位2020/2/13生物信息学数据挖掘7功能位点示意基因组序列中的相邻功能位点组合形成功能区域(functionalregion)2020/2/13生物信息学数据挖掘8第二节核酸序列的遗传分析1.分析步骤2.注意事项3.污染的剔除4.识别和遮蔽重复序列5.开放阅读框的识别6.CpG岛的识别7.基因功能区的预测8.DNA序列分析存在的问题2020/2/13生物信息学数据挖掘9识别序列中的非编码区序列中载体污染的剔除重复元件的发现CpG岛启动子位点Poly-A位点核基质缔合区(Matrixassociationregion,MAR)转录因子结合位点1.分析步骤2020/2/13生物信息学数据挖掘10识别与鉴定序列中的基因序列的编码区(外显子)构建基因的外显子模型数据库相似性搜索与模式生物基因组的同源区比对2020/2/13生物信息学数据挖掘112.注意事项对真核生物序列,首先遮蔽重复序列程序的特定生物物种适用性程序的序列特定性(DNA或cDNA)序列的长度多方面的证据与验证2020/2/13生物信息学数据挖掘123.污染的剔除序列污染的来源载体序列接头和引物序列转座子和插入序列DNA和RNA样品污染序列污染的后果导致无意义的分析对序列的生物显著性作出错误的判断导致错误的叠连群拼接和ESTs分群导致数据库的污染2020/2/13生物信息学数据挖掘13序列污染的发现对载体数据库进行相似性搜索搜索序列中的限制性内切酶位点对其它数据库进行搜索,如宿主序列数据库等序列污染的剔除NCBI的VecScreenEMBL的Blast2EVEC识别出其边界,去除2020/2/13生物信息学数据挖掘142020/2/13生物信息学数据挖掘152020/2/13生物信息学数据挖掘164.识别和遮蔽重复序列重复序列存在的广泛性人类基因组约30%,蟾蜍达70%重复序列对序列分析的影响序列分析严重失误错误的功能注释重复序列的特点多为RNA聚合酶Ⅱ转录的部分区域几乎不会覆盖启动子或外显子编码区2020/2/13生物信息学数据挖掘17按照序列重复情况分类非重复序列轻度重复序列中度重复序列高度重复序列重复元件SINE、ALU、MIR、LINELTR、MALR、ERVL散在重复元件、小RNA、卫星DNA、简单重复序列低复杂度序列2020/2/13生物信息学数据挖掘18重复序列分析常用的程序RepeatMasker()主要针对灵长类和啮齿类动物、拟南芥、草本植物、果蝇等,也适用于其它哺乳和脊椎动物Censor()适用于任何物种重复序列分析应注意的问题重复序列数据库的完整性不同方法分析比较2020/2/13生物信息学数据挖掘192020/2/13生物信息学数据挖掘202020/2/13生物信息学数据挖掘21RepeatMasker分析结果2020/2/13生物信息学数据挖掘222020/2/13生物信息学数据挖掘232020/2/13生物信息学数据挖掘24Censor分析结果2020/2/13生物信息学数据挖掘25Censor分析结果2020/2/13生物信息学数据挖掘26一段核酸序列(单链DNA或mRNA),如果可能编码多肽或蛋白质,从它的5’端的翻译起始子后开始,以三联密码子方式编码氨基酸,到终止子结束。一个起始子和终止子之间的序列称为一个开放阅读框(openreadingframe,ORF)。由于起始子位置较难确定,通常就以DNA序列来推测开放阅读框的存在。一个双链DNA分子有6种读框。序列ATTCGATCGCAA可能的六种读码框为ATTCGATCGCAAATTCGATCGCAAATTCGATCGCAATTGCGATCGAATTTGCGATCGAATTTGCGATCGAAT5.开放阅读框的识别互补链2020/2/13生物信息学数据挖掘27一个ORF就是一个潜在的蛋白质编码区原核基因,一个编码区就是一个单独的ORF真核基因的编码区域是非连续的非编码区(内含子)不连续的编码片段(外显子),必须正确识别出内含子和外显子的边界,如果使用的是cDNA,问题就简化了一个DNA序列可能有多个ORF,其中只有少数是真正的编码区一段连续较长的ORF可能是编码序列一些短的ORF也可能编码具有生物功能短肽分析一个ORF是否编码,要结合序列本身和其它分析方法,才能做出正确的结论。2020/2/13生物信息学数据挖掘282020/2/13生物信息学数据挖掘292020/2/13生物信息学数据挖掘30ORF(OpenReadingFrame)Finder2020/2/13生物信息学数据挖掘316.CpG岛的识别CpG岛也称为HTF岛,是一些富含GC的小区域。通常管家基因或频繁表达基因的启动子周围(通常在5’UTR)都含有非甲基化的CpG岛。80%的人类基因转录起始位点前存在CpG岛,而在基因组其他地方缺乏这种序列。查找序列中CpG岛的软件CpGplot()CpGislandsrevealing()2020/2/13生物信息学数据挖掘322020/2/13生物信息学数据挖掘332020/2/13生物信息学数据挖掘34CpG岛分析结果2020/2/13生物信息学数据挖掘357.基因功能区的预测信号搜索(检索与功能区有关的信号)启动子元件转录终止信号外显子剪切位点起始和终止密码子5’端外显子在核心启动子的下游3’端外显子的下游包含多聚A信号和终止信号内容搜索(序列的统计分析)检查终止密码子的出现频率2020/2/13生物信息学数据挖掘367.1启动子与转录因子结合位点识别启动子转录因子结合位点核心启动序列上下游相关的调控元件启动子识别的算法计算已知启动子序列和非启动子序列各自含有的转录结合位点的密度,然后形成每种结合位点在启动子序列上的密度比,组合每个单独的密度比值形成打分矩阵分析启动子区、非启动子区、编码区序列的核苷酸频率2020/2/13生物信息学数据挖掘37TATABoxLocatedonpromoter,~25bpupstreamoftranscriptionalstartsiteAdaptedfrom~marchesi/genes.html#eukNotallpromotershaveaTATAbox1ststep:TATA-bindingprotein(TBP)bindsTATAbox2020/2/13生物信息学数据挖掘38TATAboxTranscriptionTranscriptionalstartsiteDNACoding-strandsequences:TATAAAAGC+CAATboxes–100–50–25+1Py2CAPy5PromotersTATAbox:ManyeukaryoticpromoterscontainasequencecalledtheTATAboxaround25-35bpupstreamfromthestartsiteoftranscription.Ithasthe7bpconsensussequence5’-TATA(A/T)A(A/T)-3’althoughitisnowknownthattheproteinwhichbindstotheTATAbox,TBP,bindstoan8bpsequencethatincludesanadditionaldownstreambasepair,whoseidentityisnotimportant.Initiatorelement:Theinitiatorelementislocatedaroundthetranscriptionstartsite.ManyinitiatorelementshaveaCat-1andAat+1.2020/2/13生物信息学数据挖掘39启动子区预测工具TRESNeuralNetworkPromoterPredictionDragonPromoterFinderTfsitescanSIGNALSCANCore-PromoterPredictionProgramPromoter2.0PredictionServerTFSEARCH2020/2/13生物信息学数据挖掘402020/2/13生物信息学数据挖掘412020/2/13生物信息学数据挖掘422020/2/13生物信息学数据挖掘43NeuralNetworkPromoterPrediction结果2020/2/13生物信息学数据挖掘442020/2/13生物信息学数据挖掘452020/2/13生物信息学数据挖掘462020/2/13生物信息学数据挖掘47进一步分析转录起始位点上下游序列转录起始位点的预测结果2020/2/13生物信息学数据挖掘48EPD:真核启动子数据库,寻找直系同源启动子转录因子结合位点分析启动子模型分析起始密码子扫描2020/2/13生物信息学数据挖掘492020/2/13生物信息学数据挖掘502020/2/13生物信息学数据挖掘512020/2/13生物信息学数据挖掘522020/2/13生物信息学数据挖掘53生物信息学数据挖掘542020/2/13生物信息学数据挖掘552020/2/13生物信息学数据挖掘56TFSearch生物信息学数据挖掘577.2其它顺式作用元件的预测除启动子外,基因转录还受其它作用元件调控操纵子和终止子顺式作用元件含有保守的特征序列Cister:Cis-elementClusterFinder(~mfrith/cister.shtml)2020/2/13生物信息学数据挖掘582020/2/13生物信息学数据挖掘59SV40Virus基因组预测顺式作用元件TATASptEtsLSF2020/2/13生物信息学数据挖掘607.3剪接位点预测RNA转录时,整个基因均转录,然后切掉内含子,外
本文标题:chap5-DNA序列分析
链接地址:https://www.777doc.com/doc-3714750 .html