您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 实验3-两条序列比对与多序列比对
实验三:两条序列比对与多序列比对实验目的:学会使用MegAlign,ClustalX和MUSCLE进行两条序列和多条序列比对分析实验内容:双序列比对是使两条序列产生最高相似性得分的序列排列方式和空格插入方式。两条序列比对是生物信息学最基础的研究手段。第一次实验我们用dotplot方法直观地认识了两条序列比对。但是dotplot仅仅是展示了两条序列中所有可能的配对,并不是真正意义上的序列比对。这里介绍进行两条序列比对的软件-MegAlign。多序列比对是将多条序列同时比对,使尽可能多的相同(或相似)字符出现在同一列中。多序列比对的目标是发现多条序列的共性。如果说序列两两比对主要用于建立两条序列的同源关系,从而推测它们的结构和功能,那么,同时比对多条序列对于研究分子结构、功能及进化关系更为有用。多序列比对对于系统发育分析、蛋白质家族成员鉴定、蛋白质结构预测、保守模块的搜寻等具有非常重要的作用。我们这节课主要学习多条序列比对的软件-ClustalX,MUSCLE。一、MegAlignDNASTAR公司的Lasergene软件包是一个比较全面的生物信息学软件,它包含了7个模块。其中MegAlign可进行两条或多条序列比对分析。1.两条序列比对1.1安装程序解压DNASTARLasergene软件压缩包,双击Lasergene710WinInstall.exe文件,按照默认路径安装软件到自己电脑上。1.2载入序列a.点击开始-程序-Lasergene-MegAlign,打开软件。我们首先用演示序列(demosequence)学习软件的使用。演示序列所在位置:C:\Programfiles\DNASTAR\Lasergene\DemoMegalign\HistoneSequences\。b.点击主菜单File—Entersequence-选择序列所在文件夹,选择序列tethis21.seq和tethis22.seq,点击Add,这两条序列将出现在右侧selectedsequences框中(Figure3.1),选择完毕点击Done回到程序页面。Figure3.1载入序列此时程序窗口分为三部分,最左侧较窄的是sequencename,中间显示的是序列起始位置,最右侧显示序列末尾部分,可以通过拖动窗口底部滚动条,查看序列其它部分(Figure3.2)。若想改变字体显示方式,点击主菜单OPTIONS,选择Font改变字体,选择Size改变字号大小。若要移除序列,选中sequencename的序列名,右击,选clear。Figure3.2载入序列后(注意标注的绿色箭头,即为坐标位置)1.3设定序列比对位置MegAlign允许使用者选择序列的一部分进行比对分析,例如,可以根据GenBank格式的序列中Features部分关于编码区(CDS)位置的描述,设定只对此编码区进行分析。a.点击最左侧SequenceName框中的第一条序列tethis,然后选择主菜单OPTIONS-Setsequencelimits-fromfeaturetable。(Figure3.3)此时根据feature内容,出现四个可以选择的片段,第一个为全长,从序列起始到末尾(1-906),其它三个则只包括序列的一部分,选择最后一个HistoneH2B-1—CDS,点击ChangetheReset,点击OK,同样对第二条序列进行上述操作,回到主界面工作区,此时窗口中的序列起始和终止位置已经发生了变化。(Figure3.4)Figure3.3利用FeatureTable选择序列特定部分Figure3.4选择序列特定部分b.我们还可以通过设定序列坐标进行部分序列比对,首先选定序列,选择主菜单OPTIONS-Setsequencelimits-bycoordinates,输入起始和终止位置坐标来选择部分序列进行分析。注意:只有genbank格式的序列才可以Setsequencelimitsfromfeaturetable,fasta格式的序列因为没有feature那一项内容,只可以Setsequencelimitsbycoordinates。1.4进行两条序列比对如果输入两条序列后不设置序列起始和终止位置,默认是全长序列进行比对。按住Shift选择序列tethis21和tethis22,然后点击主菜单Align-Onepair,由于目前输入的是核酸序列,此时有两个选项,Wilbur-LipmanMethod和MartinerNWMethod。如果输入的是蛋白质序列,这两个选项将是灰色,只能用Lipman-PearsonMethod进行比对。Wilbur-LipmanMethod是一种以word为单位的(word-based)启发式局部比对方法;MartinerNWMethod是一种改进了的全局动态规划算法。Lipman-PearsonMethod是序列相似度搜索软件Fasta的比对算法,也是一种以word为单位的快速启发式算法。选择其中一个,出现比对参数设定窗口(Figure3.5),选择默认参数不做更改,直接点击OK即可。Figure3.5Wilbur-Lipman比对方法参数设定这时出现一个新窗口,即为比对结果。可以选择OPTION-size,放大字号观察比对结果。可以看到在窗口上部显示的是比对方法名称,所用参数,两条序列各自的起止位置,相似度值,比对结果中空位数目,长度和一致序列的长度。随后就是比对结果部分,其中第一行是第一条序列,它上面的v70是标尺,其中的“V”的位置对应的是第一条序列的第70个核苷酸所在位置;第三行是第二条序列,它下方的数字同样对应该序列位置坐标;中间那行是根据两条序列比对结果中匹配部分推断出来的一致序列(consensussequence),错配或空位显示为空白(Figure3.6)。Figure3.6Wilbur-Lipman方法比对结果设置比对结果显示方式:点击比对结果窗口最左侧的按钮,出现AlignmentViewOptions窗口,可以选择匹配,错配和一致序列的字符颜色和其它显示选项。推荐使用设置:选择match为红色,mismatch为绿色,consensus为蓝色,并选择showidentitiesasverticalbars(一致序列显示为竖线),则得到Figure3.7。还可以尝试选中或不选showheader,showruler,shownames,showcontest四个选项,看看显示结果有何变化。Figure3.7AlignmentViewOptionsTIP:MegAlign分析自己下载的序列时要注意序列扩展名如果是从NCBI直接下载的fasta格式文件,可以象上面一样,用entersequence直接将序列读入程序。但是如果序列文件是复制粘贴到txt文档中的,MegAlign程序是无法识别扩展名为txt的文件。此时可将每条序列文件(fasta或genbank格式皆可)扩展名改为MegAlign可以识别的类型(核酸序列为seq,蛋白质序列为pro),即可从File-Entersequence载入。更改文件扩展名的方法:找到你要更改扩展名的文件,将.txt改为.seq或.pro,此时会弹窗口,提示“如果改变文件扩展名,可能会导致文件不可用。确实要更改吗?”选择“是”,文件图标会变成MegAlign特定图标,说明修改成功。若扩展名自动隐藏,打开文件夹,点击窗口上的主菜单工具-文件夹选项,在打开的页面选择选项卡查看,去掉“隐藏已知文件类型的扩展名”前面的对勾,确定退出。然后再用上述方法更改扩展名。2.多序列比对2.1载入序列进行多条序列比对的演示序列(demosequence)在c:\programfiles\dnastar\lasergene\demomegalign\CalmodulinSequences\文件夹里。点击主菜单File-EnterSequence-根据路径到达CalmodulinSequences文件夹,点击AddAll,此时14条序列全都出现在右侧的selectedsequences框中,点击Done,回到主程序工作区。(Figure3.8)这是来自14个物种的钙调蛋白。Figure3.8载入14条序列2.2序列比对第一步,选择比对所用的打分矩阵。点击主菜单Align-SetresidueWeightTable,由于钙调蛋白比较保守,我们选择PAM100作为打分矩阵,点击OK结束设定(Figure3.9)。Figure3.9选择打分矩阵此时还可以通过点击Align-MethodParameters设定比对所用的其它参数。打开的新窗口中包含三个选项卡,JotunHein、ClustalV和ClustalW,对应程序中多条序列比对可用的三种算法。推荐大家不做修改,使用默认参数即可。第二步,比对。点击Align-byClustalVMethod,此时出现窗口显示比对进度,比对结束后,回到原来工作窗口,显示比对结果。注意序列上方彩色条块,颜色代表对应列中相似程度,相似度由低到高,依次以深蓝、浅蓝、绿、黄、桔、红几种颜色代表。(Figure3.10)Figure3.10比对后结果2.3查看比对结果此时可以通过几种方式观察比对结果。a.点击View-SequenceDistances出现新窗口,显示两两序列percentidentity(上半部分)和divergence(下半部分)。Figure3.11比对结果-一致度(identity)b.点击View-ResidueSubstitutions出现新窗口,显示比对中所有替换的类型和数目。Figure3.12比对结果-替换情况c.点击View-PhylogeneticTree出现新窗口,显示根据14条序列比对结果构建出的进化树。Figure3.13比对结果-进化树d.点击View-AlignmentReports出现新窗口,显示比对结果报告。点击OPTIONS-Alignmentreportcontents,选中showconsensusstrength,其它不变,点击OK。在序列上方出现条块,显示每一列序列的相似程度。Figure3.14选择showconsensusstrength显示结果设置比对结果显示方式:突出显示匹配或错配的氨基酸。点击OPTIONS-NewDecorations,在alignmentdecorationname框里输入shadedisagreements(自己定义名字),选择decorationparameters为shade—residuesdifferingfrom—theconsensus,此时下方出现新的选项,选择对选定字符突出显示的颜色,选择完毕,点击OK,则与majority序列不同的字符将突出显示。(Figure3.15)Figure3.15修改alignmentreport显示模式二、Clustalx是一种利用渐近法(progressivealignment)进行多条序列比对的软件。即从多条序列中最相似(距离最近)的两条序列开始比对,按照各个序列在进化树上的位置,由近及远的将其它序列依次加入到最终的比对结果。(Figure3.16)Figure3.16clustal算法Clustal软件有两个版本,其中clustalw采用命令行的形式在DOS下运行的。Clustalx是可视化界面的程序,我们今天学习Clustalx的使用。2.1安装clustalx下载clustalx软件,按照默认安装到自己的电脑上。2.2准备要比对的序列将上节课搜索到的同源核酸fasta文件,全部粘贴到一个文本文件中,所有的蛋白质序列存入另一个文本文件。注意序列的登录号最好是以NM、NP、NR开头,不要使用NC、NT或NW开头的序列,因为全基因组序列太长,分析起来速度非常慢。TIP:可以在fasta序列“”之后加上物种名称,加空位,方便看树时了解进化关系。2.3载入序列点击开始-程序-c
本文标题:实验3-两条序列比对与多序列比对
链接地址:https://www.777doc.com/doc-4078836 .html