您好,欢迎访问三七文档
MEGA3指南一、前言MEGA系列软件用于检验和分析DNA、蛋白质序列的演化。MEGA1是基于20世纪90年代早期个人计算机平均水平设计的,在DOS操作系统下运行。90年代晚期开发的MEGA2加强了运算能力和图形界面,满足了日益增长的大数据量分析的要求;MEGA2的最终版本能对多个序列数据进行分析、对类群内和类群间的遗传多样性进行估计,还可以推断高等级水平的物种、基因的演化关系。MEGA2内嵌了很多用于估计演化距离、计算类群内和类群间分子序列和遗传多样性、以及最小演化和最大简约标准下推断系统发育关系的方法。此外,MEGA2内还可以对系统发育关系进行自展和可靠性置信概率(confidenceprobability)检验、以及确定世系间替代模式异质性分散指数(disparityindex)。MEGA3强调了序列获得和演化分析的整合;该软件允许多种格式数据输入,用户可以在多个窗口检视结果,进行序列数据的操作和编辑、系列比对和系统发育关系树推断,并进行演化距离估计。结果输出窗口(resultsexplorers)允许使用者进行浏览、编辑、总结和输出结果。MEGA3还包括距离矩阵、系统发育关系展示窗口(explorers),以及一些用于直观呈现输入数据和输出结果的高级图形模块。MEGA3旨在降低日常数据分析时间,并提供一种便利的分子演化分析平台。在MEGA3的开发过程中,我们尽力保持以前版本中的界面风格;额外的功能和显示窗口在用户要求时才启动。此外,数据子集和输出结果均保存在相应的文件中,在用户要求下显示。二、MEGA3的新特性与MEGA2相比,MEGA3除具有全序列编辑和比对功能外还具有下列特点:—对序列进行手动编辑和比对—DNA编码序列或其翻译的氨基酸序列形式进行直观的编辑—内嵌了稳定的、可进行多序列比对的CLUSTAL软件—基于手动或者是CLUSTAL比对(Alignment)对数据进行进一步划分此外,还具有—整合了内嵌的基因序列数据库浏览器(explorer),可以由网络资源获得数据—整合了可对数据进行检索(retrieval)的NCBIBLAST工具—比对中序列数量无限制—固定当前比对进程,以进行进一步工作—系统树浏览器可以读写NEWICK格式数据文件这些特点在软件上体现为:MEGA3的“SequenceAlignmentConstruction”功能中的所有项目(包括AlignmentEditor、MultipleSequenceAlignment、Sequencer(Trace)Fileeditor/viewer和IntegratedWebBrowserandSequenceFetching)均为前两个版本所不具有。其它新功能还包括:“DataHandling”功能下的“CenterAnalysisPreferencesDialog”项目;“DistanceEstimationMethods”功能下的“LogDet(Tamura-Kuma)”核苷替代模型、“Relaxationofthehomogeneityassumption”和“Proteindistance”项目下的“DayhoffandJTTdistances”、“Relaxationofthehomogeneityassumption”;“TreeExplorers”功能下的“SavetoNewickformat”、“ReadtreesfromNewickformat”和“Displayimagesontreeforgroupsandtaxa”。-1-2005-9-246:58:00三、MEGA3中的主要菜单MEGA主界面中含有MenuBar、Toolbar和DataDescriptionwindow,菜单栏里存在下列菜单、Filemenu、Datamenu、Distancesmenu、Patternmenu、Selectionmenu、Phylogenymenu、Alignmentmenu、Helpmenu。四、输入数据的类型和格式MEGA3支持多种类型的数据输入,数据大小决定于用户的计算机性能。1.输入数据格式对话框当MEGA3无法识别输入数据的格式时,就会出现一个输入数据格式对话框。数据类型:是指MEGA3可以进行分析的数据类型。点击该按钮可以指示当前数据的类型。根据所选数据类型,使用者还需要提供如下信息:对于序列数据:缺失数据——在数据文件中用问号(?)指示数据缺失。比对中产生的缺口(AlignmentGap)——通常用破折号(-)表示。一致性标记——与第一条序列相同的数据通常用点号(.)表示。对配对距离数据(PairwiseDistanceData)而言:缺失数据——表示同上。矩阵格式——可选择左下或者是右上矩阵。注意:为了避免在每次读取数据时都出现这种对话,使用者可以将数据以MEGA格式保存。2.MEGA格式MEGA格式中,DNA、蛋白质序列、演化距离和系统发育树等数据均是以基本的ASCII文本形式记录的。大多数的字处理程序包(如MicrosoftWord、WordPerfect、Notepad、WordPad)都可以进行ASCII文本编辑和保存,文件扩展名为.TXT。文件建立后,用户可以将扩展名改为.MEG。分子序列、距离和系统发育树的MEGA表示形式各有特点,但是它们同样具有很多共同点。共同点:数据文件的首行为#MEGA,标明数据的格式。第二行为数据的检阅描述(称为标题)。标题的书写依特定格式进行,并被复制到每一份输出结果中。在标题行之后,数据文件还可以具有多行依特定格式书写的描述;描述不会被复制到每个输出文件。此外,数据文件中还可以包含数据类型、数据属性等相关信息的格式描述。该项描述通常位于前两项描述之后,书写时要求用户了解不同数据类型和不同数据属性的关键词。数据中的类群名依一定格式书写。注释可以书写在数据文件的任何地方,并可以占据多行。注释内容须书写在方括号内,方括号可以套嵌。类群书写规则:类群名称须占据独立的行,前面必须有‘#’号标记,全部长度不得超过40个字符。‘#’号标记后的第一个字符必须是文字数字式字符(alphanumericcharacter)(即,英文字母和阿拉伯数字)或特殊符号:破折号(-)、加号(+)和点号(.);下划线(_)、星号(*)、冒号(:)圆括号()、直线(|)、正斜线(/)和反斜线(\)可以出现在其它位置。下划线以空格形式出现;如E._coli将呈现为E.coli。标题书写格式:标题必须书写于#mega后一行,并以!Title开始,以冒号(;)结尾。如:#mega-2-2005-9-246:58:00!TitleThisisanexampletitle;标题不可以占据多行,且中间不能出现冒号。描述书写的规则:描述书写于标题行之后,必须以!Description开始,以冒号结尾。如:#mega!TitleThisisanexampletitle;!DescriptionThisisdetailedinformationthedatafile;描述可以占据多行,但是中间同样不能出现冒号。格式书写规则:格式描述可以包含一个或多个命令语句;一个命令语句包含一个命令和一个有效的设定关键词(采用“命令=关键词”形式)。譬如,命令语句“DataType=Nucleotide”告诉MEGA文件中是核苷序列数据。依据数据类型的设定,序列数据、距离数据和系统树数据格式描述中通常有不同的游戏关键词。序列数据序列数据须经过比对,且具有相同的长度;数据中采用IUPAC字母编码,并须使用规定的特殊字符。用命令语句定义基因和域:可以通过“Setup/SelectGenes/Domain”按钮或者“Define/Edit/Select”和“SiteLabels”按钮来实现,用到的命令有:“!Gene=FirstGeneDomain=Exon1Property=Coding;”命令语句关键词:略标记单个位点:我们可以利用“SetupGenesandDomains”对话框对输入的数据进行特异位点标记,来建立不连续位点集合。每个位点只能有一种标记,标记可以是字母或数字。对特定密码子进行分析时,相应密码子的三个位置需要用相同标记。经过特异位点标记后,我们可以对调控元件序列、内含子剪切位点及抗原识别位点等进行分析。群体类群定义MEGA可以将序列和距离数据文件中不同类群定义到一个群内。在该操作中共同的群名称置于大括号内,紧贴类群名或以下划线隔开。该操作也可以用“Setup/SelectTaxa&GroupsDialog”来实现。距离数据的输入距离数据格式:对于含有m个类群或序列的集合而言,共有m(m-1)/2个配对矩阵;这些矩阵可以左下或右上方式排列。在#mega、!Title、!Description和!Format等命令之后,需要书写类群名称,之后是距离矩阵,如:#one#two#three#four#five…距离数据关键词:略系统树数据未登录,见网站手册。3.其它形式数据的输入用户可以“File|ConverttoMEGAFormat”或“Utilities|ConverttoMegaFormat”按钮对文件的格式进行转换;MEGA3可以对CLUSTAL、NEXUS(PAUP、MacClade)、PHYLIP、GCG、FASTA、PIR、NBRF、MSF、IG和XML等格式的文件进行转换。-3-2005-9-246:58:00五、遗传密码表MEGA3中内嵌有标准遗传密码表、脊椎动物线粒体遗传密码表、果蝇线粒体遗传密码表和酵母线粒体遗传密码表。用户可以选“Data|SelectGeneticCodeTable”按钮来选择或编辑已有的内嵌遗传密码表,还可以添加新的遗传密码表。此外,用户还可以对选定的密码子进行一些简单的统计;包括密码子简并性,以及用NeiandGojobori(1986)方法对密码子同义位点和非同义位点进行计算。新密码子表的建立用“CodeTableEditor”按钮来实现。六、建立序列比对用户可以用“Alignment|OpenSavedAlignmentSession”按钮来打开已保存过的比对进程(文件扩展名为.MAS)。1.比对浏览器比对浏览器:用户可以用比对浏览器进行:(1)检视比对并进行人工编辑,(2)使用内嵌的CLUSTALW进行序列比对。此外,用户还可以利用该浏览器进行网络数据库(如NCBI和BLAST数据库)搜索,检索并将目的序列添加到当前比对中。2.比对的编辑和检视比对浏览器中有Data、Edit、Search、Alignment、Web、Sequencer、Display和Help等主要菜单;此外,通过Toolbars可以直接接触到多种比对功能。氨基酸序列数据在比对浏览器中仅以一种形式出现,DNA序列数据可以分别以序列形式和翻译后的蛋白形式在两个窗口中展现;“*”表示位点出字符一致。用“Alignment|AlignmentExplorer”按钮,用户可以在MEGA环境下打开AlignmentExplorer,进行DNA、蛋白质序列的比对、以及网络数据库浏览。用户可以通过“Alignment|View/EditSequencerFiles”对ABI(*.abiand.ab1)和Staden(.scf)格式的序列数据进行检视和编辑。“Utilities|ConverttoMegaFormat”按钮下提供了四个子菜单:MergeMultipleLines:将分散的数行在一行中显示RemoveSpaces/Digits:将遗传序列中的空格和数字移除InsertSpacesEvery3:将选定的文本以每三个字符形式隔开(e.g.,codons),但是并不清除已有的空格。InsertSpacesEvery10:将选定的文本以每10个字符形式隔开。用“Utilities|ReverseComplement”可以将选定模块的字符顺序颠倒,并对核苷进行互补替代。“Utilities|CopyScreenshotto
本文标题:MEGA3 指南
链接地址:https://www.777doc.com/doc-4309335 .html