MEGA计算序列间遗传距离

序列间遗传距离的计算1.导入比对好的“*.meg”格式数据。2.数据划分（1）序列数据的基因和域（genes&domains）的指定和选择在MEGA中可对指定范围的序列位点进行分析。虽然经过比对和剪切后的序列通常都可全长用于分析，但对于蛋白质编码基因序列来说，序列的第一位并非总是密码子的第一位，此时要通过该设置指定密码子是从序列的第几位开始（要先通过Spin翻译确定），否则软件会将序列的第一位默认为密码子的第一位。具体的操作是：点击“Data→Setup/SelectGenes&Domains”（在主窗口和数据管理窗口均可进行此设置），在弹出的“Genes/DomainOrganization”小窗口中进行设置；“From”选项用于设置分析的起始位点，“To”用于设置分析的终止位点（设置完成后会在#Site项显示出选定范围内的位点总数），“CodonStart”用于设置密码子（开放阅读框）从序列的第几位碱基开始读起（如密码子从序列的第一位碱基开始读则设置为“1stsite”，依此类推），“Codi…”用于选择是否启动蛋白质翻译功能，该项未选时（如右图）MEGA将无法将蛋白质编码基因序列翻译成蛋白质序列，数据管理窗口中的按钮将呈灰色显示而失去功能。（2）分类单元的分组及选择MEGA可对数据集中指定的分类单元进行分析。为了使选择更加方便，通常可对数据的分类单元进行分组（groups），分组的具体操作是：点击“Data→Setup/SelectTaxa&Groups”（在主窗口和数据管理窗口均可进行此设置），在弹出来的“Setup/SelectTaxa&Groups”小窗口中根据分析需要对分类单元进行分组，选择需要分析的数据组，点击右下角的“Close”按钮关闭小窗口，即可对选定的组进行相关分析。（3）已分组数据的保存为了保存已经指定的数据分组，在关闭活动数据文件（activedatafile；在主窗口中用“File→CloseData……Alt+F5”关闭文件或直接关闭MEGA软件）前必须将数据输出另存，否则分组信息不会直接保存在原始序列文件中。注意，在保存数据时必须确认数据中的所有分类单元都被选定（即在“Setup/SelectTaxa&Groups”小窗口左边的“Taxa/Groups”框中选定“All”选项），否则输出的数据文件中将只能保存分析时选定的数据部分。3.成对序列遗传距离计算点击“Distance→ComputePairwiseF7”菜单命令，弹出分析选择（AnalasysPreference）窗口（也可称为参数设置窗口），可通过点击各选项右边的下拉菜单（pull-downmenu）完成设置。各种参数的设置方法如下：“Compute”参数设置：该设置有两个选项，选择“Distancesonly”时只计算遗传距离；选择“Distances&Std.Err.”时在计算遗传距离的同时还计算标准误差，此时会增加一项设置误差计算参数的选项，可以调节。一般选择“Distancesonly”即可。“Includesites”参数设置：该设置包括“Gaps/MissingData”和“CodonPositions”两项。“Gaps/MissingData”用来设置空位处理原则：若选“CompleteDeletion”则在计算遗传距离时凡有任一序列具空位的位点都不予计算；若选“ParwiseDeletion”则在计算两条序列的遗传距离时仅不计算两条序列中的任一条具空位的位点，对于两条序列都不具空位的位点，即使数据集中的其它序列存在空位，也不删除；一般情况下都选“ParwiseDeletion”。“CodonPositions”用来设置计算遗传距离时使用的密码子位点，可以根据需要选择使用密码子中的任意一位或几位或全部位点来计算遗传距离；通常可考虑用不同位点分别计算并进行对比。“SubstitutionModel”参数设置：该设置包括“Model”和“SubstitutionstoInclude”两项。“Model”选项用来选择计算遗传距离时使用的计算模型：点击“Model”选项右边的图标，在下拉菜单（pull-downmenu）“Nucleotide→[距离模型，如p-distance、Kimura2-parameter等]”中选择合适的计算遗传距离的模型（理论上应先用Modeltest检验各种模型，然后选择最适模型进行计算，但在通常情况下选择较简单的模型即可，如p-distance、K2P模型等；“Numberofdifferences”是一种根据序列间不同碱基的数量来计算遗传距离的模型，选用此模型时则“Gaps/MissingData”选项应设置为“CompleteDeletion”）。“SubstitutionstoInclude”用来选择计算遗传距离时使用的碱基替换信息：“d:Transitions+Transversions”表示同时利用转换和颠换值来计算遗传距离，“s:Transitionsonly”表示仅用转换值来计算遗传距离，“v:Transversionsonly”表示仅用颠换值来计算遗传距离，“R=s/v”表示用转换颠换比值来计算遗传距离（“L:No.ofValidCommonSites”表示用普通有效位点来计算遗传距离？）。所有参数设置完成后点击窗口右下方的即开始计算，结果将在新窗口中显示（该窗口最小化隐藏后可从主窗口上方的“Windows”菜单中恢复），将结果另存备用即可。*利用窗口上方的快捷图标（shortcuts）可选择显示格式和保存格式，如点击图标可使遗传距离值显示在左下方（lowerleft），点击图标可使使遗传距离值显示在右上方（upperright），利用图标可减少（decrease）或增加（increase）小数（decimal）的位数，点击图标将以文本格式输出计算结果，点击图标将以Excel格式输出计算结果。点击任何一个输出格式选择图标都会弹出遗传距离输出选择窗口（DistanceWrite-outOptions），点击的图标代表的格式为该窗口中的默认输出格式，若想改变输出格式，可点击该窗口中OutputFormat选项框右边的按钮，在下拉菜单中选择其它输出格式。4.序列总体平均遗传距离：点击“Distance→ComputeOverallMean”菜单命令，在弹出的分析选择（AnalasysPreference）窗口（也可称为参数设置窗口）中设置各种参数，点击窗口右下方的，保存计算结果备用。5.替换饱和性分析（重要）（1）计算序列的校正遗传距离：在进行“成对序列遗传距离计算”时将“SubstitutionModel”参数设置中的“Model”选项设置为Kimura2-parameter（也可根据需要选用其它模型，但后面的颠转换、颠换遗传距离计算也要选用同一模型），“SubstitutionstoInclude”选项设置为“d:Transitions+Transversions”，计算所得的遗传距离作为替换饱和性分析的校正距离，以“*.xls”格式保存备用（输出时MEGA会自动将对角矩阵转换成一列数据）。（2）计算序列的转换遗传距离：在进行“成对序列遗传距离计算”时将“SubstitutionModel”参数设置中的“Model”选项设置为Kimura2-parameter（一定要与计算校正距离时选用的模型相同），“SubstitutionstoInclude”选项设置为“s:Transitionsonly”，计算所得的遗传距离即为替换饱和性分析的转换距离，以“*.xls”格式保存备用。（3）计算序列的颠换遗传距离：在进行“成对序列遗传距离计算”时将“SubstitutionModel”参数设置中的“Model”选项设置为Kimura2-parameter（一定要与计算校正距离时选用的模型相同），“SubstitutionstoInclude”选项设置为“v:Transversionsonly”，计算所得的遗传距离即为替换饱和性分析的颠换距离，以“*.xls”格式保存备用。注意：以上分析可选择不同的模型进行比较，看结果是否有差异。（4）Excel作图，用直观坐标图显示替换饱和性状态。①导入数据：将上述三种遗传距离导入同一个Excel文件中，按相同的顺序排成三列，列与列之间不要留下空白列，每一列数据的标识符号（名称）放在该列的顶端（第一行），校正距离放在第一列（因为Excel作图时一般将第一列默认为横坐标）。②作图：选定三列数据，点击主菜单中的“插入→图表”，在弹出的“图表向导-图表类型”窗口中选择“标准类型”中的“XY散点图”（在进行其它数据分析时可根据需要选择其它图表类型，包括“自定义”类型），点击“下一步”；在“图表源数据”窗口中点击“下一步”；在“图表选项”窗口中设置需要在图表中显示的各种选项：在“标题”标签中可设置“图表标题”、“数值（X）轴（A）”标题、“数值（Y）轴（V）”标题，在“坐标轴”标签中可设置“显示/隐藏坐标轴上的数值”，在“网格线”标签中可设置“显示/隐藏网格线”，在“图例”标签中可设置“显示/隐藏图例”以及图例与图表的相对位置（包括“底部、右上角、靠上、靠右、靠左”等选项），在“数据标志”标签中可设置“数据标签”（该项设置只有在数据较少时为了方便识别数据才选用，一般情况下均不予选择），点击“下一步”；在“图表位置”窗口选择图表插入的具体位置，一般选择默认选项“作为其中的对象插入（O）”，点击完成，即会在Excel表中插入一个生成的图表；该图表可直接复制插入到Word文档中使用，也可在Photoshop软件中转换成独立的“*.jpg”文件保存备用，需要时再插入Word文档中。注意：该项分析也可在其它一些软件中进行。如DAMBE，但可供选用的模型在不同软件中有所不同；选择不同密码子的方法是：点击命令“Sequences→workoncodonposition1/2/3/1+2”,用“Sequences→Restoresequences”命令可恢复全序列进行分析；碱基替换饱和性分析的方法是：打开序列数据→点击命令“Graphics→transitionandtransversionversusdivergence”，在弹出来的小窗口中选择参数设置，点击“Go”按钮，分析结果将显示在一个新的“GraphTool”窗口中。图形文件的输出：在“GraphTool”窗口中点击“File→Savefileinmetafileformat”即可将分析结果保存为“*.WMF”格式的图形文件；若选择“File→Savefileinbitmapformat”，则保存为“*.bmp”格式的图形文件，文件较小，但分辨率较低，不能满足发表论文的需要。要编辑坐标轴则点击“Graphic→……”菜单进行选择。若要将分析结果以遗传距离的形式保存，则在“GraphTool”窗口中点击“Edit→CopydatatoEXCEL”，然后创建一个“*.xls”文档，将数据粘贴到新建的“*.xls”文档中即可。使用DAMBE进行碱基替换饱和性分析的优点是可以直接输出图形文件，对大型数据矩阵特别方便，缺点是以EXCEL格式输出遗传距离值时没有同时输出物种对名称；若要将遗传距离与物种对对应起来，需要使用其它命令或方法。DNA序列组成及变异分析*这些分析通常可以在MEGA软件中进行，也可以在其它相关软件中实现，如DAMBE等。用MEGA进行数据分析时，输入的数据必须是“*.meg”格式文件，否则不能识别，所以在分析数据前要先将其它格式文件转换成“*.meg”格式文件。MEGA可以将多种格式的序列文件（*.fasta、*.aln、*.nexus、*.phylip、*.phylip2、*.gcg、*.pir、*.nbrf、*.msf、*.ig和*.xml格式）转换成“*.meg”格式，不论其是否已经比对好。所以，用MEGA转换序列数据格式之前要先将序列比对好并删除引物序列。许多人通常喜欢将比对整理好的序列保

MEGA计算序列间遗传距离

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

Oracle电子商务套件

SAPBO和Cognos区别

医院数据仓库案例

通信行业-省会运维中心-工程配合标准流程

我国推行建设工程保证担保制的途径

【内部资料】XX年执业西药师-习题(7)

产业和市场发展研究

477HJCY新奥集团员工诊断报告

XXXX-XXXX年研究生教育地区竞争力排行榜

内环境与稳态重难点诠释

相关文档

相关搜索