6-正选择基因

基因正选择分析1.两两基因的密码子序列进行比较，从而计算dN/dS，即omega（ω）值。若该值1，则表示纯化选择；omega=1，则中性进化；omega1，则正选择。若分析基因在两个物种中的序列，可以计算dN/dS的值，若omega1，即表明该基因在物种进化过程中，即由其祖先物种分化成这两个物种时，基因受到了正选择。对于两个物种/序列的正选择分析，比较简单。而实际情况中，要分析的物种数量很多，包含多个类群。这个时候的正选择分析相对复杂些。一、正选择分析的目的2.对多个物种的基因序列进行正选择分析，若仍然按照两个物种时的要求，即分析该基因在物种进化中是否受到了正选择？这种结果可能不好说清楚。因为该基因可能在某一类群中序列很相似，其两两比较时，omega=1；而在另外一类群中两两比较时，很多时候omega1。最后软件可以从总体上给一个omega值，该值不可以拿来简单地评价该基因是否受到了正选择。所以，对多个物种进行正选择分析时，没法直接评价该基因是否受到了正选择。正选择只有在进行两两序列比较的时候，才能计算omega值，从而得到结果。一、正选择分析的目的3.对基因在多个物种上的正选择分析，分析的目的则是：比较某个分枝上祖先节点和后裔节点（可以理解成，对无根树上某分枝两侧的两组物种进行比较，依然属于两两比较），从而计算该分枝的omega值。而在实际数据中，基因在不同的进化分枝上具有不同的omega值，同时在序列不同的位点也具有不同的omega值。目标分枝两侧的物种数量较多时，可以对序列上的每个位点进行omega值分析，从而鉴定正选择位点。所以，对基因在多个物种上的正选择分析，需要同时分析分析目标分枝的omega值和序列位点的omega值，从而判断基因是否受到正选择压。一、正选择分析的目的二、使用PAM对基因进行正选择分析1.PAMLsitemodel:主要用于检测基因中的正选择位点。该方法分析时，认为进化树中各分枝的omega值是一致的，并比较两种模型：(1)模型m1是nullmodel，认为所有位点的omega值1或=1;(2)模型m2是正选择模型，存在omega1、=1或1的位点。比较两个模型的似然值（lnL）差异，利用卡方检验（自由度为2）算出p值。若p值0.05，则否定nullmodel，认为存在正选择位点。此外，推荐采用比较模型m7和m8，它们将omega值分成了10类，其p值结果比上一种比较方法更宽松，能检测到更多的正选择基因。使用PAMLsitemodel方法能在整体水平上检测基因的正选择位点，而不能表明基因在某个进化分枝上是否受到正选择压。2.PAMLbranch-sitemodel:主要用于检测基因在某个进化枝上是否存在的正选择位点。该分析方法认为目标分化枝具有一个omega值，其它所有分枝具有一个相同的omega值，然后再检测正选择位点。同样对两种模型进行比较：（1）第一种模型为模型2，将omega值分成1、=1、1的三类，这和sitemodel中的一样；（2）第二种模型和前者一致，只是将omega固定成1，作为nullmodel。比较两种模型的似然差异，利用卡方检验（自由度为2）算p值（chi2命令算出的值除以2）。若p值0.05，则能通过BayesEmpiricalBayes(BEB)方法计算正选择位点的后验概率，若存在概率值0.95正选择位点，则表示基因在目标分枝上受到正选择压。PAML软件在branch-site模式下，并不给出分枝上的omega值。这表示branch-site模式虽然考虑了目标分枝上具有不同的omega值，但仍然以分析位点上的omega为主。值得注意的是，在branch-site模式下可能检测到正选择位点，但在目标分枝上的omega值仍然可能低于1。可能软件作者基于这点考虑，就没有给出目标分枝上的omega值，以免影响一些人对正选择结果的判断。二、使用PAM对基因进行正选择分析二、使用PAM对基因进行正选择分析3.PAMLbranchmodel:主要用于检测在某个分枝上，其omega值是否显著高于背景分枝，即基因在目标分枝上进化速度加快。该方法认为基因序列上所有位点的omega值是一致的，对两种模型进行比较：（1）第一种模型为nullmodel，所有分枝具有相同的omega值；（2）第二种模型认为目标分枝具有一个omega值，其它所有分枝具有一个相同的omega值。比较两种模型的似然差异，利用卡方检验（自由度为1）算p值。若p值=0.05，且目标分枝上的omega值高于背景值，则认为该基因为快速进化基因。一般情况下，该方法计算得到的p值会低于第二种方法的结果。其它注意事项Branch-sitemodel相比于sitemodel的优点是考虑了不同的分枝具有不同的选择压，即具有不同的omega值。该方法让目标分枝具有一个不同的omega值，并没有让所有分枝的omega值独立进行计算（理论上这样是最好的）。这样算法很复杂，程序运行非常非常消耗时间。但其实也没必要这样做，因为正选择分析其实是两条序列比较后，分析dN/dS，再找正选择位点，其分析结果就应该是某个分枝上基因是否受到正选择，在序列那个位点上受到正选择。若在目标分枝上，其omega值小于1，但是却能找到正选择位点。即该基因在该分枝上的dN/dS1，但是在某些位点上，dN/dS1。那么该基因是否属于正选择基因？我认为：属于。之所以为正选择基因，主要是因为基因的个别位点或多个位点存在正选择。当只有个别位点受到正选择压时，而其它多个位点存在纯化选择时，可能导致整体上的omega值小于1。此时，该基因也应该是属于正选择基因。

6-正选择基因

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

中小企业如何低成本启动客户关系管理系统

兴为诚包装材料公司岗位职责制度16页

(40个工作日)-四川省食品药品安全监测及审评认证

某啤酒企业渠道拓展部终端拓展岗岗位说明书

电信-重点行业应用规模推广工作布置汇总V23

家庭理财与风险保障

13黑龙江辰能集团公司专家库管理办法

关于印发《广州市社会保险定点医疗机构管理办法》的通知

咨询的程序与项目建议书

第六章产品策略与

相关文档

相关搜索