您好,欢迎访问三七文档
基因共线性分析1.在生物学中共线性指的是遗传学中的基因连锁关系;最初,共线性是用来描述同一染色体上的基因位置关系,但现在更多的是指由同一祖先型分化而来的,不同物种间基因的类型及相对顺序的保守性。2.共线性片段的大小与物种之间的分化时间有很大关系:分化时间较短的物种间,积累的变异较少,会保留更多从祖先遗传下来的特征;而分化时间较长的物种间由于变异的积累导致共有的特征变少,反而获得较短的共线性片段.共线性定义3.共线性主要强调两方面:一是基因的同源性;另一就是基因的排列顺序.具体而言,同源又分2种:直系同源和旁系同源.其中直系同源基因指存在于祖先基因组中,随后因为物种分化,分别传递到不同的物种中,这些基因往往在结构和功能上有很高的相似性.旁系同源基因,指同一基因组中由于基因复制而产生的同源基因.由于复制产生的同源基因,没有相同的选择压力作用,因此容易发生一些变异,从而可能出现功能变异.共线性定义而共线性是物种间的一种关系,所以其涉及的同源关系主要指直系同源关系,但是由于旁系同源基因的存在,往往会给共线性片段的识别增加很大的难度.基因的排列顺序,指各基因在染色体上的排列位置.近缘物种分化距离很短,基因丢失、插入以及倒位、转座等事件较少,所以大部分基因都维持了祖先基因的相对排列顺序.因此,近缘物种间DNA水平上的共线性片段中蕴藏了大量同源信息,这些信息对基因组注释的改进有着较好的效果.共线性定义在寻找物种间保守序列方面的算法中,SmithWaterman和Needlemenwunsch的算法是最常用的,它们采用动态规划的方法对比对的序列对进行打分、评定.然而这些方法不能直接用于全基因组序列比对,关键的问题在于无法有效地处理大量数据,需要消耗的内存很大,而且运算时间较长.另外一个原因就是无法区分旁系同源基因,它们的敏感性很高,因此容易产生大量的假阳性,这也一度限制了比较基因组学的发展.随后科研人员开发了基于基因水平的共线性算法,取得了一定的效果.这类算法主要是先利用蛋白比对,找到可能的同源蛋白,然后再借助编码蛋白的基因在染色体上的相对位置,来获取共线性片段.但是在植物基因组中,基因复制事件是非常普遍的,因此很难说搜寻出来的“共线性片段”是真的,还是由于同源基因的偶然组合产生的,而且共线性片段来源于同源基因的推断,所以基因组中蛋白编码基因的注释质量对结果影响很大.共线性片段识别工具共线性片段识别工具实际上,与此同时也有很多基于全基因组序列比对的共线性算法被开发出来,特别是近5年,有了较大的发展.这些算法不但解决了比对速度和内存消耗的问题,而且部分软件在处理插入事件、复制事件、倒位事件对共线性片段比对影响上也有很好的效果.目前比较成熟的基于全基因组比对的共线性分析软件有Last、Mugsy、spines、Lastz、Progressivemauve。Last的优势在于能够处理较大基因组(如脊椎动物基因组)之间的比较,而且具有很快的比对速度.但是它目前还无法进行有空格的比对,这也在一定程度上导致它的比对长度较短,数量较多.它与BLAST的主要区别在于它能更有效地处理富含重复序列的区域,而且在寻找初始的匹配位置时,BLAST种子序列的长度是固定的,而Last则采用了一个可变长度的种子序列,这就大大改善了比对的效率.Mugsy也是一款同时期的用于全基因组比对的软件.它调用Nucmer进行两两比对,保证了比对的唯一性.比对速度快、效率高,而且比对的长度较长,比较适合后期分析,但主要适合近缘物种之间的比较,对于进化距离较远的物种的比对效果不太理想,同时在进行全基因组比对时,参数的选择上也存在一定的困难.共线性片段识别工具Progreessivemauve是一款以java编写的全基因组比对软件,具有可视化界面,便于直接查看比对结果,比对效果很好,特别适合于细菌等比对,而且能较好的处理进化距离较远的物种间的比对.至于Spines,比对速度与所给比对基因组的染色体条数或者Scaffold个数有关,因此对于没有锚定到染色体上的基因组的比对来说,可能会耗费大量的时间.共线性片段识别工具MCScanX做共线性分析用法MCScanX做共线性分析用法MCScanX做共线性分析用法MCScanX做共线性分析用法MCScanX做共线性分析用法MCScanX做共线性分析用法MCScanX做共线性分析用法总体上来说,共线性片段的识别分为2个层次,一个是DNA水平,另外一个是基因水平.DNA中包含大量非编码区,变异的可能性较大,因此比较适合于进化距离较近的物种;而蛋白的保守性很高,往往分化较远的物种间都能找到同源基因,因此在研究分化时间较早物种的共线性方面,有很大的优势.共线性分析共线性的应用•现在共线性片段主要在直系同源基因的识别、蛋白编码基因的注释和进化事件的发现等方面得到了应用.•直系同源基因的识别在比较基因组学中,是十分关键的.但是在真核生物中,特别是脊椎动物中,基因家族很大,基因复制、丢失的频率较高,致使直系同源基因识别的难度很大.现在用于推断直系同源基因对的方法都是基于蛋白质序列相似性的,这种方法很容易识别出直系同源基因.但是真核生物中基因复制事件较多,所以在区分旁系同源基因上依然存在很大的问题,而且该方法对基因组的蛋白编码基因的注释质量以及注释完整性要求较高.在这种情况下,很多其他基因组特征都被整合进来用于推断直系同源基因,并取得了一定的成果.其中共线性就是一种能推断直系同源基因的较好方法.由于共线性识别的方法不同,往往人们在借助共线性推断直系同源基因的方法也有一定的差异.其中205年发表在《Bioinformatics》上一篇文章描述了其中的1种方法.大致分为3步:第1步识别出相似性较高的片段;第2步借助筛选的相似性片段的位置关系识别共线性区域;第3步基于共线性信息推断直系同源基因.首先将基因组的DNA序列进行重复以及低复杂性过滤,然后将过滤的基因组序列进行BlastN比对,筛选标准为identity80%以上,e值低于10-4,通过这些条件筛选出共线性的一些地标.然后根据这些特征在染色体上的排列位置,进一步识别出共线性的大片段.共线性的应用而位于共线性大片段的基因,如果具有一个比较保守的排列顺序,那么物种间的这些基因则可能是直系同源基因.由于这种方法假设了基因的位置特异性,所以能较好地区分直系同源基因和旁系同源基因.2009年发表《BMCGenomics》上的一篇文章[则采用了从局部共线性来推断直系同源基因.局部共线性主要是通过比较所关注的直系同源基因对周围基因的同源性来界定的.首先通过序列相似性找到可能的同源基因,然后进一步分析这些同源基因对的上游和下游各3个基因对之间的同源性,如果同源性较高,则可以推断这对基因为直系同源基因.共线性的应用共线性分析可以用于发掘进化事件,比如基因丢失、基因获得.将一个物种的基因组与另一物种基因组比较,同时选取第3个基因组作为外类群,这是比较或者进化基因组学中常用的策略.通过比较包含几个基因的共线性区域,可以分析出是否有基因发生了转座、重排或者丢失、复制.其中比较典型的关于这方面的研究有2009年发表在《BMCGenomic》的关于狗基因组的文章.狗的基因组完成测序以后,注释出来的蛋白编码基因的数量只有19000左右,而其他哺乳动物如人类、大猩猩、老鼠等基因组的蛋白编码基因数量都在20000以上,为了研究这些基因数量的差异的原因,该文章选取了人类、大猩猩、老鼠、耗子以及狗这5个物种,首先通过蛋白编码基因两两比对,得到1∶1的直系同源基因对,然后将这些同源基因对作为基因组上的地标,构建4个全基因组比对的共线性图谱,最终发现有412个比较重要的基因在人类、大猩猩、老鼠、耗子基因组中都注释出来,而在狗的基因组中却发生了丢失.共线性的应用随着基因组学研究的深入,人们对单个基因或者单个基因组的功能认识得越来越多,随着近缘物种测序的增多,人们试图对物种分化机制进行探究,而在研究物种分化方面,比较基因组学扮演了重要的角色.全基因组比较—共线性分析作为比较基因组学的常规手段,将会被广泛应用到进化事件探究的各个方面.共线性的应用感谢观看
本文标题:5-共线性分析
链接地址:https://www.777doc.com/doc-7881664 .html