您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 特异可变剪切评估2011-3-16
可变剪切技术文档可变剪切技术文档........................................................................................................1一、背景........................................................................................................................2二、原理........................................................................................................................32.1Exon-skipping...................................................................................................42.2IntronRetention................................................................................................42.3Alternative5’SpliceSite(A5SS).................................................................52.4Alternative3’SpliceSite(A3SS).................................................................5三、结果评估................................................................................................................53.1参考序列..........................................................................................................53.2采用wgsim进行模拟.....................................................................................63.3Wgsim模拟结果..............................................................................................63.4结论..................................................................................................................73.5讨论..................................................................................................................7四、总结........................................................................................................................8五、参考文献................................................................................................................8一、背景生物体内基因在表达的过程中,遗传信息由DNA转录到RNA,在形成RNA的过程中,前体RNA(pre-mRNA)经过剪切酶的作用形成成熟的mRNA,在此过程中存在着不同的剪切方式(Fig1),研究发现可变剪切在细胞中普遍存在,几乎所有的多外显子基因都存在可变剪切现象,并且组织特异的可变剪切事件被认为在不同细胞和组织中扮演着重要功能,在疾病的研究中也发挥着重要作用,目前也有报道寻找组织差异的可变剪切形式。之前的可变剪切分析中,同时要求检测到与reference一样的junction,和支持可变剪切的junction才认为该转录本发生了可变剪切,而实际上许多情况下,在不同样品中会出现只有检测到其中一种junction的情况,而这些特异的转录本极可能在不同组织中发挥着重要作用,因此有必要对这些组织特异的可变剪切进行区分,并且旧版流程中对可变剪切缺乏一定的评估,没有进行严格的过滤操作,在长海医院的项目中发现检测结果存在较高的假阳性。最近有多篇文献对可变剪切进行分析,以寻找组织特异的可变剪切形式,从而找出疾病特异的biomarker,本文的目的即参考最新的文献资料,对组织特异的可变剪切进行检测和评估,以增加检测的灵敏度并降低假阳性。Fig1.可变剪切形成不同的转录本Fig2.FUUMPS基因的典型exon-skipping可变剪切异构体及其在不同样品中的表达情况二、原理下图为旧版本流程中常见的四种可变剪切的检测示意图:每一种可变剪切必须同时出现两种异构体才认为发生了可变剪切;在新的检测程序中,则主要关注与reference不一样的转录本序列。对于exon-skipping,若对于样品A只检测到和Reference一样的转录本,而对于样品B只检测到该转录本的发生exon-skipping的异构体,则我们仍然认为在样品B中发生了可变剪切,并且在样品差异分析中,我们认为该转录本在样品A和B中存在差异。其他三种情况类似。此外,在旧版本流程中,可变剪切的结果由于没有一定的条件限制,报出的可变剪切异构体非常多,说明可能存在较多的假阳性,因此我们根据exon和intron的覆盖度对四种情况进行了过滤,通过模拟数据的测试,我们对四种可变剪切进行了较为严格的限制,以得到较为准确的检测结果。目前,对于四种可变剪切情况,其算法修改为:2.1Exon-skipping若满足以下条件:1)只检测到junction3,并且支持junction3的reads大于等于2,则报出exon1-exon3连接的异构体,2)exon1和exon3的覆盖度均=0.5;若同时检测到了junction1和junction2,则认为与reference一样的转录本也存在。2.2IntronRetention若满足以下条件:1)Exon1和Exon2之间的Intron有90%以上的区域均有uniquemappingreads覆盖,说明在某个成熟mRNA中该intron被保留下来了(考虑到转录的exon通常也不是100%被reads覆盖到,所以在这里以90%为阈值)。2)intron的两个边界的上下游5个bp位置必须有reads覆盖。3)该intron的区域不能有其他基因覆盖。(此处去掉了intron覆盖度不小于相邻覆盖度较小的exon的15%的要求)4)intron区域的平均覆盖度=2。若同时满足以上述条件,则认为该基因Exon1和Exon2之间存在IntronRetention的可变剪切方式。如果同时检测到支持exon1和exon2相连的junction1,则认为检测到了与reference一样的转录本。2.3Alternative5’SpliceSite(A5SS)若满足以下条件:1)检测到junction2或junction3;2)exon2的覆盖度=0.5;若同时检测到支持reference的junction即junction1,则同时将两种异构体输出;2.4Alternative3’SpliceSite(A3SS)与A5SS类似,若满足以下条件:1)检测到junction2或junction3;2)exon2的覆盖度=0.5;若同时检测到支持reference的junction即junction1,则同时将两种异构体输出;三、结果评估原理:根据真实数据(ACRG中样品11N)得到的四种可变剪切结果,提取出该可变剪切对应的异构体序列,并以该异构体作为reference序列模拟产生reads,分别产生不同数量的fastq文件,并以该模拟fastq文件为输入,进行可变剪切检测。3.1参考序列/ifs4/BC_PHAR/PROJECT/RD/specificAS/11N_result/criteria_0.95/ASgenes-260-v2.fa,为四种可变剪切过滤掉长度小于260的序列后得到的序列集合(由于reads长度为90的缘故,小于260的程序无法模拟)。程序:perl/ifs4/BC_PHAR/USERS/chench/mybin/simulate.pl11N.A3SS.filter.xls11N.A5SS.filter.xls11N.SkippedExon.filter.xls11N.RetainedIntron.xls脚本:/ifs4/BC_PHAR/PROJECT/RD/specificAS/11N_result/criteria_0.95/simulate.sh3.2采用wgsim进行模拟分别产生1x,5x,10x,30x,100x的reads,例如,其中simulate_1x代表覆盖参考序列1乘的reads数,simulate_10x代表覆盖10乘的reads数,以此类推。模拟程序如下:/ifs4/BC_PHAR/USERS/chench/mybin/soapsplice/SOAPsplice-v1.2/bin/wgsim-e0.01-d200-190-290-N10/ifs4/BC_PHAR/PROJECT/RD/specificAS/11N_result/criteria_0.95/ASgenes-260-v2.faread_10x_1.fqread_10x_2.fq/ifs4/BC_PHAR/USERS/chench/mybin/soapsplice/SOAPsplice-v1.2/bin/wgsim-e0.01-d200-190-290-N1/ifs4/BC_PHAR/PROJECT/RD/specificAS/11N_result/criteria_0.95/ASgenes-260-v2.faread_1x_1.fqread_1x_2.fq/ifs4/BC_PHAR/USERS/chench/mybin/soapsplice/SOAPsplice-v1.2/bin/wgsim-e0.01-d200-190-290-N5/ifs4/BC_PHAR/PROJECT/RD/specificAS/11N_result/criteria_0.95/ASgenes-260-v2.faread_5x_1.fqread_5x_2.fq/ifs4/BC_PHAR/USERS/chench/mybin/soapsplice/SOAPsplice-v1.2/bin/wgsim-e0.01-d200-190-290-N30/ifs4/BC_PHAR/PROJECT/RD/specificAS/11N_result/criteria_0.95/ASgenes-260-v2.faread_30x_1.fqread_30x_2.fq/ifs4/BC_PHAR/USERS/chench/mybin/soapsplice/SOAPsplice-v1.2/bin/wgsim-e0.01-d200-190-290-N100/ifs4/BC_PHAR/PROJECT/RD/specif
本文标题:特异可变剪切评估2011-3-16
链接地址:https://www.777doc.com/doc-1924441 .html