您好,欢迎访问三七文档
分析草案项目名称:西北农林科技大学18个花绒寄甲转录组+18个小RNA+6个蛋白定量分析(iTRAQ)测序及分析合同(无参考基因组)委托人(甲方):西北农林科技大学林学院受托方(乙方):签订地点:签订日期:年月日有效期限:年月日至年月日11.项目描述1)材料说明:研究对象为花绒寄甲(Dastarcushelophoroides),实验方案是对4龄期L1、6龄期L2、蛹期L3、1年成虫L4、2年成虫L5、4年成虫L6共6个时间点(每个时间点有3个生物学重复)的样本进行18个转录组测序、18个SmallRNA测序、6个ITRAQ蛋白定量实验。其中,转录组、SmallRNA测序使用同一样品。2)项目背景信息与项目策略3)测序数据分组、合并及符号发育节点:4龄期L16龄期L2蛹期L31年成虫L42年成虫L54年成虫L6原始重复数据:(1-3)(1-3)(1-3)(1-3)(1-3)(1-3)mRNA合并数据:X1X2X3X4X5X6X1-X6合并=T↓↓↓↓↓↓7组拼接数据:X1●X2●X3●X4●X5●X6●X1●-X6●合并=T●蛋白质翻译库X1d●X2d●X3d●X4d●X5d●X6d●Td●按照链特异性文库建库strand-specificRNAsequencing(DirectionalRNA-Seq)SmallRNA合并:Y1Y2Y3Y4Y5Y6Y1-Y6合并=U↓↓↓↓↓↓↓注释比对库Y1Y2Y3Y4Y5Y6U蛋白质组数据:D1D2D3D4D5D6D1-D6合并=V↓↓↓↓↓↓↓注释比对库D1D2D3D4D5D6V对比15次:L1-L2,L1-L3,L1-L4,L1-L5,L1-L6;L2-L3,L2-L4,L2-L5,L2-L6;L3-L4,L3-L5,L3-L6;L4-L5,L4-L6;L5-L624)原始数据:每发育节点转录组3组重复数据;SmallRNA的3组重复数据;蛋白组学1组数据。合并数据:3个原始重复测序数据合并为1组再组装、mapping。转录组X1~X6,组装库X1●~X6●;SmallRNA为Y1~Y6;蛋白质组为D1~D6。总数据:转录组X1~X6合并为T、组装库T●、再mapping,;SmallRNA的Y1~Y6合并为U、再mapping;蛋白组学D1-6合并为V、再mapping,转录组蛋白翻译库W。5)经费包括测序及以下所有信息分析费在内,信息分析费不再另行支付。1)材料说明:研究对象为花绒寄甲(Dastarcushelophoroides),实验方案是对4龄期L1、6龄期L2、蛹期L3、1年成虫L4、2年成虫L5、4年成虫L6共6个时间点(每个时间点有3个生物学重复)的样本进行18个转录组测序、18个SmallRNA测序、6个ITRAQ蛋白定量实验。其中,转录组、SmallRNA测序使用同一样品。2)项目背景信息与项目策略3)测序数据分组、合并及符号发育节点:4龄期L16龄期L2蛹期L31年成虫L42年成虫L54年成虫L6原始重复数据:(1-3)(1-3)(1-3)(1-3)(1-3)(1-3)mRNA合并数据:X1X2X3X4X5X6X1-X6合并=T↓↓↓↓↓↓7组拼接数据:X1●X2●X3●X4●X5●X6●X1●-X6●合并=T●蛋白质翻译库X1d●X2d●X3d●X4d●X5d●X6d●Td●按照链特异性文库建库strand-specificRNAsequencing(DirectionalRNA-Seq)SmallRNA合并:Y1Y2Y3Y4Y5Y6Y1-Y6合并=U↓↓↓↓↓↓↓3注释比对库Y1Y2Y3Y4Y5Y6U蛋白质组数据:D1D2D3D4D5D6D1-D6合并=V↓↓↓↓↓↓↓注释比对库D1D2D3D4D5D6V对比15次:L1-L2,L1-L3,L1-L4,L1-L5,L1-L6;L2-L3,L2-L4,L2-L5,L2-L6;L3-L4,L3-L5,L3-L6;L4-L5,L4-L6;L5-L64)原始数据:每发育节点转录组3组重复数据;SmallRNA的3组重复数据;蛋白组学1组数据。合并数据:3个原始重复测序数据合并为1组再组装、mapping。转录组X1~X6,组装库X1●~X6●;SmallRNA为Y1~Y6;蛋白质组为D1~D6。总数据:转录组X1~X6合并为T、组装库T●、再mapping,;SmallRNA的Y1~Y6合并为U、再mapping;蛋白组学D1-6合并为V、再mapping,转录组蛋白翻译库W。5)经费包括测序及以下所有信息分析费在内,信息分析费不再另行支付。2.目标及技术内容(流式细胞仪预测该虫基因为235M,已完成了1个成虫样2G转录组测序,注释率80%)(1)Hiseq2000完成18个(花绒寄甲Dastarcushelophoroides)RNA样品链特异性转录组测序,每个样品产生4Gbcleandata以上,并完成相应的信息分析。Q2095%以上,Q3090%以上(2)Illumina完成18个(花绒寄甲Dastarcushelophoroides)RNA样品SmallRNA测序(包括miRNA,rRNA,tRNA,snRNA,piRNA,snoRNA,microRNAs,siRNA,miRNAs等),保证每个样本产生不低于15~20M的cleanreads,并完成相应的信息分析。Q2095%以上,Q3090%以上(3)运用iTRAQ技术,完成6个样品的蛋白组学定量分析。对6个(花绒寄甲Dastarcushelophoroides)样品进行标记,将液相色谱与质谱联用,保证每个样本产生的蛋白质数不少于转录组注释数据量的1/10、鉴定非冗余蛋白质数不少于转录组数据量的0.6/10(果蝇9124个),通过生物信息分析鉴定蛋白和比较差异蛋白的表达量,并完成相应的信息分析。3.转录组技术路线3.1项目描述对18个RNA样品进行检测,样品检测合格后采取以下技术路线对转录组进行测序:常规转录组测序样品制备――上机测序(每个样品产生4Gbcleandata)――生物信息学分析。发育节点:4龄期L16龄期L2蛹期L31年成虫L42年成虫L54年成虫L6原始重复数据:(1-3)(1-3)(1-3)(1-3)(1-3)(1-3)mRNA合并数据:X1X2X3X4X5X6X1-X6合并=T7组组装数据:X1●X2●X3●X4●X5●X6●X1●-X6●合并=T●功能注释√√√√√√√ORF/CDS预测√√√√√√√SSR/SNP分析√√√√√√√lncRNA预测√√√√√√√蛋白质翻译库X1d●X2d●X3d●X4d●X5d●X6d●Td●按照链特异性文库建库strand-specificRNAsequencing(DirectionalRNA-Seq;trinity组装对比15次:X1-X2,X1-X3,X1-X4,X1-X5,X1-X6;X2-X3,X2-X4,X2-X5,X2-X6;X3-X4,14X3-X5,X3-X6;X4-X5,X4-X6;X5-X61)项目分析流程(1)转录组denovo组装单独拼接:每个发育时期3个生物学重复样本测序数据合并为1组后进行链特异性组装。六个发育时期转录组数据X1~X6,按照链特异性文库进行组装获得6个转录本(Ttranscript),之后使用CD-HIT软件聚类获得各自的Unigene。(2)混样拼接:将六组不同发育时期,三次生物学重复的样本测序数据合并为T,通过拼接组装为大转录本T●(Ttranscript),使用CD-HIT软件聚类获得其的Unigene。(3)组装结果评估:将组装得到转录本与NCBI中该物种或近源物种的已知序列(转录本或基因组)进行比对,评估组装结果。2)功能注释将通过拼接获得转录本X1●-X6●、T●的蛋白数据库(nr、Swiss-Prot、IPR、TrEMBL、KEGG和KOG等数据库)进行比对,通过被比对序列的相似行进行功能注释。3)KEGG注释转录组的KEGG注释主要是对得到的基因注释进行KEGGPathway分析,此分析是基于预测得到ORF序列,利用KAAS预测得到对应的KO号,然后利用KO号对应到KEGGpathway上,分析基因与KEGG中酶注释的关系文件以及映射到pathway的信息。4)GO注释5)KOG分类6)预测编码蛋白框CDS(ESTScan预测)7)转录本的可变剪切异构体isoforms分析8)转录本SSR和SNP分析9)lncRNA的预测将未比对上蛋白数据库的序列作为lncRNA的预测候选序列,与已知lncRNA数据比对进行预测。10)mRNA表达分析将使用T●为参考序列,将18个样本(六个发育时期三次生物学重复)的原始数据reads分别mapping到T●序列上进行基因表达定量分析。11)差异基因分析12)差异表达基因功能富集性分析(GO富集分析和KEGG代谢通路富集分析)13)时空表达顺序分析14)基因共表达网络分析15)补充说明:(1)以上1-9项分析项目7个转录本(X1●-X6●、T●)平行分析。(2)将使用T●为参考序列,将18个样本(六个发育时期三次生物学)的原始数据reads分别mapping到T●序列上进行基因表达定量分析。(同一个物种不同发育时期的基因组序列是一样,所以基因对应转录产物mRNA也是一致的。不同的发育时期只存在基因表达或不表达的情况。每个发育时期单独拼接的转录本只代表该时期的基因表达情况,而T●涵盖该物种6个时期所有基因表达情况。若某个时期有测序reads能mapping到T●的某个转录本,则表示该转录本有表达,否之则为不表达。)(3)后续蛋白定量分析,使用T●所对应的蛋白序列为Td●参考序列。3.2生物信息学分析内容注意:除常规分析项外,下述(也包含常规分析)必须全部做1.对原始数据进行去除接头序列及低质量reads的处理51)原始数据L1(1-3)、L2(1-3)、L3(1-3)、L4(1-3)、L5(1-3)、L6(1-3)测序产量统计2)L1(1-3)、L2(1-3)、L3(1-3)、L4(1-3)、L5(1-3)、L6(1-3)测序质量与测序错误测序质量Q与测序错误E;GC/AT碱基组成分布,原始数据处理后质量及碱基质量分布(fastqc工具);测序饱和度分析测序饱和度分析图;rawdata产出统计,rawdata及cleandata的数据量及Q20、Q30统计,rawdata及cleandata测序质量分布图,duplicaterate统计3)测序随机性分析2.转录组组装与分析(可首选赤拟谷盗**Triboliumcastaneum、次选家蚕*Bombyxmori,或侯选黑腹果蝇Drosophilamelanogaster、冈比亚按蚊Anophelesgambiae、意大利蜜蜂Apismellifera、埃及伊蚊Aedesaegypti做参考靠基因,但公司在选择时必须慎重,一旦选定,后边其他分析所使用的参考基因组,也必须是该处所选定的种类;也可直接以T●作为参考基因,因为T●数据量肯定超过各个发育节点的数据量。不要求特别优异的结果)除常规程序性分析外,提供以下分析的数据及展示图:1)转录本N10/N20/N30/N40/N50/N60/N70/N80/N90的长度统计,绘制转录本长度分布图(1)X1●、X2●、X3●、X4●、X5●、X6●、T●转录本组装结果统计,必须提供数据库;(2)6个发育阶段X1●、X2●、X3●、X4●、X5●、X6●与T●组装结果之间的差异;2)转录本结合tgicl、cd-hit聚类(比对各样本reads到unigene。下述“7B”还要详细分析),提供分析数据及展示图(1)X1●、X2●、X3●、X4●、X5●、X6●、T●转录本聚类;(2)通过功能注释寻找X1●、X2●、X3●、X4●、X5●、X6●间的共有、特有基因。3)组装结果分析(可变剪切分析见下述3),提供以下分析数据及展示图:(1)常规程序性分析Contig长度分布、Transcript长度分
本文标题:基因测序案例
链接地址:https://www.777doc.com/doc-3711794 .html