您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > cufflinks输入输出文件分析
Cufflinks输入文件要求:Cufflinks识别对齐的SAM文件,或二进制的BAM文件。Cufflinks要求输入文件有正负号XS标签,如果你使用的是Tophat输出的BAM文件可正常识别,如果使用的是其他的工具,在进行分类时要输入以下指令:sort–k3,3–k4,4nhits.samhits.sam.sortdcufflinks输出文件:cufflinks输出三个文件。1.转录组的组装:transcipts.gtfGTF文件包含组装isoforms。前7个columns为标准GTF格式。最后的column包含标准的gene_id和transcript_id.具体的columns如下:1.片段名称chrX染色体名称2.来源cufflinks生产此文件的程序3.结构exon常为transcript或exon4.开始125.结束206所在链+7其他2.转录本表达水平:isoforms.fpkm_tracking3.基因表达水平:genes.fpkm_trackingCuffquant输入文件要求:单独的SAM或BAM文件和单独的GTF或GFF基因注释文件。Cuffquant输出文件:输出唯一的abundances.cxb格式文件,cxb文件为二进制文件可继续使用cuffnorm和cuffdiff进一步处理。Cufdiff输入文件要求:程序需要一个GTF2或GFF3转录本输入,及两个及以上的SAM文件。Cuffdiff也可处理BAM文件,但cuffdiff只接受一种类型的文件,不可将cxb与BAM文件同时处理。Cuffdiff需要提供GTF注释文件使用已确定的实行来寻找初始表达转录本,剪切,编码输出,启动子等。这些属性是:Tss_id为transcriptstartsiteP_id转录本中编码序列,需要注释文件中有CDS的记录才可。Cuffdiff输出文件:FPKMtrackingfilesCuffdiff计算每个转录本的FPKM,主要转录本,每个样品中的基因。以下有四个FPKMtrackingfiles:Isoforms.fpkm_tracking转录本FPKMsGenes.fpkm_trackingGeneFPKMs,转录本每个基因的FPKMcds.fpkm_tracking编码序列FPKMs.p_id,独立于tss_idTss_groups.fpkm_tracking初级转录本的FPKMsCounttrackingfilesisoforms.count_tracking转录本计数genes.count_tracking基因计数cds.count_tracking编码序列计数tss_groups.count_tracking初级转录本计数Readgrouptrackingfiles(读取组跟踪文件)计算每个转录本,初级转录本每个重复基因的表达和片段的计数结果输出配一个重复文件。isoforms.read_group_tracking组计算转录本genes.read_group_tracking组计算gene,总数表达,转录本计数包括每一个重复样品gene_id.cds.read_group_tracking编码序列FPKMs,计算每个重复样本的p_id,独立于tss_idtss_groups.read_group_tracking初级转录本FPKMs。Differentialexpressiontests()差异表达检验Isoform_exp.diff转录本差异表达水平Gene_exp.diff基因水平差异表达。检测转录本每个gene_id的FPKMTss_group_exp.diff初级转录本差异表达。检测转录本每个tss_id的差异表达。Cds_exp.diff编码序列差异表达。每个文件格式如下:Column编号column名字例子描述1测试idxloc_001唯一编号2.genelypla1基因名或编号3.位置chr1:123-456基因坐标4.样本1liver5.样本2brain6.测试状态notest没有足够的片段进行比对OK为检验成功LOWDATA太复杂或太少HIDATA此位置的定位片段太多。FAIL数值异常。7.FPKMx8.01651样品x的基因FPKM8.FPKMy8.3514321样品y的基因FPKM9.log2(FPKMy/FPKMx)0.06531fold10.测试统计0.8665465寻找计算FPKM显著性差异11.pvalue0.38929212.qvalue0.985216FDR矫正p值13.显著性no依据p值是否大于Benjamini-Hochbergcorrection多重检验修正后的FDR。Differentialsplicingtests-splicing.diff亚型之间的差异剪切。有多少差异剪切存在于单一初级转录本中的isoforms之间。只有两个及以上isoforms发生剪切的初级转录列于此文件。Column编号column名字样品名描述1测试idTSS10015初级转录本唯一标记2.基因名字axiba基因名或基因id3.位置chrs所在染色体位置4.样品1liver5样品2brain6.测试统计OK没有足够的片段进行比对OK为检验成功LOWDATA太复杂或太少HIDATA此位置的定位片段太多。FAIL数值异常。7.Reserved8Reserved9√JS(x,y)0.2223654根据TSS计算isoforms中的isoform的数量。计算剪切变异体的相对丰度。10.测试统计0.2211511.pvalue0.000065412.qvalue0.98321FDR矫正p值13.significantno依据p值是否大于Benjamini-Hochbergcorrection多重检验修正后的FDR。
本文标题:cufflinks输入输出文件分析
链接地址:https://www.777doc.com/doc-6498956 .html