您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 真核基因组分析常规流程
真核基因组分析常规流程一,二代数据质量控制二代测序数据质量控制软件FastQC分析的内容包括:测序数据的基本信息每个碱基的质量值每条reads序列的质量值每条序列的ATCG组成每条序列N的含量每条序列的长度分布序列中duplication程度K-mer信息软件信息:二,数据过滤过滤掉低质量值的reads过滤掉接头过滤掉N含量多的reads过滤掉长度过短的reads过滤掉PCR重复三,组装组装软件可以根据基因组情况选择,具体方法参看软件说明。四,组装结果评估1)将组装用reads回贴到组装的基因组上,看readsmappingrate来评估组装的质量可以使用bwa来比对,samtools来统计2)使用CEGMA来评估组装的完整性CEGMA(CoreEukaryoticGenesMappingApproach)isapipelineforbuildingasetofhighreliablesetofgeneannotationsinvirtuallyanyeukaryoticgenome.Thestrategyreliesonasimplefact:somehighlyconservedproteinsareencodedinessentiallyalleukaryoticgenomes.WeusetheKOGsdatabasetobuildasetofthesehighlyconservedubiquitousproteins.Wedefineasetof458coreproteins,andtheprotocol,CEGMA,tofindorthologsofthecoreproteinsinnewgenomesandtodeterminetheirexon-intronstructures五,基因组注释1)重复序列注释2)基因注释3)蛋白功能注释蛋白结构注释:interproscan同源注释:swissprottremble数据库通路:kegg数据库六,进化分析1)基因家族聚类同源的蛋白质可以分为直系同源与旁系同源,当同源是基因复制的结果,两份拷贝在一个物种的历史上是平行演化的,这样的基因被称为旁系同源基因。当同源是物种形成的结果,基因的历史反映了物种的历史,被称为直系同源;直系同源是不同物种内的同源序列,他们是来自于物种形成时的共同祖先基因;通常认为直系同源的序列具有相似的生物学功能;使用OrthoMCL聚类2)系统发育树构建选取所有物种的单拷贝同源基因,分别进行比对,连成一个supergene,提取四倍简并位点构建系统树3)分歧时间计算使用PAMLmcmctree计算分歧时间利用里面的时间进行校对4)4dtv距离分布计算使用mcsan寻找共线性基因对,计算共线性基因对的4dtv距离,作出分布图。5)Ks分布计算流程的功能1,检测物种(植物)是否有过近期全基因组复制或者大规模复制事件。2,估计该物种全基因组复制的时间范围。流程实现1,根据基因家族聚类的结果找到每个家族的每条基因2,根据BLASTP结果找串联重复基因家族(基因间插入数小于20视为串联)3,对每个基因家族的序列做muscle比对4,转换成cds的phylip格式5,使用PAML中的yn00计算基因家族中序列俩俩的Ks值6,去掉大于2的Ks值取中位或者平均值来代表这个基因家族每个copy的Ks(若该基因家族有N个基因,则发生过N-1次复制)7,以每0.5为单位加和这个区间的Ks8,作图分布图6)共线性分析Mcscan的结果,过滤后做点图或用circos作图7)正选择利用blastall找到两两比对的besthit,利用lastz比对genepair,输入kaks_calculator计算ka/ks。
本文标题:真核基因组分析常规流程
链接地址:https://www.777doc.com/doc-2172918 .html