您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > BCC精品培训关联分析
全基因组关联分析周家蓬博士zhoujp@bcc.ac.cnQQ群:2598041811基本概念历史、现状和趋势一般流程研究策略应用价值2全基因组关联研究•Genome-wideassociationstudy(GWAS)•检测全基因组范围的遗传变异与可观测性状间的遗传关联3遗传变异的检测•SNP芯片Affymetrix:500Kchip(Randomlydistributed)Illumina:550Kchip(gene-based)•高通量测序Illumina/Solexa:DNA-seq,RNA-seq4遗传变异的数量•“单倍型图谱计划1”(Nature2005)SNP:1M•“单倍型图谱计划2”(Nature2007)SNP:4M•“单倍型图谱计划3”(Nature2010)SNP:10M5SNP和SNP基因型TTCAGTCAGATTCCAGCCCTTCAGTCAGATTCCAGCCC样本1样本2TTCAGTCAGATTCCAGCCCTTCAGTCAGAGTCCAGCCC6表型&模型和算法•表型:质量性状和数量性状•表型校正:去除outliers,取特征值,取剩余值•模型:混合线性模型方程组•算法:SNP,单倍型,CNV,Gene-set(SNPs)Add.,Dom.,Rec.,Int.Frequentist,Bayesian方差/秩和,均值/中位数打分值,似然比Bonferroni,FDR,Permutation,Bootstrap7编码基因型•Foronemarkerwithtwoalleles,therecanbethreepossiblegenotypes:GenotypeCodingAA2Aa1aa08病例/对照设计的数据结构individualaffectiongenderSNP1SNP2…SNPn11F21…221M22…130F12…241F11…250M0-9…1sampleidcase/controlgenotypes9遗传假设和遗传模型•GenotypicmodelHypothesis:all3differentgenotypeshavedifferenteffectsGenotypeGenotypicValueAAμAAAaμAaaaμaaAAvs.Aavs.aa10•DominantmodelHypothesis:thegeneticeffectsofAAandAaarethesameGenotypeGenotypicValueAAμA-AaμA-aaμaaAAandAavs.aa遗传假设和遗传模型(续)11•RecessivemodelHypothesis:thegeneticeffectsofAaandaaarethesameGenotypeGenotypicValueAAμA-Aaμa-aaμaaAAvs.Aaandaa12遗传假设和遗传模型(续)•AllelicmodelHypothesis:thegeneticeffectsofalleleAandalleleaaredifferentGenotypeGenotypicValueAA2μAAaμA+μaaa2μaAvs.a13遗传假设和遗传模型(续)卡方检验GenotypicmodelNullhypothesis:IndependenceAAAaaacasesnAAnAanaacontrolsmAAmAamaajiijH..0:df=214Chi-squaredteststatistic:OistheobservedcellcountsEistheexpectedcellcounts,undernullhypothesisofindependence统计量cellsall22E)(OENE)alcolumntottotalrow(15RcodeStatistics-rchisq(1000,df=5)hist(Statistics,prob=T)curve(dchisq(x,df=5),col='blue',add=TRUE)curve(dchisq(x,df=2),col='red',add=TRUE)P-1-pchisq(10,df=2);P[1]0.006737947统计量HistogramofStatisticsStatisticsDensity051015200.000.050.100.15P值16GWAS的历史•2005年,Science杂志报道了第一篇GWAS研究:年龄相关性黄斑变性•之后陆续出现了有关冠心病、肥胖、2型糖尿病、甘油三酯、精神分裂症以及相关表型的报道17GWAS的现状18GWAS的趋势19探求因果关系•逻辑推理:归纳法(从特殊到一般)、演绎法(从一般到特殊)•“穆勒五法”:求同法、求异法、求同求异法、共变法、排除法•全基因组关联研究主要基于共变法思想科学技术史之父萨顿认为科学是人类唯一具有累积性和继承性的活动20一般流程A.使用SNP分型芯片获得高通量的基因型B.对基因型进行质量评估和控制C.若为质量性状,需进行群体分层检测;如为数量性状,则对表型进行协变量校正D.采用若干遗传模型进行全基因组关联分析E.增加额外的数据进行结果验证21AHMU案例A.IlluminaHuman610QuadBeadChipB.Callrate90%,MAF1%,HWEP10-7C.1139病例vs.1132对照,PCA分析D.Cochran-Armitage趋势检验E.5182病例vs.6516对照,539病例vs.824对照NatGenet.2009Feb;41(2):205-210.22计算过程•PLINK~purcell/plink/•plink–fileAHMU–mind0.05–maf0.01–hwe0.000001–model–outAHMU23输入输出•AHMU.ped•AHMU.map•AHMU.model24GWAS主要策略Meta分析缺失填充通路分析互作分析25Meta分析•定义合并多个研究数据,增加样本量,提高检测效力,发现新易感位点•成功案例Ⅱ型糖尿病、克隆病、多发性硬化、类风湿性关节炎、直结肠癌等26Meta分析•分析步骤1.检测研究异质性2.选择模型固定效应模型,随机误差(弱)随机效应模型,群体分层(强)3.单因素分析4.合并各研究检验统计量、标准误或p值•常用软件METAL、ComprehensiveMeta-analysis等27缺失填充•定义缺失基因型填充(Imputation)主要是为了解决致病变异或其紧密连锁标签分型遗漏的问题•成功案例约1/3-1/2的GWAS文章使用该技术28缺失填充•分析步骤1.对自产数据进行基因型质量控制2.选择合适的参考数据库,对高质量的基因型数据进行缺失填充3.根据计算得出的准确率(info0.8)对填充基因型进行筛选过滤4.进行关联分析•常用软件BEAGLE、IMPUTE、MACH和PLINK等29通路分析•定义将SNPs按照生物学通路分组,比较各通路在病例/对照或连续性状数量上的差异•成功案例克隆病、I型糖尿病、类风湿性关节炎、精神分裂症、乳腺癌等30通路分析•分析步骤1.选择生物通路(KEGG)2.选择TagSNPs(HapMap)3.多因素分析4.显著SNPs结果综合•常用软件GSEA、IPA等31互作分析•定义研究基因-基因、基因-环境间交互作用•成功案例老年黄斑变性、帕金森病、直肠癌、膀胱癌,哮喘等32互作分析•分析步骤1.选择显著及近似显著SNPs2.选择风险环境因素3.构建互作模型4.多因素分析•常用软件PLINK、RandomJungle、BEAM等33其他策略•两阶段法•精细定位/目标测序•表型/性状联合•单倍型分析34遗传变异的检测•SNP芯片Affymetrix:500Kchip(Randomlydistributed)Illumina:550Kchip(gene-based)•高通量测序Illumina/Solexa:DNA-seq,RNA-seq35高通量测序•Next-generationsequencing(NGS)•平行测序36SNP分型:coverage&variantfrequency37参考基因组序列个体正向序列个体反向序列遗传变异的种类•单核苷酸多态性•Singlenucleotidepolymorphism•SNP占总变异的90%•插入缺失•Insertion-deletion•InDel1-50bpDNA片段•结构变异•Structuralvariation•SV50bpDNA片段38遗传变异的数量•“千人基因组计划”(Nature2012)•SNP:38M•InDel:1.4M•SV:14K39效应大小vs.变异频率4040家系病例或极端性状个体NatRevGenet.2010Jun;11(6):415-25.41•外显子突变是孟德尔疾病主要病因;多向性效应影响复杂疾病•价格相对低廉•目前主要用于检测孟德尔疾病•新的策略或方法:Lasso,折叠法,聚合法外显子组测序42Lasso•岭回归:|beta|2tLasso回归:|beta|t•贝叶斯:全概率&损失函数•机器学习:SVM43低覆盖度测序+缺失基因型填充44Pasaniucet.al.,2012策略评估•Pasaniuc等证实覆盖度低至0.1-0.5X依然可以通过后续的填充方法获得高密度芯片的效果45策略评估(续)•Howie等发明了一种pre-phasing的填充方法,该方法通过对GWAS样本个体进行连锁相构建,进而利用参考库的单倍型进行缺失基因型填充46NGS-GWAS•水稻农艺性状14种•运用重测序技术对517个中国水稻地方品系进行进化及GWAS分析~1X重测序KNN基因型填充算法MLM遗传模型NatGenet.2010Oct;42:961–967.47高密度芯片低覆盖度测序基本特点芯片基于正常人群中的高频SNP标记设计,没有与疾病相关的突变信息可以同时检测到人群中的高频SNP和未被发现的低频突变最高分辨率根据不同的芯片型号,一般在30-100bp精确到单个碱基覆盖范围只能局限于芯片内容,无法获得全部基因组信息仅受到能够定位到基因组的reads数据量影响,可获得全基因组的信息技术原理杂交原理,实验环境和样本对实验重复有很大影响合成测序,重复性好动态量程弱信号被舍弃,强信号会饱和没有局限数据产出选择不可以可以背景噪音高低数据延展性随着人类基因组的进一步完善,测序数据可以进一步深挖高密度芯片vs.低覆盖度测序48测序成本49GWAS:Array-basedvs.NGS-based50基本流程•高通量测序基因分型:CLCGenomicsWorkbench&ServerBWA/Bowtie+SAMtools/GATK+IGV•全基因组关联分析:PLINK,TASSEL,QTDT/FBATBEAGLE/IMPUTE+SNPTEST•可视化和注释:IGV/gPlink+ANNOVAR/Annotation.pl51GWAS模块52植物育种动物育种人类疾病TASSELQTDTFBATPBATPLINKSNPTESTMENDELBEAMIMPUTEBEAGLEMETALHAPLOVIEWFASTSNPLinuxC/C++RPerlPythonMySQL应用•药物治疗抗抑郁药、精神疾病药物、丙型肝炎治疗,肝损害等副作用,为个体化医疗奠定理论基础•意义中国每年因药物不良反应住院治疗的病人已逾250万人,其中约20万人因此死亡,个体化医疗势在必行53丙型肝炎治疗•丙肝全球1.7亿人感染的病毒性疾病,无根治办法,治疗效果因人而异•IL28B基因TT基因型携带者痊愈率约1/4;CC基因型携带者痊愈率达4/509年GWAS最具价值成果正在美国申请专利54应用•动植物育种在牛猪鸡、玉米小麦等方面,欧美农业部等国家机构和Euribrid、Hubb
本文标题:BCC精品培训关联分析
链接地址:https://www.777doc.com/doc-957032 .html