您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > GWAS分析培训班第二期
GWAS分析培训班第⼆二期 张磊磊2017-3-30博奥⽣生物集团有限公司⽣生物芯⽚片北北京国家⼯工程研究中⼼心北北京博奥晶典⽣生物技术有限公司Contents⽬目录基础知识介绍PLINK介绍典型案例例TASSEL介绍⽬目录基础知识介绍part1Contents4基础知识介绍常⽤用术语●基因座(Locus):染⾊色体上的⼀一个固定位置。●等位基因(Allele)同源染⾊色体上的⼀一段DNA序列列在给定locus上的多种变化形式。●等位基因频率某个allele在所有样本中的频率。●次等位基因频率(MAF)minorallelefrequency5●基因型(genotype)AC、AT、AG、CG、CT、GC、GT、AA、TT、CC、GG●单体型(haplotype)●哈代-温伯格平衡(Hardy-Weinbergequilibrium,HWE):对于⼀一个⼤大且随机交配的种群,基因频率和基因型频率在没有迁移、突变和选择的条件下会保持不不变。f(A)=pandf(a)=qp2,2pq,andq2:Hardy–Weinbergproportions基础知识介绍6基础知识介绍基因型AAACCC总数数⽬目146913851612p=(2*1469+138)/(2*1612)=0.954q=1–p=0.046假设HWE:Exp(AA)=p^2*1612=1467.4Exp(AC)=2pq*1612=141.2Exp(CC)=q^2*1612=3.4Pearson’s卡⽅方检验统计量量: =(1469-1467.4)^2/1467.4+(141.2-138)^2/141.2+(3.4-5)^2/3.4=0.833.84Pvalue0.05=不不能拒绝HWE的零假设7Callrate(分型成功率):●SNPcallrate:分型成功的个体数⽬目/样本量量●个体callrate:分型成功的SNP数⽬目/芯⽚片上SNP总数⽬目e.g.Axiom™hNCG-SNP有551363个SNPs,检测192个体。某个体分型成功的SNPs数⽬目为523120,则个体callrate=523120/551363=0.948776;SNPAX-123在188个体中成功分型,则SNPcallrate=188/192=0.9791667基因型导出软件:Affymetrix:GTCIllumina:GenomeStudio基础知识介绍8基础知识介绍全基因组关联分析常⽤用⽅方法Case-control试验设计:●卡⽅方检验、fisher精确检验●Logistic回归分析:可校正年年龄、性别、群体分层、体重等可能的混杂因素。9基础知识介绍全基因组关联分析常⽤用⽅方法动植物常⽤用的试验设计:●针对数量量性状:⽐比如体重、⾁肉质、产奶量量、千粒重、株⾼高、穗⻓长、抗病性等等。●线性回归分析(GLM):可校正年年龄、性别、群体分层、体重等可能的混杂因素。●混合线性模型分析(MLM):除校正上述因素外,还可校正个体间亲缘关系。10混合线性模型(MLM):Y=Xβ+Sα+Qv+Zu+eY:性状表型值向量量β:除SNP和群体结构之外的固定效应向量量α:SNP效应向量量v:群体结构效应向量量u:多基因背景效应向量量e:残差效应向量量,e~N(0,Iσ2e),其中I为单位阵,σ2e表示随机残差⽅方差X、S、Q、Z分别为β、α、v、u的关联矩阵。⼀一般线性模型(GLM):Y=Xβ+eY:性状表型值向量量;β:SNP、群体结构、环境等的固定效应向量量e:残差效应向量量,e~N(0,Iσ2e),其中I为单位阵,σ2e表示随机残差⽅方差全基因组关联分析常⽤用⽅方法基础知识介绍11基础知识介绍—替换Affymetrix:GTCIllumina:GenomeStudioAffymetrix:cellllumina:idat卡⽅方检验、fisher精确检验、logistic回归、GLM、MLMPCA或MDS全基因组关联分析基本流程121231:ManhattanPlot2:QQ图3:SNP分型聚类图基础知识介绍⽬目录PLINK介绍part2Contents14●PED第1列列:家系ID第2列列:个体ID第3列列:⽗父亲ID第4列列:⺟母亲ID第5列列:性别(1:男性;2:⼥女女性)第6列列:患病状态(0:未知;1:正常;2:患病)其余各列列:基因型⽂文件格式●MAP第1列列:染⾊色体ID第2列列:SNPID第3列列:SNP的遗传位置(cM)第4列列:SNP的物理理位置(bp)转置后的TPED和TFAMPED和MAP15基本操作HWE平衡检验SNPcallrateMAF个体callrate质控HWE检验经典的卡⽅方适合度检验改进的HWE检验⽅方法16基本操作质控后数据计算的PC数⽬目结果加表头结果制表符分割PCA17基本操作基本关联分析⽬目录TASSEL介绍part3ContentsTASSELTASSEL:TraitAnalysisbyaSSociation,EvolutionandLinkage•DevelopedintheBucklerLabatCornellUniversity.•Providingtoolstoinvestigatetherelationshipbetweenphenotypesandgenotypes:associationstudyevaluatingevolutionaryrelationshipsanalysisoflinkagedisequilibriumprincipalcomponentanalysisclusteranalysismissingdataimputationdatavisualization操作界⾯面TASSEL被组织成五个主要⾯板:1)顶部的菜单控制功能。2)左边顶部的数据树,组织数据集和结果。在执⾏⼀个想要的功能或分析之前必须⾸先选择数据树中显⽰的数据集。要选择多个数据集,按下CTRL键然后选择数据集。3)报告⾯板,位于数据树⾯板下⾯。它显⽰从数据树中选择的数据集的有关信息,⽐如数据的类型以及它是如何创建的。4)进度监控⾯板,在报告⾯板下⾯,显⽰运⾏任务的进度,具有能够取消任务的按钮。5)主⾯板,占据视图区域的右侧,显⽰从数据树中选择的数据集的内容。21操作界⾯面数据树⾯面板报告⾯面板进度控制⾯面板主⾯面板22Data菜单介绍具有⽤来导⼊和导出数据集的选项,还有其它的数据处理功能。Load提供选项来导⼊入基因型、表现型、群体结构、以及亲缘关系矩阵、等等的⽂文件。接收多种⽂文件格式23基因型⽂文件格式•Hapmap是⼀个基于⽂本的⽂件格式,⽤于存储序列数据。•第⼀⾏包含标题,其余⾏包含与单个SNP有关的全部信息;•最前⾯11列描述SNP的属性,接下来的列描述单个种质品系的SNP值;•必需字段是“chrom”(染⾊体名称)和“pos”(位置);•数据必须按照染⾊体位置次序排列;•⽂件应该⽤制表符分隔;24表型⽂文件格式⽂件以关键词Trait开始,后⾯是表型名称。25协变量量⽂文件格式•除了第⼀⾏必须是“Covariate”之外,协变量数据的格式和表型数据⼀样;•TASSEL通过此标题判断该变量将被作为协变量使⽤,⽽不是作为因变量使⽤;26亲缘关系矩阵•可以由TASSEL计算,也可由第三⽅软件计算,如SPAGeDi等。•n代表分类单元的数⽬;•rij(i,j=1,2,...,n)是亲缘关系矩阵中位于第i⾏和第j列的元素;•亲缘关系矩阵不允许有缺失值;27Data菜单介绍具有⽤来导⼊和导出数据集的选项,还有其它的数据处理功能。Export提供了选项来导出序列数据:Hapmap、VCF、Plink、Phylip(顺序的或间隔的)28Analysis菜单介绍GLM选项这个功能使⽤⼀个最⼩⼆乘固定效应线性模型进⾏关联分析。marker_F:对标记进⾏F检验的F值;marker_p:对标记进⾏F检验的P值;markerR2:在配合其它的模型项(群体结构)之后标记的R2;markerDF:标记的⾃由度;markerMS:标记的均⽅;errorDF:剩余误差的⾃由度;errorMS:剩余误差的均⽅;modelDF:模型的⾃由度;modelMS:模型的均⽅。29Analysis菜单介绍MLM选项•这个命令通过⼀个混合线性模型来进⾏关联分析。;•混合模型是包含固定效应和随机效应的模型。包含随机效应使MLM可以整合有关个体之间的亲缘关系信息;•当⼀个基于亲缘关系矩阵(K)的遗传标记被与群体结构(Q)⼀起使⽤时,与只⽤“Q”的⽅法相⽐“Q+K”⽅法提⾼了统计功效;•TASSEL也实施⼀个称为压缩(compression)的⽅法,它降低亲缘关系矩阵的维数,以便减少计算时间,并改进模型拟合;列“GeneticVar”,“ResidualVar”,和“-2LnLikelihood”分别列出σa2,σe2,以及模型似然值的负⼆倍。⽬目录典型案例例Part4Contents31研究路路线以543份⽟玉⽶米⾃自交系组成的关联群体为材料料,利利⽤用MaizeSNP50芯⽚片进⾏行行56110个SNPs的分型,采⽤用混合线性模型在全基因组范围内鉴定影响⽣生育酚含量量的遗传变异。32数据质控✓SNP分型成功率(callrate):⼤大于75%✓昀⼩小等位基因频率(MAF):⼤大于0.05✓个体杂合率:⼩小于33%✓个体分型成功率:⼤大于90%✓昀后剩余513个体和48962个SNPs⽤用于后续分析33分析结果分别检测到13个、1个、3个、1个与以上性状显著关联的SNPs感谢聆听ThankyouforyourattentionBestregards博奥⽣生物集团有限公司⽣生物芯⽚片北北京国家⼯工程研究中⼼心北北京博奥晶典⽣生物技术有限公司
本文标题:GWAS分析培训班第二期
链接地址:https://www.777doc.com/doc-958466 .html