GWAS入门要点

背景：1996年，Risch最早提出了GWAS的设想。他认为未来人类复杂疾病的研究不再需要候选基因的预测，能够在全基因组水平检测每一个基因的变异，进行更大规模的基因检测。2001年，Hansen等最早应用GWAS在植物中对Seabeet（海甜菜）的生长习性进行了分析发现，决定海甜菜抽薹前是否需要进行春化处理的基因（B基因）与分布于全基因组范围内的440个AFLP标记中的2个显著关联；2005年，Science杂志上最早报道了GWAS应用于人类研究，Klein等发现complementfactorH基因（CFH）与具有年龄相关性的黄斑变性病症显著相关（SNP存在于CFH基因内）。定义：全基因组关联分析（genomewideassociationstudy，GWAS）是利用全基因组范围内筛选出高密度的分子标记对所研究的群体进行扫描，分析扫描得出的分子标记数据与表型性状之间关联关系的方法。即，GWAS就是利用全基因组范围内的LD来确定影响某些表型性状或数量性状的基因。流程：典型的GWAS案例通常由以下四个部分组成：（1）建立研究群体，选择尽可能大的群体作研究样本，建立目标性状数据库。如果研究性状为疾病，要同时选择已感染疾病的群体和健康群体作病例-对照组合；（2）提取样本DNA并进行质量控制以达到基因分型的要求，对基因型数据进行检测和质量控制以达到后续关联分析的要求；（3）利用合适的统计模型对SNP和目标性状进行关联分析；（4）对关联分析的结果进行高级分析及验证分类：GWAS研究统计分析原理分为以下几种情况：（1）基于无关个体(Unrelatedindividual)的关联分析：基于此法设计的关联分析包括病例-对照分析法（Case-controlanalysis）和基于随机群体的关联分析（Population-basedassociationanalysis）。前者主要检测病例组和对照组全基因组中基因型的分布特征和差异，可用4格表的卡方检验来比较基因频率在研究组和对照组间的差异，若两者之间存在显著性差异则可能表明该遗传差异和疾病有关联。病例-对照法常用于人类疾病易感基因的研究，主要关注质量性状。基于随机群体的分析法主要应用于动植物中，主要关注数量性状。比如在研究动物经济性状候选基因时可采用这种方法。（2）基于家系的关联分析（Family-basedassociation）：基于无关个体的关联分析可靠性会受到样本群体分层或其他混杂因素的影响。基于家系的关联分析可以有效提高分析的可靠性，避免群体分层对关联分析结果的影响（如果利用多个家系同样有可能产生群体分层）。当选择的样本具有完整的系谱信息时，可以采用传递不平衡检验(TransmisstionDisequilibriumTest,TDT)法对SNP与所关注数量性状的关联效应进行分析。试验设计：一种是单阶段设计（One-stagedesign），另一种是两阶段设计（Two-stagedesign）或多阶段设计（Multiple-stagedesign）。单阶段设计中一次性选用足够大的样本量，对每一个样本都进行SNP基因型分型，然后分析相关性状与每个SNP的关联效应。而两阶段或多阶段设计中，首先选择一个小样本量进行SNP分型，统计分析时在较为宽松的P值条件下先筛选出与目标性状呈显著相关的SNPs，然后在大样本中对已经第一步筛选出的SNPs进行分型，结合两个阶段的分析结果进行最后统计。二者相比，单阶段设计的最大缺陷在于基因分型耗资巨大，两阶段或多阶段设计是一种即经济又高效的研究策略。1.资源群体：参见定位动物QTL的作图群体GWAS中样本量的大小取决于期望效应的大小示例1：示例2：本研究所用试验群体是以4头大白公猪与16头民猪母猪为F0代交配产生F1代个体，然后从F1代中挑选9头公猪和46头母猪在避免全同胞的前提下自交产生的F2代群体。示例3：本研究选用苏尼特羊、德国肉用美利奴羊（德美羊）和杜泊羊三个绵羊品种，所有的试验羊均为随机选择，无家系信息，共计329只，其中苏尼特羊69只（公57母12），德美羊161只（公71母90），杜泊羊99只（公49母50）。2.表型选择：遵循以下3个原则：（1）选择遗传力较高的表型，遗传度低的表型会降低遗传学关联研究的把握度；（2）性状优于疾病（表型），疾病（表型）的状态模糊不清，很难测量，有时则会出现多种疾病（表型）混杂在一起而难以判断；（3）选择测量简单准确并且遗传力相对较高的数量表型，增加分析结果的可信度3.标记分型：3..1示例芯片：本研究使用的是Illumina公司研制PorcineSNP60BeadChip全基因组芯片（如图），包含超过60000个SNP位点，以步长平均每40kb有一个标记，覆盖猪的基因组。此芯片整合了多种猪的基因差异，包括杜洛克猪，长白猪，皮特兰猪和大白猪，其性价比高，能提供足够的SNP密度，可应用于全基因组关联研究中。这张芯片可以测定12个个体GWAS.3.2实验流程：（1）DNA定量测定DNA浓度，并统一标化成50ng/μL。进行Infinium分析需要的DNA样本量为500ng~750ng；（2）DNA扩增产物孵育在样本中加入0.1NNaOH使DNA变性为单链，经中和后加入全基因组扩增试剂，在37℃恒温条件下过夜孵育，扩增后的DNA总量可达初始上样量的2000~3000倍，该过程不会产生等位基因偏向性扩增；（3）DNA扩增产物片段化扩增后的产物，经过可控的且不需要凝胶电泳的酶解处理，成为片段化的DNA。该过程利用终点式（End-point）片段化方法，以防止样本的过度片段化；（4）DNA沉淀和悬浮加入异丙醇进行沉淀DNA片段过程，片段化的DNA在4℃下离心富集，从而得以纯化。将沉淀后的DNA在空气中进行干燥后，加入杂交缓冲试剂使其重新溶解；（5）准备微珠芯片；（6）DNA与芯片的杂交将重悬后的DNA样本与准备好的微珠芯片杂交，置于杂交炉内反应过夜。在杂交过程中，片段化后的DNA经过变性，与位点特异的60个碱基退火，而这60个特异碱基连接在芯片的60000种微珠（Bead）中的一个上，一个微珠类型对应检测一个SNP位点；（7）芯片的延伸、染色洗去未杂交的和非特异杂交的DNA，以便后续的染色和延伸。以捕获到的DNA为模板，在芯片上进行单碱基的延伸反应，在芯片上加上可检测的标签基团，从而区分样本的SNP类型；（8）包被微珠芯片将反应完成的芯片放入XC4试剂中，使其表面包裹上一层粘性透明液体，再将其放入真空环境下干燥1小时，从而将芯片包被，保护其信号稳定较长的时间；（9）芯片的扫描将处理好的芯片放入扫描仪中，利用激光激发芯片上单碱基延伸产物的荧光基团，扫描仪获取由荧光基团发出的荧光，并生成高分辨率的图片。由此所得的数据直接导入BeadStudio软件进行分析，从而就得到每个样本的SNP分型数据。4.质量控制：样本质量控制：①用Kolmogorov-Smirnov（K）方法进行数据的正态分布检验。对不符合正态分布的数据使用Minitab15软件进行Johnson转换。②应用最大似然法的Cervus程序校验系谱信息和所使用SNP信息间的匹配情况。基因型质量控制（QualityControl，QC）：就是对BeadStudio软件识别后导出的基因型，进行一些初步的整理和分析，然后再应用于后续分析，可以提高全基因组关联分析的效力。首先采用Beadstudio软件将芯片数据进行可视化处理，手工校正软件判型不准确的SNP位点后，并导出数据为文本形式。主要指标包括：①SNPcallrate：指某一SNP被成功测量的样本占所有样本的百分比，一般要达到95%以上；②最小基因频率（minorallelefrequency，MAF）：一般应大于1%；③Hardy-Weinberg（HWE）平衡检验，不符合的SNPs应去除；④重复样品检验结果的一致性：一致性应在99.5%以上。5.群体分层在GWAS中，群体分成（populationstratification）和多重假设检验（multipletestingadjusting）是引起研究结果分析误差的重要原因。一种可能的策略是采用基于家系的关联研究，该方法可以避免群体分成对关联分析结果的影响。所谓群体分层，是指群体内存在等位基因频率不同的亚群体。由于自然选择、遗传漂变、群体分层等诸多因素都会影响到群体中的连锁不平衡，因此，在进行关联分析时,一些非原因等位基因也可以同真实QTL形成连锁不平衡表现为与研究性状关联，从而导致伪关联或假阳性的出现。6.关联分析在GWAS研究中，当涉及质量性状时一般采用Logistic回归模型进行分析，对于数量性状的研究，主要采用线性回归模型进行关联分析。在Logistic回归模型中，基因型是应变量，群体结构和表型是自变量；而在线性回归模型中，表型是应变量，其他品种、性别、群体结构和基因型数据则是自变量。线性模型包括两种：一般线性模型（generallinearmodel，GLM）和混合线性模型(mixedlinearmodel，MLM)。复杂数量性状通常受到多种因素的共同影响，而混合模型中可以加入固定效应和随机效应，因此，以研究数量性状的全基因组关联分析方法常采用混合线性模型进行分析。7.GWAS局限性①可靠性：GWAS主要依赖统计分析，因此可能会出现比较多的假阳性和假阴性结果，，大量功能实验的验证才是根本解决办法②重复性：同一变异在一个群体中呈显著，在另外群体中有时却并不显著，重复性不好。这是由于不同群体中可能具有不同的等位基因频率，或者不同群体有不同的连锁不平衡区域造成的，因此，GWAS结果需要进行反复的大样本验证。③精确性：GWAS可以确定与性状或疾病相关的位点而非直接确定基因本身。目前利用GWAS研究已发现的与人类疾病关联的SNPs中，约43%变异位于基因间，约45%位于内含子区域，只有很少部分位于基因功能区。④有效性：GWAS研究难以检测到罕见变异是导致其结果较难解释大部分复杂性疾病遗传学特征的主要原因。目前利用GWAS研究发现的显著位点多为MAF大于5%的常见变异，平均频率约36%，而很少能检测到少见变异（MAF介于0.5%～5%之间）或者罕见变异（MAF0.5%）。自己的认识：1.基于无关个体的关联分析可能会产生群体分层，而仅采用单个家系（利用基于家系的关联分析）不会产生群体分层，但采用多个家系的基于家系的关联分析，其结果同样可能受群体分层的影响。2.GWAS-QTL定位-QTNGWAS与QTN：GWAS揭示的是与目标性状显著关联的SNP标记，这些标记是高密度的，因此显著关联的SNP有可能就是QTN，这需要验证。但这种验证需要QTN的效应非常大。大部分显著关联的SNP无法得到直接验证（它们可能是与QTL连锁的标记，也有可能是效应比较低的QTN）。只能通过重复实验来验证它们与目标性状关联的可靠性。截止到2012年公认的QTN仅有3个：猪的IGF2基因、奶牛的DGAT1基因和绵羊的GDF8基因），但这需要验证。GWAS与QTL定位：QTL定位所用的作图群体必须要有系谱信息，因此GWAS分型的结果能否用于QTL定位，要根据所用资源群体而定。利用示例3资源群体进行的GWAS得到的结果就无法用于QTL定位。但是利用GWAS的结果进行QTL定位是没有必要的。首先，SNP芯片是高密度的（几十Kb一个SNP），因此可以在显著关联的SNP附近筛选候选基因；其次，即使利用GWAS的结果进行QTL精细定位，也只能将QTL定位在5cM左右，同样也无法找到QTN或主基因。参考文献：1.鸡胫长和胫围的全基因组关联分析2.中国荷斯坦牛乳房炎易感性及抗性的全基因组关联分析3.全基因组关联分析4.绵羊肉用性状全基因组关联分析5.奶牛重要经济性状全基因组关联分析6.猪肉质性状全基因组关联研究

GWAS入门要点

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

物联网综述

正确应用信息教育技术合理拓展教学实践空间

商业银行市场导向管理绩效研究

会计师在资本市场融资中的作用和承担的责任

星级酒店之餐饮经营策略

化妆品公司人力资源管理制度

经营阶层声明CEO(1)

全球经济失衡与次贷危机(ppt)

广州坐拥海陆空保税物流体系直面深港竞争

运营计划方案

相关文档

相关搜索

GWAS入门要点

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

物联网综述

正确应用信息教育技术 合理拓展教学实践空间

商业银行市场导向管理绩效研究

会计师在资本市场融资中的作用和承担的责任

星级酒店之餐饮经营策略

化妆品公司人力资源管理制度

经营阶层声明CEO(1)

全球经济失衡与次贷危机(ppt)

广州坐拥海陆空保税物流体系直面深港竞争

运营计划方案

相关文档

相关搜索

正确应用信息教育技术合理拓展教学实践空间