您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 药学 > 基因组学技术在致病基因发现
1基因组学技术在致病基因发现及临床诊断中的应用引言•对疾病的研究一直是人类科研活动的重点和热点之一•人类所有疾病都具有遗传影响和背景,但只有在一少部分疾病中,遗传因素起主要作用•遗传病通常具有先天性、终生性和家族性的特点2•遗传病分类•单基因遗传病研究策略回顾•复杂疾病研究策略回顾•应用二代测序技术寻找易感基因3遗传病分类•单基因遗传病•多基因遗传病•染色体疾病•线粒体疾病•体细胞遗传病4•权威的在线人类孟德尔遗传数据库(OnlineMendelianInheritanceinMan,OMIM),目前已收录的以孟德尔遗传方式为主的遗传病约6700种,其中常染色体连锁的约6200中,性染色体连锁的500种。在这6700多种遗传疾病中,其中已确定其分子遗传基础的单基因病接近3000种,表型已知而致病分子基础未知的约有1830多种。由于单基因病的遗传异质性,还有很多的亚型未被发现。单基因遗传病AutosomalX-LinkedY-LinkedMitochondrialTotal*Genewithknownsequence12605620483513308+Genewithknownsequenceandphenotype3141802334#Phenotypedescription,molecularbasisknown27252364282993%Mendelianphenotypeorlocus,molecularbasisunknown1632134501771Other,mainlyphenotypeswithsuspectedmendelianbasis1831130201963Total191071138596520369OMIMStatisticsforMay3,20116多基因遗传病遗传方式复杂,无显性和隐性之分,故也称多因子遗传或复杂疾病。常见的有唇腭裂、先天性下颌前突、高血压、糖尿病、精神分裂症、类风湿性关节炎及先天性心脏病等。复杂疾病的发病率常有地区或族群差异。比如在世界范围内,唇腭裂的发生率约为1/700,拉美、亚洲发生率高,非洲较低。下颌前突亚洲群体发病率较高,大约有8%~40%,非洲为3%~8%,欧美较低,约为0.4%~4%。7染色体疾病•数目性染色体畸变–例子如Down综合征,即21三体综合征表型特征有智力低下、伸舌、鼻梁低平、眼裂上斜、小耳、小颌、枕平、内眦敖皮、颈短及肌张力减低等,常伴有先天性心脏发育缺陷•结构性染色体畸变–是在细胞分裂过程中曾有染色体断裂所致。常见的结构异常有缺失、环状染色体、易位、重复、倒位和等臂染色体。如毛细血管扩张性共济失调症染色体数目异常比结构异常更常见8疾病致病基因查找研究疾病致病基因查找对疾病的诊断与治疗有巨大意义除DNA水平,还有RNA、蛋白、细胞水平等自动化DNA测序仪与微阵列芯片-强有力工具人类基因组计划完成–总体框架传统的基于连锁不平衡(LD)的方法基于家系的Linkage分析基于大样本的Association分析很多成功范例疾病致病基因定位研究罕见疾病感染率低(1/1000),样本少患者生存期短,难以繁衍后代,家系不完整基于LD的方法的不足罕见疾病-无完整家系,无大样本定位粗糙,无法确定真正的基因或位点,靠DNA测序直接测序精确测定个体基因组序列,可发现细微差别通过比较多个同疾病类型个体的突变数据,寻找共同突变基因Sanger测序技术成本高,方法复杂单基因病研究策略简要回顾•功能克隆绝大多数遗传病的致病机制是不为人知的,因此致病基因的产物是不清楚的,也就无法运用功能克隆策略。•位置克隆其最大优点是不需要事先对致病基因相关功能的了解。利用连锁分析或细胞学定位技术将致病基因定位于染色体的某一特定区域。•位置候选克隆针对基因组上已定位的候选区域,对其中已注释的基因、表达序列标签、开放阅读框、cDNA片段等数据信息进行整合分析,按照功能信息来预测和筛选的致病基因。在此基础上,设计实验鉴定和验证致病基因。11单基因病研究策略简要回顾•参数连锁分析方法–需要提供各项描述疾病遗传模式的参数,主要包括致病基因频率、各基因型的外显率。一般指LODScore法•非参数连锁分析方法–由于很多遗传病的基因频率未知,同一种疾病在不同家系的遗传模式和外显率也有变化。非参数分析避开对遗传模式的猜测。12多基因病研究策略简要回顾•关联分析–HapMap计划的实施和SNP芯片技术的成熟使得大样本量的关联解析在近10年间迅速流行。加之收集散发样本较收集大家系样本容易,使得关联分析的更受推崇。•连锁分析–由于很多复杂疾病通常未表现出明显的孟德尔遗传模式,导致参数连锁分析在其易感定位研究中的应用受到限制。尽管如此,利用家系定位复杂疾病易感基因也不乏成功的例子。如乳腺癌易感基因BRCA1,2的确证。–另外,结合初步连锁分析和后续关联分析的方法已经成功定位了几个复杂疾病的易感基因,如2型糖尿病的NIDDM基因及哮喘病的ADAM33基因13家系样本收集14独生子现象,导致难以收集大家系相关资料收集齐全,尽量多收样本长期收集,保持回访家族性高胆固醇血症15家族性高胆固醇血症序号亲属年龄TC岁mmol/LTGmmol/LHDL-Cmmol/LLDL-Cmmol/L黄色瘤冠心病1Ⅲ1(先证者)521.231.280.8719.77+-2Ⅱ1(父亲)306.284.660.953.18--3Ⅱ2(母亲)299.260.941.417.43--4Ⅱ3(三姨)217.553.051.824.32--5Ⅱ4(小姨)199.332.041.826.57--6Ⅱ9(表舅)456.264.871.195.07--7Ⅱ15(表舅)436.261.461.514.08--8Ⅱ17(表舅)405.931.041.983.46--9Ⅱ24(表姨)407.421.41.934.84--10I1(外祖父)587.92.521.635.11-+11I4(外祖母)545.891.51.543.66--12I7(大舅爷)726.762.971.443.95--13I8(大舅姥姥)747.551.682.24.58--14I10(二舅姥姥)668.262.211.535.71--15I11(三舅姥姥)596.792.851.593.89--16I12(表舅爷)477.245.471.335.92--16先证者父母胆固醇都较高17SNP芯片全基因组连锁分析•SNP标记最大的特点在于单个SNP位点只有两个等位基因,杂合度低,多态性不够,但是可以通过分析相连SNP位点构成的单体型来增加信息量。•利用SNP芯片进行连锁分析,并精确定位到连锁区域或易感基因的研究有很多。甚至在有些研究中,采用高密度的SNP连锁分析发现了被STR连锁分析漏掉的显著连锁信号。•基于SNP的连锁分析较传统的基于STR的连锁分析更为高效、便捷,且其检测连锁信号的效力可能更强。18IlluminaInfiniumHumanLinkage-12panel平均间距0.55cM441kb19IlluminaHumanCNV-370芯片•370,000loci•318,000tagSNPs20数据分析方法•GenomeStudio–Callrate99%•CNVpartition–至少连续5个探针21数据分析方法•连锁分析–Merlin–Genehunter–Mendel•单体型分析–Merlin–Haplopainter•CNVpartition22连锁分析流程23参数连锁分析在复杂疾病中的应用•在复杂疾病连锁分析中,很多研究倾向于非参数分析,避开对遗传模式的猜测•仍有一些学者认为参数连锁在复杂疾病研究中仍然有不可替代的优势•在很多研究采用一系列不同的遗传模式,以得到最优遗传模式参数•最好结合参数和非参数分析的结果,二者吻合度到,共同支持的连锁区域更可信。24参数连锁分析在复杂疾病中的应用•双致病位点连锁分析在定位到两个或多个候选区域的复杂疾病家系研究中,具有重要意义•双致病位点模式可以提高复杂疾病连锁信号的检测效能。这种方法已在多项复杂疾病如家族性高胆固醇血症、静脉血栓栓塞和双相情感障碍研究中成功运用。双区域连锁分析数值高于与单个区域连锁值提示遗传因素相互影响是客观存在的。而这种优势越明显,则越支持两个区域的相互作用。25CNV与疾病•CNV不仅在基因组中广泛存在,而且在基因富集区尤为突出。•大量研究已证实CNV是某些复杂疾病的易感因素,与人类的一些复杂性状,如个体之间的感官差异(包括嗅觉、听觉、味觉和视觉)也有关系。•目前已知多种复杂疾病与特定基因的CNV有着明确关系。目前,关于基因组内CNV与疾病的相关性仍处在广泛的研究中,可以肯定的是,其中高频拷贝数变异区域往往在减数分裂时产生重排,导致发育异常类疾病。26总体结论•基于类似孟德尔遗传的大家系(患者大于10例,至少3代),采用SNP芯片连锁分析是定位复杂疾病易感基因的有效方法之一。•双致病位点连锁分析在定位到两个或多个候选区域的复杂疾病家系研究中,具有重要意义。27应用二代测序技术寻找易感基因外显子组测序单个病例、病例组、核心家系全基因组测序几个病例、癌组织28应用二代测序技术寻找易感基因•随着二代高通量测序技术的成熟,基于家系样本和少量病例样本的全基因组重测序和外显子组重测序在疾病易感基因研究方面开始显现巨大优势。•目前,已有数十种疾病通过外显子组重测序成功定位到了新的易感基因及突变,比如恶性黑素瘤、和痉挛性截瘫。全基因组重测序主要是在癌症这样异常复杂的疾病研究中应该更广泛,比在肝癌和乳腺癌。29外显子捕获测序(WES)技术外显子区域基因组主要功能区至少85%孟德尔遗传疾病突变位点位于外显子域只占全基因组~1%区域,数据量小外显子捕获测序多重探针杂交,特异扩增2009年首次应用于致病基因的筛选FreemanSheldonsyndrome,4样本-MYH3,验证了已有研究结果。(NGSB,JayShendure,Nature,2009)2010年科学杂志十大科学突破之一WES筛选疾病致病基因策略筛选目标引起氨基酸变化的未知或已知罕见突变(missense,nonsense,spliceSNP,codingIndel)筛选方案疾病遗传模型筛选策略样本常染色体隐性遗传commonLOHgene无关个体,家系常染色体显性遗传疾病commonmutatedgene无关个体,家系高异质性常染色体显性遗传疾病commonLOHgene家系,无关个体自发突变(germline)平均0.86NS-SNP/新生儿(LynchM,PNAS,2010)commonmutatedgene无关个体,父/母/子自发突变(somatic)commonmutatedgene无关个体(正常组织,患病组织)WES实验方法外显子捕获试剂盒及实验Agilent公司SureSelectHumanAllExonKit试剂盒(有效覆盖区域30M)Pair-end文库IlluminaPaired-EndGenomicDNASamplePrepKit(p/nPE-102-1001)试剂盒,平均插入片段长度200测序平台及实验IlluminaHiseq2000单样本单道(lane),目标测序长度100,循环次数为108次WES数据分析目标:Rare或novel突变,NS/SS/cIndel流程图WES数据分析方法和软件选择依据:1000Genomes使用软件使用软件原始数据质量评估与过滤-SolexaQA软件包原始数据定位(ReadsAlignment)软件-BWA软件数据校准和重定位–GenomeAnalysisToolkit(GATK)突变和插入缺失查找–SamtoolsdbSNP和1000Genomes位点过滤-自编Perl程序基因注释–自编程序突变功能评估-Polyphen-2突变基因筛选复合杂合突变基因-筛选流程NGS突变查找中的FN和FP问题•NGS突变查找中的存在假阴性和假
本文标题:基因组学技术在致病基因发现
链接地址:https://www.777doc.com/doc-3247292 .html