您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 具有遗传性疾病和性状的遗传位点分析
-1-参赛密码(由组委会填写)全全““华为华为杯杯””第十三届全国研究生第十三届全国研究生数学建模竞赛数学建模竞赛学校华东师范大学参赛队号K0209队员姓名1.贾柯2.崔轩3.陈嘉骏-2-参赛密码(由组委会填写)““华为杯华为杯””第十三届全国研究生第十三届全国研究生数学建模竞赛数学建模竞赛题目具有遗传性疾病和性状的遗传位点分析摘要:大量研究表明,人体的许多表型性状差异以及对药物和疾病的易感性等都可能与某些位点相关联,或和包含有多个位点的基因相关联。因此,定位与性状或疾病相关联的位点在染色体或基因中的位置,能帮助研究人员了解性状和一些疾病的遗传机理,也能使人们对致病位点加以干预,防止一些遗传病的发生。对于问题一,根据位点中碱基对的特征,基于生物基因的加性效应,位点中的三种组合分别可编码为0、1,、2,其中1代表杂合子基因,0和2分别代表纯合子基因中的主要等位基因(majorallele)与次要等位基因(minorallele)。对于问题二,需通过一定方法计算出每个位点与疾病之间的关联程度,本文首先通过卡方检验进行建模,并且分别用Benjamini&Hochberg(下简称BH校正)和Bonferroni校正(下简称BONF校正)P值。阈值为经过校正后P值小于0.05。满足阈值的致病相关位点为rs2273298(BH校正后p值为0.0006024;BONF校正后P值为0.0006024)。除此之外,还采用置换检验模型和贝叶斯模型进行检验,检测出来最显著的致病位点与卡方检验相一致,因此最终得出与疾病相关的位点有一个,位点名称为:rs2273298(置换检验模型校正后p值为0.009445,贝叶斯因子的对数取值为4.51238)。对于问题三,根据基因可以表示为位点的集合这一特征,本文采用Set-basedtest和VEGAS模型对一个基因内连锁不平衡的SNP位点进行建模,并且都采用置换算法进行模型求解,阈值为经过BH校正后P值小于0.05,最-3-终两个模型得到了一致且较好的效果。与疾病相关联的基因有三个,基因所属序列为:gene_55、gene_102、gene_217(Set-basedtest模型BH校正P值后分别为0.149985,0.04,0.149985;VEGAS模型BH校正后P值分别为0.00165,0.0184,0.0009)。对于问题四,多个性状往往表现为一个整体来进行衡量,本文分别采用mv-plink模型和MultiPhen模型对多个表型之间的关联进行建模,并且找出这些关联表型的致病位点。阈值选取为经过BH校正后P值小于0.05。最终两个模型都得出与样本中十个性状有关联的位点有一个,位点名称为:rs12746773(mv-plink模型BH校正后P值为2.8684472010;MultiPhen模型BH校正后P值为8.3061982110)。关键词:遗传统计学,全基因组关联性分析(GWAS),位点(SNPs),卡方检验-4-目录一、问题描述.......................................................................................................................-5-二、合理假设与符号说明..................................................................................................-7-2.1合理假设..................................................................................................................-7-2.2符号说明..................................................................................................................-7-三、问题分析.......................................................................................................................-8-3.1问题一......................................................................................................................-8-3.2问题二......................................................................................................................-8-3.3问题三......................................................................................................................-8-3.4问题四......................................................................................................................-8-四、模型特点介绍...............................................................................................................-9-4.1问题二的建模......................................................................................................-9-4.1.1卡方检验模型.........................................................................................-9-4.1.1.2列联表的独立性检验模型.........................................................-9-4.1.2基于贝叶斯的GWAS模型.........................................................................-12-4.1.3置换检验模型..........................................................................................-14-4.2问题三的建模.......................................................................................................-15-4.2.1基于集合的基因检验模型(Set-basedtest)...................................-15-4.2.2全面基于基因关联分析模型(VEGAS)....................................................-16-4.3问题四的建模.......................................................................................................-17-4.3.1基于典型关联分析的多表型模型(MV-Plink)...................................-17-4.3.2MultiPhen模型.......................................................................................-18-五、问题求解.....................................................................................................................-19-5.1问题一求解...........................................................................................................-19-5.2问题二求解............................................................................................................-19-5.3问题三求解............................................................................................................-22-5.4问题四求解............................................................................................................-23-六、模型评价.....................................................................................................................-25-参考文献...............................................................................................................................-26-附件.......................................................................................................................................-27--5-一、问题描述人体的每条染色体携带一个DNA分子,人的遗传密码由人体中的DNA携带。DNA是由分别带有A,T,C,G四种碱基的脱氧核苷酸链接组成的双螺旋长链分子。在这条双螺旋的长链中,共有约30亿个碱基对,而基因则是DNA长链中有遗传效应的一些片段。在组成DNA的数量浩瀚的碱基对(或对应的脱氧核苷酸)中,有一些特定位置的单个核苷酸经常发生变异引起DNA的多态性,我们称之为位点。染色体、基因和位点的结构关系见图1-1。在DNA长链中,位点个数约为碱基对个数的1/1000。由于位点在DNA长链中出现频繁,多态性丰富,近年来成为人们研究DNA遗传信息的重要载体,被称为人类研究遗传学的第三类遗传标记。图1-1染色体、基因和位点的结构关系大量研究表明,人体的许多表型性状差异以及对药物和疾病的易感性等都可能与某些位点相关联,或和包含有多个位点的基因相关联。因此,定位与性状或疾病相关联的位点在染色体或基因中的位置,能帮助研究人员了解性状和一些疾病的遗传机理,也能使人们对致病位点加以干预,防
本文标题:具有遗传性疾病和性状的遗传位点分析
链接地址:https://www.777doc.com/doc-6738049 .html