您好,欢迎访问三七文档
当前位置:首页 > 建筑/环境 > 工程监理 > 缺失SNP位点基因型推测
缺失SNP位点基因型推测报告人:施伟相关知识基因型推测:依据已分型位点的基因型对数据缺失位点或未分型位点进行基因型预测。理论基础:位点间的连锁不平衡,即不同位点上的等位基因不是独立出现,倾向于一起传递给下一代。基因型推测作用:缺失数据推测和稀罕SNP推测基因型预测过程目前关于基因型预测的研究工作主要在两个方面:参照面板的选取和预测的方法。参照面板:参照参照面板大多是来自国际单体型图计划(HapMap),参照面板的选择主要依据研究人群来确定。HapMap第二阶段数据包括了来自欧洲(CEU)、中国北京(cHB)、日本东京(JPT)和非洲(YRI)270个个体的超过310万个SNP位点信息,另一种获得参照面板的方法是从研究样本中选择一个子样本,对这个子样本的个体进行较多位点的分型,这个子样本的基因型数据就可以作为一个参照面板,这种方法比直接使用HapMap数据费用更高,但是这种方法填补的基因型具有更高的准确度。预测方法:基因型预测所用的参数估计方法包括期望最大化算法(expectationmaximizationalgorithm,EM)和马科夫链蒙特卡罗算法(MarkovChainMonteCarlo,MCMC)。现有预测方法基于的统计模型主要是单体型聚类算法、隐马可夫模型和马科夫链模型。现在用于基因型预测的软件主要有:Impute、fastPhase、MACH、BEAGLEIMPUTE:假设每个个体之间的基因型是相互独立的。它把已知单体型对序列看作是HMM中的隐状态,同时定义一个以已知单体型(参照面板中的单体型信息)为条件的条件概率作为转移概率,用这些隐状态和转移概率建立HMM模型,即根据已知单体型估计缺失基因型。fastPhase:假设每一个单体型都从某一个聚类中产生。用EM算法估计模型参数,利用基于HMM中隐变量的条件分布计算缺失基因型在已观测基因型和估计的模型参数条件下的条件概率,使这个条件概率最大的基因型则成为该位点基因型的填补基因型。BEAGLE:利用局部单体型聚类方法定义一个二倍体HMM。Beagle和fastPHASE都是基于HMM单体型聚类的方法,它们之间的区别在于fastPHASE在估计模型参数时使用的是EM算法,而Beagle用根据当前所估计的单体型进一步算法计算得到的经验值作为参数。MACH:这个软件是基于马科夫链模型设计的,根据个体的基因型推断单体型。这种算法做单体型分析时先随机地选择一对与已观测的基因型匹配单体型,并且为转移概率(模型的参数)估计一个初始值。在运算过程中,单体型对(Haplotypepair)会不断地通过蒙特卡罗方法迭代更新。每次迭代都利用HMM对每一个个体抽取一对新的单体型,模型参数也在每次迭代中得到更新。经过多次的重复和更新后可以得到一对真正匹配(或匹配概率最大)的单体型。各种预测方法的优劣处:Impute方法不需要进行参数估计,但计算复杂度高;FastPHASE灵活适用于大型数据集,在大量染色体情况下,计算复杂度只是线性增加,但要对模型的很多参数进行估计,这会减慢计算速度;MACH通过蒙特卡罗方法迭代更新单体型对,同时模型参数也在每次迭代中更新,这使其能更灵活地进行数据集的分析,但实际上,对有些参数的估计并不是很准确,从而降低了该方法的计算效率。BEAGKE适用于局部单倍型多样的情况,所占的内存较小,但精确度比不上MACH和Impute。fastPhase推测方法原理:在一些染色体短片段内,同一种群的单倍体倾向于聚集在一些相似单倍体组中。方法:建立一个基于单倍体的聚类模型,并且假设每一个单体型都从某一个聚类中产生。用EM算法估计模型参数,利用基于HMM中隐变量的条件分布计算缺失基因型在已观测基因型和估计的模型参数条件下的条件概率,使这个条件概率最大的基因型则成为该位点基因型的填补基因型。单倍体聚类模型假设:有n个单倍体,每个单倍体由M个标记SNP位点组成h=(h1,…,hn),hi=(hi1,…,hiM).并假设SNP位点为二等位基因,每个等位基因标记为0或者1,每个单体型样本都来自于某一个类k,总共有K个类,hi的初始的类为Zi:由于初始的类是未知的,所以单倍体hi的概率是:局部单体型聚类模型:对单倍体模型的修改,将每一个单倍体都来自于某一个类的假设替换成每一个等位基因来自于某一个特定的类。不同的颜色代表不同的类,每一列代表一个SNP位点,每两行依次代表一个个体的一对单体型。替换原因:类成员在单体型上是变化的单倍体局部聚类模型:定义:Zim为第i个单倍体的第m个等位基因所属的类则构成一个马尔科夫链,初始状态的概率:状态转移概率是:其中dm为两位点间的物理距离,rm是一个跳跃率。•所以单倍体hi的概率是:单倍体聚类模型到基因型数据的扩展:主要方法是认为由两个单倍体组成的未分型的基因型数据是独立的(哈迪—温伯格平衡),并且服从相同的分布。模型定义:n个二倍体个体未分型基因数据gim为个体i在m位点的基因型,gim的值是一对等位基因的和,为0,1,2.为gim所属的两个类。构成一条马尔科夫链。初始状态概率:转移概率:•所以当第i个体第m个位点属于zi类时gim基因型的概率为:那么在zi类的时候第i个个体的基因型gi是:同样,由于zi未知:缺失基因型数据推测:直接通过gim的概率计算其中参数,(同过EM算法对模型进行参数估计)选择使gim概率最大的基因型,并对gim进行点估计。单体型推测:主要是考虑了两个方面的问题(1):从个体未分型基因型数据的联合分布取样一个单体型对(2):对每个个体的单体型进行点估计实验结果分析基因型数据推测:对统一种群,不同的缺失率的实验结果:单体型推测结果:基于互信息理论的基因型推测:三维联合互信息:I(x,y;z)表示已知Z的情况下,所含x、y信息不确定度的减少量,并且互信息是对称的,基于联合互信息建立一个模型,检测出与缺失位点的依赖程度最大的两个位点,然后用基于单倍体的方法根据依赖程度最大的基因型信息对缺失位点的基因型进行预测。该方法预测结果:•本人感想:基于互信息理论的基因型预测模型简单,但是该方法由于要计算任意两个位点与缺失位点的互信息,不适用于大规模SNP位点数据预测,可以结合聚类的算法对其进行改进,使其适用于大型数据预测。
本文标题:缺失SNP位点基因型推测
链接地址:https://www.777doc.com/doc-6133321 .html