您好,欢迎访问三七文档
当前位置:首页 > 高等教育 > 理学 > 神经网络集成技术及其在癌症基因分类中的应用研究
湖南大学硕士学位论文神经网络集成技术及其在癌症基因分类中的应用研究姓名:钟金贝申请学位级别:硕士专业:软件工程指导教师:林亚平;夏威20090301://://://://://://://://://://://://://://://://://://://神经网络集成技术及其在癌症基因分类中的应用研究作者:钟金贝学位授予单位:湖南大学相似文献(6条)1.学位论文金志超偏最小二乘法在癌症微阵列基因表达数据分析中的应用2009微阵列技术彻底改变了癌症基因的检测方式,从单个基因的检测跃升为成千上万个基因同时检测,这大大提高了检测的效率,同时降低了检测成本,目前它已经是癌症研究中最常用和最有力的工具之一。但是,新的问题随之而来,在微阵列的数据环境中,变量的个数(基因的个数,p)要远远超过样本含量(样本个数,n),出现了所谓的“大p小n(largep,smalln)”问题,而且各个变量间不独立,关系复杂。传统的统计方法如多元线性回归,Logistic回归以及COX模型等无法进行有效预测。在与微阵列数据有相似数据结构的计量化学领域,偏最小二乘法(PartialLeastSquaremethod,PLS)被证明是一种十分有效的回归预测模型。PLS以它的“软建模”而著称,所谓的“软建模”是指在建模过程中没有普通最小二乘所需的前提约束,如变量间相互独立无多重共线性等。随着生物信息学的发展,在本世纪初PLS引入了微阵列基因表达数据的分析,它的特点是高效的计算和统计效率、结果的可视化,同时兼有很大的灵活性和多功能性。[目的]本研究将PLS引入癌症微阵列基因表达数据的分析中,探讨PLS在癌症基因表达数据分析中的各种应用,具体包括利用基于PLS的变量重要性指标(VariableImportanceinProjection,VIP)筛选差异表达基因,并且对筛选得到的部分差异表达基因进行生物学解释;由于细胞遗传学异常对肝癌的形成和发展以及早起检测有着重要的作用,本研究利用筛选得到的差异表达基因结合Fisher精确检验预测肝癌的细胞遗传学异常区域;精确的多分类方法对于多分类肿瘤的亚型有着重要作用,本研究对两种基于PLS的多分类方法的准确性和稳定性进行了全面地比较。[方法]①利用基于PLS的VIP值筛选差异表达基因;②利用①得到肝癌异常表达基因,根据基因在染色体上的定位,计算每条染色体上的上调、下调基因以及正常表达基因,结合Fisher精确检验识别有统计学意义的细胞遗传学异常区域;③利用NCI60等4个肿瘤基因表达数据库,通过4种不同方法选取差异表达基因,并运用不完全交叉验证技术评价4种差异表达基因选取方法对分类结果的影响,在此基础上,选择对分类最有利的一种差异表达基因选取方法,运用完全交叉验证技术对两种基于偏最小二乘的多分类方法的准确性和稳定性进行比较,寻找差异表达基因选取方法、分类方法、成分数选择的最佳组合。[结果]①通过VIP值有效地提取差异表达基因;②利用VIP值筛选得到的差异表达基因结合Fisher精确检验能够准确预测肝癌的细胞遗传学异常区域,与传统的实验方法相比,在降低假阳性的情况下,识别效率有了很大的提高:与CGMA相比较,灵敏度有了较大提高,和LSS-CAP相比,本研究所用方法简便快速,识别了5q(Gain),17q(Loss)和21q(Loss)三个LSS-CAP未识别区域,并且避免了两个疑似假阳性区域15q(Gain)和22q(Loss)的识别;③两种基于PLS的多分类方法在经过差异基因选取后都可以达到较好的分类效果,经不完全交叉验证,VIP值法得到的差异表达基因对分类最有利,其值前200位基因和4个成分水平上两种分类方法都能得到较低的误分率,这个结果从侧面反应了VIP值作为基因筛选指标的合理性;通过不同k值下的完全k倍交叉验证考察两种分类方法,结果PLS-DA在分类准确性和稳定性上都略优于PLS-LDA。2.学位论文杜芳非负矩阵因子分解算法处理癌症基因表达数据的研究2009肿瘤的发生和发展是一个复杂的多阶段过程。它通常是由于某些基因突变和异常表达所致,或者进一步影响另外一些基因的表达,从而导致细胞内一些蛋白质分子发生改变,并由此产生肿瘤病理学上的差异,因而形成了临床诊断中的不同分类。能够正确的对不同病理分型的肿瘤进行分类,并找出导致其分型的差异表达基因,对肿瘤诊断和治疗具有非常积极的意义。本文根据肿瘤基因表达数据的数据特性和生物机理,研究其分类和差异表达基因提取方法,主要开展了以下工作:1.分析和实现了非负矩阵因子分解(NMF)算法,并提出将此算法用于胃癌基因表达数据的正常样本与疾病样本的分类,且分类正确率高达98.41%。同时,本文将NMF算法推广到结肠癌样本的分类中,正确率达到88.10%。研究结果表明,本文方法对疾病的临床诊断和生物医学研究有重要的参考和借鉴作用。2.基于NMF算法提出了差异表达基因的提取方法。该方法主要通过分析基因与集合基因之间在数值表达上的相互关系,提取在胃癌组织中有显著上调表达或者下调表达的差异表达基因,并通过EASE基因表达分析软件系统对有差异表达的基因进行统计学分析,找出共同参与某一生物过程的一系列基因,结合相关医学文献对在胃癌的发生发展过程中起到重要作用的基因进行详细注释。该方法通过对集合基因的巧妙利用,扩展了非负矩阵分解算法的应用,弥补了NMF算法在差异表达基因提取方面的缺陷,同时丰富了NMF算法的生物意义。3.学位论文朱煜基因芯片整合分析方法在癌症基因表达谱分析中的应用2008基因芯片技术可以实现高通量的基因表达分析,随着基因芯片技术的发展,目前已经积累了海量的基因表达数据,如何对这些已有的数据进行更深层次的分析和挖掘,使得芯片数据从原本“产生假设”的工具逐步转变为“验证生物学假设”的信息库,是当前生物信息学研究的一项重要工作。将来自不同实验,具有相似研究目的的芯片数据作为一组对象进行二次分析研究,是实现这一转变的关键方法之一,即进行基因芯片整合分析,从而获得更具有普适意义的结果。目前,有多种方法或策略可应用于芯片整合分析,其中一大类是应用统计学方法对具有相似研究目的的不同芯片实验结果进行荟萃分析(meta-analysis):另外一大类方法是专门针对芯片数据的特点设计的,首先通过一定数据转换的方法,将不同芯片实验的数据合并成一个表达矩阵(此类方法统称为基因芯片数据整合方法),再根据研究目的应用相应方法进行后续分析。研究表明,这两类方法在筛选特征基因方面都取得了较好的效果,而后者还适用于构建预报不同表型的分类模型。利用基因表达谱对癌症进行分类、分型或分期研究具有客观、快速、简便和高特异性等优点,其中一项重要问题就是要解决数据集“高维度,小样本”的问题,它是能否建立有效分类模型的关键。本文第三章使用基因芯片数据整合方法,对具有相似研究目的的成人以及儿童急性髓性白血病芯片实验数据进行整合,以扩大样本容量降低维度与样本量的比值。利用实际表达芯片数据,发现中位值整合方法(MRS)是分析多源数据的有效方法,整合后的数据可以为数量较少的儿童样本构建具有较高准确率的分类预报模型。论文还通过有效聚类说明,3个独立实验的白血病亚型间的信号差异强于芯片系统问信号的差异。癌症病患存活年限的长短和存活质量,是由多种因素决定的,除了进行的各种治疗外,据临床观察,还有多种因素影响着癌症的预后。最近,科研工作者开始利用基因芯片数据,研究特异组织癌细胞的预后特性,但关于普遍的肿瘤预后的分子生物学机制仍待研究。本文第四章在现有研究成果基础之上,应用荟萃分析(meta-analysis)方法研究7组不同表型癌症间的共差异表达基因,发现51个基因在不同癌症病人的恶性治疗结果组中都显示了一致地差异表达。4.学位论文李笑基于神经网络的微阵列基因芯片数据分析2006微阵列技术的到来将对生物学和医学产生一场革命,通过它可以同时观测成千上万个基因的表达水平,从而能够在基因组水平上以系统的、全局的观念去研究生命现象及其本质。微阵列基因表达数据已经应用到肿瘤分型、肿瘤分类、基因功能研究、基因之间调控网络构建以及药物靶位识别等许多方面,对表达谱数据的分析已成为生物信息学研究的焦点。本文主要研究基于基因表达数据的数据分析方法,并针对已有的算法与模型当中所存在的问题,提出对算法的改进。本文在介绍了微阵列数据原理的基础上,首先介绍了数据预处理和特征提取过程,之后讨论了两个紧密相关的应用领域:肿瘤分类和聚类。在肿瘤分类中,主要研究了基于BP神经网络的方法和基于支撑向量机(SupportVectorMachine,SVM)用于多类别分类的方法。实验结果表明,BP网络设计适当的情况下能够得到很好的分类结果,识别率高。而用两类支撑向量机构造多类别分类器,应用到14个类别的基因表达数据中,取得了较好的实验效果,同时与KNN方法进行比较,可以看出基于SVM构成的分类系统尤其适合于多类别的基因表达谱数据集分类。在基于SVM的方法用于多类别问题中,对比了两种构造方法OnevsAll(OVA)以及AllPairs(AP)的结果,两种结合方法中OVA方法的识别率优越于其他方法,性能稳定。分类性能均达到或超过了公开发表的实验结果。在研究组织样本的聚类分析过程中,实现并对比了以下几种方法:层次聚类法、k均值法,同时本文采用了一种非常新颖的自组织特征映射神经网络的改进模型-DoubleSelf-OrganizingMap(DSOM)方法。实验证明DSOM网络应用到癌症基因表达谱数据分析中是很有效和可靠的,而且此方法具有可视化的优点,将高维的数据投射到二维平面上,更清楚地观测到聚类效果。聚类结果可以辅助病理学家进行进一步的有关肿瘤诊断和治疗。5.期刊论文庄振华.王年.李学俊.梁栋.王继.ZHUANGZhen-hua.WANGNian.LIXue-jun.LIANGDong.WANGJi癌症基因表达数据的熵度量分类方法-安徽大学学报(自然科学版)2010,34(2)基因芯片技术的出现和发展为生物医学领域带来了深远影响,运用分类方法研究其产生的海量数据对癌症的分类及治疗有重要意义.该文提出一种利用熵度量作为指标进行癌症基因表达数据特征提取的方法.首先对基因表达数据进行筛选并计算各个基因的熵,然后提取出熵最大的若干基因作为特征基因,并用支持向量机进行分类.对前列腺癌基因表达数据的留一法以及分组法实验都证明了该方法的有效性.6.学位论文宋杰生物信息数据挖掘中的若干方法及其应用研究2005本文探讨若干生物信息数据挖掘的方法及其应用,主要工作如下:1.用支持向量机和FDOD两种方法对同源寡聚蛋白质进行了分类研究.GarianR.利用决策树方法从蛋白质一级结构出发对同源二聚体和同源非二聚体进行了分类,证实了蛋白质一级结构即氨基酸序列包含四级结构信息.本文用SVM和FDOD两种方法对同源二聚体和同源非二聚体进行分类,利用原始序列的子序列分布作为特征向量.2.构造了基于线性规划的v-SVM分类器.ScholkopfB等提出的基于二次规划的v-支持向量机(v-SVM)相比标准的SVM,数值试验表明,本文提出的基于线性规划的v-SVM的训练速度要比基于二次规划的v-SVM快
本文标题:神经网络集成技术及其在癌症基因分类中的应用研究
链接地址:https://www.777doc.com/doc-5939291 .html