您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 【博士论文】基于机器学习技术的生物信息检索研究
I摘要在知识和数据爆炸的今天,信息检索系统在各个领域都扮演着越来越重要的角色。检索函数(有时也被称为打分函数或排位函数)是所有检索系统的关键组成部分,其任务是对数据库中保存的数据对象与用户查询之间的相关性进行度量。检索函数的设计可以从两个层次上进行,一个是依赖于应用领域的基本相关性度量指标的构造,另一个是与应用领域相对独立的将多种基本相关性度量指标综合起来的检索函数的构造。本文利用机器学习技术,从检索函数设计的以上两个层次,深入研究了生物信息学中蛋白质序列鉴定和蛋白质同源性预测两个重要的检索问题。在生物信息学领域,串联质谱技术与数据库搜索相结合的肽和蛋白质鉴定是一个重要的生物序列检索问题。肽和蛋白质鉴定软件的核心是对数据库中的候选肽生成实验质谱的可能性进行度量的肽打分函数(即检索函数)。在肽打分函数中,昀基本的操作是把实验质谱中的谱峰与从候选肽预测出的理论离子按照质量值进行匹配。由于质量测量的不准确性,随机错误匹配经常发生。为了提高匹配的准确性,本文首先提出了一种更准确的质量匹配误差分布模型,即条件正态分布模型。在该模型中,质量匹配误差分布的均值和标准差不再是恒定不变的,而是分别为离子质量和谱峰强度的函数。其中,质量误差标准差与谱峰强度之间的对数线性关系就作者所知是以前相关文献中没有报道过的。本文并给出了一个迭代学习算法,从训练数据中准确地估计误差模型的参数,刻画串联质谱的质量误差分布。本文接着提出了一种非线性肽打分函数,即核谱向量点积。它是对一大类传统肽打分方法即谱向量点积的非线性扩展。在串联质谱中,碎片离子间的相关性信息对于降低随机匹配是很有帮助的。核谱向量点积利用局部化核函数来强调相关离子的同时匹配。实验表明,核谱向量点积能够显著地提高肽鉴定的精度。基于核谱向量点积肽打分函数的肽和蛋白质鉴定软件pFind在多个数据集上的鉴定精度,明显超越了基于谱向量点积的流行商业软件SEQUEST。在1%假阳性率下,pFind比SEQUEST多鉴定出了10%到30%的肽段数。由于实际检索问题的复杂性,度量数据对象与查询之间相关性的基本指标往往有多种,构成多维特征向量。如何把多维基本相关性度量指标合并成一个相关性指标,就是检索函数构造问题。从训练数据中学习检索函数是一种常用且有效的检索函数构造方法。一般来讲,检索函数的学习是独立于具体应用的一般性机器学习问题。在这类学习问题中,特征向量是相对于查询计算出来的,因而随所关联的查询不同而分成不同的组(本文称为“块”)。数据的块结构形式是检索函数学习问题独有的特点。本文结合蛋白质同源性预测问题,通过深入挖掘这种块结构包含的丰富信息,提出了一系列旨在提高检索函数学习准确性的方法。这些方法包括用于解决块间数据非独立同分布问题的块内基于机器学习技术的生物信息检索研究II数据归一化和块特征向量扩充方法,用于数据去冗余的块选择和支持向量下采样方法,以及用于构造查询适应的检索函数的K近块集成排位算法等。使用支持向量机作为基准学习器的实验表明,本文提出的所有这些基于块的方法都明显地比直接应用标准的支持向量机效果要好。其中,块内数据归一化和数据去冗余方法在2004年的ACMKDDCUP数据挖掘竞赛的蛋白质同源性预测问题上获得了全球并列第一名的总体预测准确度。K近块集成排位算法在预测精度和训练速度上甚至更胜一筹,在上述蛋白质同源性预测问题上是目前表现昀好的算法。关键词:生物信息学;信息检索;机器学习;质谱;肽鉴定;蛋白质同源性预测IIIMachineLearningBasedBioinformationRetrievalFUYan(ComputerApplicationTechnology)DirectedbyGAOWenIninformationretrievalsystemssuchasbiologicalsequencesearchengines,theretrievalfunctions(alsoreferredtoasscoringfunctionsorrankingfunctionssometimes)thatlistthesearchresultsintheorderoftheirrelevancetothequeryareoneofthemostimportantcomponents.Thedesignofretrievalfunctionscanbecarriedoutontwolevels,i.e.,thedomain-dependentconstructionofbasicrelevancemeasuresandtherelativelydomain-independentconstructionofthefinalretrievalfunctionthatcombinesmultiplebasicrelevancemeasuresintoasingleone.Inthisthesis,twoimportantbioinformationretrievalproblems,i.e.,theproteinsequenceidentificationproblemandtheproteinhomologypredictionproblem,arestudiedontheabovetwolevelsofretrievalfunctiondesignusingmachinelearningtechniques.Peptideandproteinidentificationviatandemmassspectrometryanddatabasesearchisanimportantbiologicalsequenceretrievalproblem.Akeyingredientofpeptideandproteinidentificationsoftwareisthepeptidescoringfunction(retrievalfunction)thatmeasuresthelikelihoodofacandidatepeptideproducingtheexperimentalspectrum.Inapeptidescoringfunction,themostbasicoperationistomatchfragmentionspredictedfromacandidatepeptidetothemasspeaksintheexperimentalspectrum.Duetotheimprecisionofmassmeasurement,randommismatchesoftenoccur.Inthisthesis,amoreaccuratemassmatcherrormodel,namelyconditionalnormalmodel,isfirstproposedtoimprovetheaccuracyofmatching.Thismodelisbasedontwoimportantobservationsonthemasserrordistribution,i.e.thelinearitybetweenthemeanofmasserrorandtheionmass,andthelogarithmiclinearitybetweenthestandarddeviationofmasserrorandthepeakintensity.Tothebestoftheauthor’sknowledge,thelatterquantitativerelationshiphasneverbeenreportedbefore.Aniterativelearningalgorithmisalsoproposedtoaccuratelyestimatethemodelparametersfromtrainingdatatocharacterizethemasserrordistributionoftandemmassspectra.Thethesisthenpresentsanonlinearpeptidescoringfunction,namelyKSDP,whichisanonlinearextensiontothecommonlyusedpeptidescoringmethod,spectraldotproduct(SDP).Thecorrelationamongfragmentionsinatandemmassspectrumisveryhelpfulforreducingrandommismatches.InKSDP,localizedkernelfunctionsareusedtoemphasizetheco-occurringmatchesofcorrelatedions.ExperimentsshowthatKSDPcansignificantlyimprovethepeptideidentificationaccuracy.TheKSDP-basedpeptideandproteinidentificationsoftwaretoolpFindconsiderablyoutperformstheSDP-basedpopularcommercialsoftwareMachineLearningBasedBioinformationRetrievalIVSEQUESTintermsofidentificationaccuracyonseveraldatasets.Atthe1%falsepositiverate,pFindidentifies10%to30%morepeptidesthanSEQUEST.Duetothecomplexityofpracticalretrievalproblems,thereareusuallymorethanonebasicrelevancemeasures,resultinginmultiple-dimensionalfeaturevectors.Howtocombinethemultiplerelevancemeasuresintoasingleoneistheproblemofretrievalfunctionconstruction.Learningaretrievalfunctionfromtrainingdataisacommonandeffectivestrategy.Ingeneral,retrievalfunctionlearningisindependentofspecificdomains.Inthisclassofmachinelearningproblem,thefeaturevectorsofdatabaseitemsarecomputedbasedonqueriesandthustheyaregroupedintoblocksbyqueries.Theblockstructureofdataisauniquefeatureofretrievalfunctionlearningproblems.Thisthesisdescribesaseriesofapproachesformoreaccuratelearningofretrievalfunctionsbasedontheblockstructure.Theseapproachesrangefromtheintra-blockdatanormalizationandblockfeatureexpansionmethodsforsolvingthenon-i.i.d.(independentandidenticallydistributed)problem,theblockselectionandsupportvectorunder-samplingmethodsforreducingredundantdata,andtheK-nearest-blockensemble
本文标题:【博士论文】基于机器学习技术的生物信息检索研究
链接地址:https://www.777doc.com/doc-26181 .html