您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 信息检索技术 第二章 信息检索模型(3)
基于本体论的信息检索模型本体论本体论•本体论(Ontology)最早是哲学的分支,研究客观事物存在的本质研究客观事物存在的本质。本体(ontology)的含义是形成现象的根本实体(常与“现象”相对)。从哲学的范畴来说本体是(常与现象相对)。从哲学的范畴来说,本体是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。它与认识论(Epistemology)相对,认识论研究人类知识的本质和来源。本体论研究客观存在,认识论研究主观认知识论研究主观认知。各种关于本体的定义各种关于本体的定义在人工智能界最早给出本体定义的是Nh等人将•在人工智能界,最早给出本体定义的是Neches等人,将本体定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。•1993年,Gruber给出了本体的一个最为流行的定义,即“本体是概念模型的明确的规范说明”“本体是概念模型的明确的规范说明”。•后来,Borst在此基础上,给出了本体的另外一种定义:“本体是共享概念模型的形式化规范说明”本体是共享概念模型的形式化规范说明。•Studer等对上述两个定义进行了深入的研究,认为“本体是共享概念模型的明确的形式化规范说明”。本体的分类和内容本体的分类和内容•本体的分类•本体的分类本体是采用某种语言对概念化的描述,本体的分类按照表示和描述的形式化的程度不同,可以分为:完全非形式化的、半形式化的、严格形式化的,形式化程度越高,越有利于计算机进行自动处理。化的,形式化程度越高,越有利于计算机进行自动处。•本体的内容从概念化对象的定义来看,一个领域的术语、术语的定义以及各个术语从概化象定义来看,个领域术语、术语定义以及各个术语之间的语义网络,应是任一个领域本体论所必须包含的基本信息。概念之间的关系同义关系:表达了在相似数据源间的一种等价关系,是一种对称关系上下位关系:不对称的是种偏序关系具有传递性上下位关系:不对称的,是一种偏序关系,具有传递性其它各种语义关系各个概念间复杂的语义关系组成了语义网络图,概念在其中表现为节点,而节点间的弧则代表了上述的关系。而节点间的弧则代表了述的关系。上下位关系和同义关系上下位关系和同义关系植物薯类上位薯类上下位关系土豆地瓜下位土豆马铃薯白薯地瓜红薯同义关系语义关系语义关系构造本体的要点构造本体的要点出于对各自问题域和具体工程的考虑构造本体的过•出于对各自问题域和具体工程的考虑,构造本体的过程各不相同。目前没有一个标准的本体的构造方法。•最有影响的是Gruber在1995年提出的5条规则:最有影响的是在年提出的条规则清晰(Clarity)本体必须有效的说明所定义术语的意思。定义应该是客观的,形式化的一致(Coherence)它应该支持与其定义相一致的推理可扩展性(Extendibility)可扩展性(y)应该提供概念基础,支持在已有的概念基础上定义新的术语编码偏好程度最小(Minimalencodingbias)概念的描述不应该依赖于某一种特殊的符号层的表示方法概念的描述不应该依赖于某种特殊的符号层的表示方法本体约定最小(Minimalontologicalcommitment)本体约定应该最小,只要能够满足特定的知识共享需求即可。领域本体领域本体领域本体(Ditl)的概念•领域本体(Domainontology)的概念提供了某个专业学科领域中概念的词表以及概念间的关系的关系在该领域里占主导地位的理论,是某一领域的知识表示建立本体的方式•建立本体的方式借助某种本体描述语言,采用“恳谈法”从人类专家那里获得知识经过抽象组织成领域本体家那里获得知识,经过抽象组织成领域本体•应用实例IBM中国研究中心在信息集成项目中运用本体IBM中国研究中心在信息集成项目中运用本体哈工大机器翻译研究室基于本体进行跨语言检索的研究基于本体的检索过程基于本体的检索过程用户向信息检索系统提出检索申请•用户向信息检索系统提出检索申请。•信息检索系统产生一个界面与用户交互。界面接收用户提出的查询关键字后系统查询本体库从中找出出现该关出的查询关键字后,系统查询本体库,从中找出出现该关键字的各个领域,然后将其领域以及在该领域下的关键字的含义罗列给用户。•用户此时可根据自己的意图,在界面上确定所需查找的领域及含义。•系统将经过本体规范后的请求交给全文搜索引擎进行检索•系统将经过本体规范后的请求交给全文搜索引擎进行检索。•全文搜索引擎检索后返回给用户检索信息。利用本体进行检索的好处利用本体进行检索的好处本体扩展马铃薯红薯地瓜白薯•解决从查询语言到检索语言之间转换过程中出现的语义损失和曲解等问题•保证在检索过程中能够有效地遵循用户的查询意图•保证在检索过程中能够有效地遵循用户的查询意图,获得预期的检索信息。隐含语义索引(LSI)问题引出问题引出自然语言文本中的词汇(术语)具有词多义•自然语言文本中的词汇(术语)具有一词多义(polysemy)和一义多词(synonymy)的特点.•由于一词多义基于精确匹配的检索算法会报告许•由于词多义,基于精确匹配的检索算法会报告许多用户不要的东西;处理处什么地方处理旧家具?你去把那个叛徒处理了处理自然语言很难处理自然语言很难•由于一义多词,基于精确匹配的检索算法又会遗漏许多用户想要的东西.“互联网”,“万维网”,“因特网”,“国际互联网”等词汇文档矩阵词汇-文档矩阵SSidi将自然语言中的•LSI(LatentSemanticIndexing)将自然语言中的每个文档视为以词汇为维度的空间中的一个点,认为个包含语义的文档出现在这种空间中它认为一个包含语义的文档出现在这种空间中,它的分布绝对不是随机的,而是服从某种语义结构。•同样地,也将每个词汇视为以文档为维度的空间中的一个点。文档是由词汇组成的,而词汇又要放到文档中去理解,体现了一种“词汇-文档”双重概率关系。LSI地提出LSI地提出当然如果能基于自然语言理解来做这件事那•当然,如果能基于自然语言理解来做这件事,那一切问题就都没有了。问题是:自然语言理解的目前水平还是有限度的;自然语言理解的目前水平还是有限度的;即使用自然语言理解,效率也会很低•我们希望找到一种办法既能反映术语之间内•我们希望找到一种办法,既能反映术语之间内在的相关性,又具有较高的效率.•1990年来自UniversityofChicagoBell•1990年,来自UniversityofChicago、BellCommunicationsResearch等五家单位和学者共同提出了隐含语义分析(Latent者共同提出了隐含语义分析(LatentSemanticIndexing),缩写为LSI)这一自然语言处理的方法语言处的方法算法步骤算法步骤以词项(t)为行文档(dt)为列做•以词项(terms)为行,文档(documents)为列做一个大矩阵(matrix).设一共有t行d列,矩阵名为A矩阵的元素为词项在文档中的出现频度为A.矩阵的元素为词项在文档中的出现频度.•数学上可以证明:A可以分解为三个矩阵T0,S0,D0T(D0的转置)的积.这种分解叫做单值分解(singlarvaluegdecomposition)简称SVDA=T0*S0*D0T算法步骤算法步骤般要求T0S0D0都是满秩的不难做到把S0的•一般要求T0,S0,D0都是满秩的.不难做到把S0的元素沿对角线从大到小排列.•现在把S0的m个对角元素的前k个保留后m-k个•现在,把S0的m个对角元素的前k个保留,后m-k个置0,我们可以得到一个新的近似的分解:Xhat=T*S*DT•奇妙的是,Xhat在最小二乘意义下是X的最佳近似!这样,我们实际上有了一个降维的途径.值的选择•K值的选择k越大失真越小,但开销越大k的选择是按实际问题的要求进行平衡的结果k的选择是按实际问题的要求进行平衡的结果三个问题三个问题给定矩阵基以问类文件检索•给定矩阵A,基于A可以问三类同文件检索密切有关的问题密切有关问题术语i和j有多相似?即术语的类比和聚类问题即术语的类比和聚类问题文件i和j有多相似?即文件的类比和聚类问题即文件的类比和聚类问题术语i和文件j有多相关?即术语和文件的关联问题三个问题的答案三个问题的答案比较两个术语•比较两个术语做正向乘法:Xhat*XhatT=T*S*DT*D*S*TT=T*S2*TT=(TS)*(TS)TXhatXhatTSDDSTTST(TS)(TS)DT*D=I,因为D已经是正交归一的,s=sT它的第i行第j列表明了术语i和j的相似程度比较两个文件做逆向乘法•比较两个文件做逆向乘法:XhatT*Xhat=D*S*TT*T*S*DT=D*S2*DT=(SD)(SD)TTT*T=I因为T已经是正交归一的s=sTTT=I,因为T已经是正交归的,s=s它的第i行第j列表明了文件i和j的相似程度•比较一个文件和一个术语恰巧就是Xhat本身.它的第i行第j列表明了术语i和文件j的相关联程度.示例示例始矩阵•原始矩阵Adddddd123456101000010000dddddd计算机电脑010000X=110000100110电脑程序书桌100110000101书桌办公桌示例T示例•SVD分解:T示例示例降维处T•A降维处理:B=S2*2DT2*d•图示:示例示例•向量夹角余弦值:tqd)(ttkkikqdqdkik221)(CosSim(Di,Q)=•文本之间相似度矩阵kkkik11降维前后的对比降维前后的对比表中列出文档在新空间的相似度d和•表中列出了文档在新空间的相似度,d1和d2之间的相似度为0.78,d4,d5和d6为0.94,2间相似度为,4,5和6为,0.93,0.74,而在原空间上两者的值是相等的的•在原空间中,d2,d3没有共同的单词,相似度为0但是在新空间中的相似度为088之度为0,但是在新空间中的相似度为0.88之所已有这种结果,在于它们之间存在着同现模式查询处理查询处理如何在降维空间中表示查询字段和新增文•如何在降维空间中表示查询字段和新增文档查询可以作为一个伪文档•每次重新计算SVD,计算量太大每次重新计算SVD,计算量太大•解决方案:A=TSDT,TTA=TTTSDT,TTA=SDT新的查询q再降维后新空间表示为TTq•新的查询q,再降维后新空间表示为Tt*kTq(可以理解为一种映射)对LSI的理解对LSI的理解最佳近似矩阵•最佳近似矩阵从数据压缩的角度看,Xhat是秩为k的前提下矩阵X的全局最佳近似矩阵。降维•降维LSI不同于向量空间模型(VSM)中文档和词汇的高维表示,而是将文档和词汇的高维表示投影在低维的潜在语义空间(LatentStiS)中缩小了问题的规模得到词汇和文档的低SemanticSpace)中,缩小了问题的规模,得到词汇和文档的低维表示。•语义关联的发现对应于小奇异值的奇异向量被忽略后,噪声被大量消减,而使语言单元之间的意义上的相关性显示出来。潜在语义空间中(不论是文档空间,还是词汇空间),每个维度代表了个潜概念(LttCt)代表了一个潜概念(LatentConcept)利用LSI进行检索利用LSI进行检索对查询式的要求•对查询式的要求和传统的基于关键词的查询不同,潜语义检索允许用户提交类似于自然语言的查询条件而不定必用户提交类似于自然语言的查询条件,而不一定必须是几个分离的词汇。查询式越长提供的信息需求越充分越明确查询式越长,提供的信息需求越充分,越明确•检索过程检索过程就是把查询式的集合视为是个虚拟的文检索过程就是把查询式的集合视为是一个虚拟的文件,检索的任务是把这个虚拟的文件和其他文件
本文标题:信息检索技术 第二章 信息检索模型(3)
链接地址:https://www.777doc.com/doc-4869061 .html