您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 坚持构建汉语框架语义网
坚持构建汉语框架语义网,开展汉语分析模型与方法的研究刘开瑛李茹山西大学计算机与信息技术学院目录开展现代汉语句子的语义角色自动标注研究在标注语料库基础之上汉语分析模型3继续构建汉语框架语义网(CFN)124框架语义学(FrameSemantics)是由Fillmore提出的研究词语意义和句法结构意义的一种理论方法,即试图用经验主义方法,寻找语言和人类经验之间的紧密关系,并研究一种可行的描述方式,表示这种关系。FrameNet是由Fillmore亲自主持的一个基于语料库的计算词典编纂工程,截至2008年3月,共收录10,000词元,构建了825个框架,其中6,100个词元完成了例句标注,共标注了13.5万例句的框架语义信息。许多国家的学者尝试建立与FrameNet并行的词典,包括德语、日语、西班牙语、希伯莱语等。1、继续构建汉语框架语义网(CFN)•山西大学选择了Fillmore的框架语义学作为理论基础,以FrameNet为参照,以汉语语料事实为依据,经过2003年至2006年几年努力,构建了一个以有限词语集合为描述对象的汉语框架语义网(CFN),其中,对汉语1760个词元(一个义项下的一个词)构建了130个框架,标注了8200条句子。2006年10月由倪光南院士主持进行了科技成果鉴定。鉴定结论为:该课题在信息处理用汉语框架语义研究领域中达到了国际领先水平。•近三年来,课题组构建了300个框架,研究汉语多义词和高频词语框架表示方式,对CFN在旅游领域应用开始探索工作。•CFN由框架库、句子库和词元库三部分组成。框架库以框架为单位,对词语进行分类描述,明确给出框架的定义和这些词语共有的语义角色即框架元素,并描述该框架和其他框架之间的概念关系;句子库包含带有框架语义标注信息的句子,即按照框架库所提供的框架和框架元素类型,标注句子的框架语义信息和句法信息;词元库记录词元的语义搭配模式和框架元素的句法实现方式。2、开展现代汉语句子的语义角色自动标注技术路线是:先语义后句法。提出了一种用层叠条件随机场模型进行汉语框架元素自动标注方法。该方法在低层条件随机场模型中解决了框架元素识别,将识别结果传递到上层短语类型识别的条件随机场模型,再将识别结果传递到上层句法功能识别的条件随机场模型。从CFN语料库中选取了“包含”“陈述”“拥有”“属于某类”“研究”“提供”“适宜性”等十多个汉语框架,自动标注结果的准确率为80.1%,召回率为69.9%与D.Gildea等的英语框架元素的自动标注结果的准确率是65%,召回率是61%相比较,取得了明显的提高。基于条件随机场模型参数估计,框架元素边界识别,框架语义角色分类将是我们下一步研究的重点。•以“陈述”框架的自动标注为例,介绍CFN的框架元素自动标注的步骤。•“陈述”框架下的核心框架元素有媒介(medium)、信息(msg)、说话者(spkr),非核心框架元素有听话者(add)、关涉(top)、致因(cau)、程度(degr)、形容(depic)、修饰(manr)、时间(time)。“陈述”框架下句子库中的句子数为1393句,按5:5的比例分为训练集和测试集进行自动标注。•实验中第一层标注是直接以句子中的词、词性和相对于目标词的位置作为输入,确定词语相对标记块的边界信息和框架元素;第二层在第一层标注的基础上进行的短语类型标注;第三层在前两层标注的基础上进行句法功能标注。•即输入:于友先nhhtgt=[陈述]概述v了u我国n著作权n保护v的u新aq进展v。w•输出:spkr-np-subj于友先nhhtgt=[陈述]概述vnull了umsg-np-obj我国n著作权n保护v的u新aq进展v。w“陈述”框架的框架元素自动标注结果如下表:陈述训练集测试集准确率P召回率RF值媒介*(medium)65364574%72.2%75%信息*(msg)26528082.8%68.6%73.1%说话者*(spkr)42541273.6%61.7%67%听话者(add)13513082.1%73.8%77.7%时间(time)13614180%56.7%66%结果(result)141381.8%69.2%75.5%合计1628162176.4%67.7%71.8%在上表中有些非核心框架元素没有统计是因为其非核心框架元素在语料库中出现的次数低于10次。3、研究在标注语料库基础之上汉语分析模型•人类对语言的领悟和创造依赖于以往具体的语言经验,而不是依赖于抽象的语法规则。人们在处理新语言现象时,力求最有可能分析的过程是建立在曾经见过的语言现象的成功分析基础上。面向数据的处理模型建立在包含大量语言现象的语料库基础上,把经过标注的语料库看作一种语法。模型建立在一个具有标注语料库基础之上,然后选择最有可能性的分析结果。Fillmore对框架语义学的研究,始终与构建语义知识库这一实践紧密结合,框架语义学为语义知识库的构建提供了一个基本思路(但又没有限制框架及框架元素的范围和数量),反过来,在这种实践中不断得到修正,进一步明确一些理论上的问题。•山西大学坚持语料库语言学研究,坚持把经过标注的语料库看作一种语法,根据应用需求,建立DOP的汉语句法分析器;坚持构建汉语框架网,展开汉语框架语义角色基础上的句义理解计算模型研究;分析框架和框架之间的概念关系及框架到框架的推理机制;进行网络文本语料库框架语义深加工,以《中国分类主题词表》为纲,构建领域本体库,研发基于句义理解的信息检索实验系统,期望通过框架语义角色的分析使汉语分析技术取得新的突破。参考文献1.CharlesJ.Fillmore,CollinF.Bakeretal.TheBerkeleyFrameNetproject[A].InProceedingsofCOLING/ACL[C],Montreal,Canada;1998.86-90.2.CharlesJ.Fillmore,CharlesWooters,andCollinF.Baker.2001.Buildingalargelexicaldatabankwhichprovidesdeepsemantics[A].In:Proceedingsofthe15thPacificAsiaConferenceonLanguage,InformationandComputation[C].HongKong,2001,3-26.3.刘开瑛等.汉语框架元素自动标注实验.第四届信息检索与内容安全学术会议(NCIRCS2008)5.李茹等.基于汉语框架网的旅游信息问答系统设计第四届信息检索与内容安全学术会议(NCIRCS2008)6.D.GildeaandD.Jurafsky.Automaticlabelingofsemanticroles.Comput.Linguist.,28(3):245-288,2002.Thanks!WelcomtoTaiyuan!
本文标题:坚持构建汉语框架语义网
链接地址:https://www.777doc.com/doc-3624770 .html