您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > C50决策树工具的使用UndergraduateDissertation
中文指代消解方法研究姓名:郎君指导老师:秦兵答辩时间:2004年6月29日Outline研究背景及意义国内外研究现状论文研究方法及内容名词短语识别及特征向量选定基于决策树的中文指代消解结合规则的决策树中文指代消解结论下一步工作研究背景及意义指代消解基本概念MUC信息抽取自动文摘国内外研究现状CR基本原理:构造候选-筛选+优选理论模型:Hobbs算法、中心理论目前主要方法基于规则:句法知识,RAP,Mitkov,王厚峰HNC机器学习:McCarthy,Cardie,MBL,boostrapping决策树:Resolve95,Soon99,01,XiaofengYang03,04语料库的加工与标注指代消解的评估指标论文研究方法及内容在PFR上试验方法的可行性加入底层NLP技术实现系统改进系统文档分词命名实体识别名词短语识别指代消解词性标注中文指代消解文档处理流程Outline研究背景及意义国内外研究现状论文研究方法及内容名词短语识别及特征向量选定基于决策树的中文指代消解结合规则的决策树中文指代消解结论下一步工作名词短语识别指代消解采用MUC定义名词短语之间的指代消解名词短语识别的必要性名词短语识别(NP分组)组别词性符号词性词性说明一般名词组G(General)an名形词具有名词功能的形容词Ng名语素名词性语素n名词nx英语等其他外语的字母或字符串nz其他专名vn名动词具有名词功能的动词人名组H(HumanName)nr人名地名组P(PlaceName)ns地名机构名组O(OrganizationName)nt机构团体代词组D(PronounName)r代词时间词组T(Time)Tg时语素时间词性语素t时间词基本名词成分分组情况名词短语识别(识别步骤)第一步:识别出基本名词成分。各种名词成分分为六组,如上页所示。第二步:同组短语局部最大化,亦即如果两个相邻的标出的短语的组别相同,那么就将二者合并为一个短语。第三步:并列名词性短语合并。如果出现在“和”、“与”或“、”两侧的短语组别相同,则将两侧短语连带“和”、“与”或“、”一起合并为一个短语(这里排除代词组的情况)。名词短语识别(识别结果){19980101-01-001-001/m}Q{迈向/v}Q{充满/v}Q{希望/n}G{的/u}Q{新/a}Q{世纪/n}G{--/w}Q{一九九八年/t新年/t}T{讲话/n}G{(/w}Q{附/v}Q{图片/n}G{1/m}Q{张/q}Q{)/w}Q{19980101-01-001-002/m}Q{中共中央/nt}O{总书记/n、/w国家/n主席/n}G{江/nr泽民/nr}H特征向量选定参考国内外相关研究选定16个特征I的句法搭配I的单复数I的性别I的类型I的被修饰限定类型I的被修饰数量类型J的句法搭配J的单复数J的性别J的类型J的被修饰限定类型J的被修饰数量类型I、J的距离I、J的全匹配信息I、J的子串缩略信息I、J的抽取缩略信息Outline研究背景及意义国内外研究现状论文研究方法及内容名词短语识别及特征向量选定基于决策树的中文指代消解结合规则的决策树中文指代消解结论下一步工作基于决策树的中文指代消解决策树学习概况:ID3、C4.5、C5.0实验数据准备情况正反例类型指代类型数量百分比正例(有指代关系)名词短语4429.3%代词3523.3%反例(无指代关系)名词短语5838.7%代词138.7%样例的不同类型分布情况C5.0生成的决策树+FTIJ全匹配+FTJ是I的抽取+FTJ是I的子串TJ的类型in{H,P,O,T,G}_++FTJ的类型=DI的被修饰数量类型+_TI的单复数in{S,P}I的单复数=U训练得到的中文名词短语指代消解决策树实验测试结果测试类型正反例类型指代类型数量正确个数正确率封闭测试正例(有指代关系)名词短语313096.8%代词2424100%反例(无指代关系)名词短语3737100%代词8675%开放测试正例(有指代关系)名词短语1313100%代词1111100%反例(无指代关系)名词短语2121100%代词5120%自由文本指代消解系统实现加入底层NLP技术断句、分词、词性标注、命名实体识别特征向量自动构建性别、单复数指代消解主控模块思想系统运行结果示例[妈妈]12总有一片[园子]10。[我]11刚开始懂事时,[妈妈]12的[园子]10里有最美妙的天地。[妈妈]12会讲[故事]13,[她]12给[她]12的学生讲,给[我]12的同学讲,讲动人的过去和神奇的未来,讲做好孩子的哲理,晚上[我]12听着[故事]13入睡。[妈妈]12会做衣服,在桌子上量呀剪呀,用家里[那]11老古董手摇缝纫机缝啊钉啊,把[我们]11兄弟姐妹五个打扮得整整齐齐。周末,节日,[妈妈]12会下厨房切呀炒啊,变戏法似地做出好吃的菜,看着[我们]12几个风卷残云。最吸引人的,是[妈妈]12任教的[那]12片[天地]14。[妈妈]12教的是生物,[她]12的[天地]14里有栩栩如生的模型,泡着药水的标本,还有一片[实验园地]15。[每年]12不多的几次,[妈妈]12带[我]12去[那]12片在校园围墙边上的[实验地]15。[我]12在一旁,听[她]12跟学生讲种子发芽、开花结果,好奇地看着光合作用的挂图,带着恐惧寻找菜叶上胖胖的虫子。收获时节,西红柿鲜红,麦子金黄,[我]12则最爱在地瓜陇中,花生地里翻,体验发现新大陆似的惊喜。[我]12有问不完的问题,[妈妈]16有用不尽的答案。有一天,[我]12似懂非懂地告诉[妈妈]16,[我]12也知道“粒粒皆辛苦”了。系统运行结果示例[妈妈]12总有一片[园子]10。[我]11刚开始懂事时,[妈妈]12的[园子]10里有最美妙的天地。[妈妈]12会讲[故事]13,[她]12给[她]12的学生讲,给[我]12的同学讲,讲动人的过去和神奇的未来,讲做好孩子的哲理,晚上[我]12听着[故事]13入睡。[妈妈]12会做衣服,在桌子上量呀剪呀,用家里[那]11老古董手摇缝纫机缝啊钉啊,把[我们]11兄弟姐妹五个打扮得整整齐齐。周末,节日,[妈妈]12会下厨房切呀炒啊,变戏法似地做出好吃的菜,看着[我们]12几个风卷残云。最吸引人的,是[妈妈]12任教的[那]12片[天地]14。[妈妈]12教的是生物,[她]12的[天地]14里有栩栩如生的模型,泡着药水的标本,还有一片[实验园地]15。[每年]12不多的几次,[妈妈]12带[我]12去[那]12片在校园围墙边上的[实验地]15。[我]12在一旁,听[她]12跟学生讲种子发芽、开花结果,好奇地看着光合作用的挂图,带着恐惧寻找菜叶上胖胖的虫子。收获时节,西红柿鲜红,麦子金黄,[我]12则最爱在地瓜陇中,花生地里翻,体验发现新大陆似的惊喜。[我]12有问不完的问题,[妈妈]16有用不尽的答案。有一天,[我]12似懂非懂地告诉[妈妈]16,[我]12也知道“粒粒皆辛苦”了。Outline研究背景及意义国内外研究现状论文研究方法及内容名词短语识别及特征向量选定基于决策树的中文指代消解结合规则的决策树中文指代消解结论下一步工作结合规则的决策树中文指代消解两种方法:增大指代样例库、加入规则加入七条规则七条规则代词的指代消解仍然存在全匹配的问题保留“这/这些”、“那/那个那些”、“哪/哪些/哪个”的指代消解研究-增大精确率人名NE-“他”或“她”机构名NE、地名NE、专名NE-“它”保留“我”或“我们”-增大精确率排除第三人称代词间的指代情形排除时间短语与第三人称代词间的指代情形加入规则后的系统运行结果示例加入规则前的识别结果加入规则后的识别结果[妈妈]12总有一片[园子]10。[我]11刚开始懂事时,[妈妈]12的[园子]10里有最美妙的天地。[妈妈]12会讲[故事]13,[她]12给[她]12的学生讲,给[我]12的同学讲,讲动人的过去和神奇的未来,讲做好孩子的哲理,晚上[我]12听着[故事]13入睡。[妈妈]12会做衣服,在桌子上量呀剪呀,用家里[那]11老古董手摇缝纫机缝啊钉啊,把[我们]11兄弟姐妹五个打扮得整整齐齐。周末,节日,[妈妈]12会下厨房切呀炒啊,变戏法似地做出好吃的菜,看着[我们]12几个风卷残云。最吸引人的,是[妈妈]12任教的[那]12片[天地]14。[妈妈]12教的是生物,[她]12的[天地]14里有栩栩如生的模型,泡着药水的标本,还有一片[实验园地]15。[每年]12不多的几次,[妈妈]12带[我]12去[那]12片在校园围墙边上的[实验地]15。[我]12在一旁,听[她]12跟学生讲种子发芽、开花结果,好奇地看着光合作用的挂图,带着恐惧寻找菜叶上胖胖的虫子。收获时节,西红柿鲜红,麦子金黄,[我]12则最爱在地瓜陇中,花生地里翻,体验发现新大陆似的惊喜。[我]12有问不完的问题,[妈妈]16有用不尽的答案。有一天,[我]12似懂非懂地告诉[妈妈]16,[我]12也知道“粒粒皆辛苦”了。[妈妈]12总有一片[园子]11。[我]8刚开始懂事时,[妈妈]12的[园子]11里有最美妙的天地。[妈妈]12会讲[故事]13,[她]12给[她]12的学生讲,给[我]8的同学讲,讲动人的过去和神奇的未来,讲做好孩子的哲理,晚上[我]8听着[故事]13入睡。[妈妈]12会做衣服,在桌子上量呀剪呀,用家里[那]14老古董手摇缝纫机缝啊钉啊,把[我们]15兄弟姐妹五个打扮得整整齐齐。周末,节日,[妈妈]12会下厨房切呀炒啊,变戏法似地做出好吃的菜,看着[我们]15几个风卷残云。最吸引人的,是[妈妈]12任教的[那]14片[天地]16。[妈妈]12教的是生物,[她]12的[天地]16里有栩栩如生的模型,泡着药水的标本,还有一片[实验园地]17。[每年]12不多的几次,[妈妈]12带[我]18去[那]14片在校园围墙边上的[实验地]17。[我]18在一旁,听[她]12跟学生讲种子发芽、开花结果,好奇地看着光合作用的挂图,带着恐惧寻找菜叶上胖胖的虫子。收获时节,西红柿鲜红,麦子金黄,[我]18则最爱在地瓜陇中,花生地里翻,体验发现新大陆似的惊喜。[我]18有问不完的问题,[妈妈]19有用不尽的答案。有一天,[我]18似懂非懂地告诉[妈妈]19,[我]18也知道“粒粒皆辛苦”了。加入规则后的系统运行结果示例加入规则前的识别结果加入规则后的识别结果[妈妈]12总有一片[园子]10。[我]11刚开始懂事时,[妈妈]12的[园子]10里有最美妙的天地。[妈妈]12会讲[故事]13,[她]12给[她]12的学生讲,给[我]12的同学讲,讲动人的过去和神奇的未来,讲做好孩子的哲理,晚上[我]12听着[故事]13入睡。[妈妈]12会做衣服,在桌子上量呀剪呀,用家里[那]11老古董手摇缝纫机缝啊钉啊,把[我们]11兄弟姐妹五个打扮得整整齐齐。周末,节日,[妈妈]12会下厨房切呀炒啊,变戏法似地做出好吃的菜,看着[我们]12几个风卷残云。最吸引人的,是[妈妈]12任教的[那]12片[天地]14。[妈妈]12教的是生物,[她]12的[天地]14里有栩栩如生的模型,泡着药水的标本,还有一片[实验园地]15。[每年]12不多的几次,[妈妈]12带[我]12去[那]12片在校园围墙边上的[实验地]15。[我]12在一旁,听[她]12跟学生讲种子发芽、开花结果,好奇地看着光合作用的挂图,带着恐惧寻找菜叶上胖胖的虫子。收获时节,西红柿鲜红,麦子金黄,[我]12则最爱在地瓜陇中,花生地里翻,体验发现新大陆似的惊喜。[我]12有问不完的问题,[妈妈]16有用不尽的答案。有一天,[我]12似懂非懂地告诉[妈妈]16,[我]12也知道“粒粒皆辛苦”了。[妈妈]12总有一片[园子]11。[我]8刚开始懂事时,[妈妈]12的[园子]11里有最美妙的天地。[妈妈]12会讲[故事]13,[她]12给[她]12的学生讲,给[我]8的同学讲,讲动人的
本文标题:C50决策树工具的使用UndergraduateDissertation
链接地址:https://www.777doc.com/doc-609822 .html