您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 中文问答系统中的问题分类研究
合肥工业大学硕士学位论文中文问答系统中的问题分类研究姓名:高艳影申请学位级别:硕士专业:计算机应用技术指导教师:田卫东2011-04中文问答系统中的问题分类研究摘要问答系统是一种能理解使用自然语言描述的问题,并在海量信息中进行问题答案的准确定位查找和答案合成的智能信息处理系统,是数据挖掘领域的研究热点之一。问题分类则是问答系统处理问题过程中,用于对使用自然语言描述的问题进行分类,尽量搜集充分的与问题相关的信息,以提高问答系统后续环节处理的准确性和处理效率。本文主要针对中文问答系统中的问题分类进行研究,利用中文语言和中文问题的特点以进一步提高中文问题的分类精度,达到改善中文问答系统性能的目的。本文的主要研究工作如下:(1)在观察和分析中文问题中的疑问词和中心词与问题分类之间关系的基础上,对基于词性和启发式规则来抽取疑问词和中心词方法,给出两种词性修正方法以提高抽取的准确率,并根据自学习方法进行规则训练;设计了一种采用自学习规则和贝叶斯模型相结合的问题分类方法,该方法克服了规则方法覆盖率不高的缺点。实验表明了该方法的有效性。(2)为进一步提高中心词抽取方法的准确性,本文就句法结构信息在中文问题分类中的应用进行了探讨,设计了一种利用句法结构信息抽取中心词的方法,并建立了相关抽取规则。实验验证了该方法的有效性。关键词:中文问答系统;问题分类;自学习规则;层次分类;句法结构ResearchontheQuestionsClassificationintheChineseQuestionAnsweringSystemAbstractChineseQuestionAnsweringSystem,whichisaresearchfocusingareasindatamining,isanintelligentinformationprocessingsystemwhichcanunderstandtheissuesdescribedinnaturallanguage,locatethecorrectpositionoftheanswerandsynthesizeanswerfromthemassinformation.Questionclassification,asakeystepintheprocessofQuestionAnsweringSystem,isusedtoclassifythequestiondescribedinnaturallanguage,andtotrytocollectsufficientinformationrelatedtothequestionforimprovingtheaccuracyandefficiencyofthefollowingprocessstepsinQuestionAnsweringSystem.MainworkofthisdissertationistostudyquestionclassificationintheChineseQuestionAnsweringsystem,andtrytofindanewclassificationmethodmakinguseofthecharactersofChineseandChinesequestionstoimprovetheclassificationaccuracyoftheChinesequestions,andatlasttoimprovetheperformanceoftheChineseQuestionAnsweringSystem.ThisresearchprovidessomenewinsightsintoChinesequestionclassification:(1)Onthebasisoftheinvestigationontherelationbetweenkeywords,suchasquestionwordsandheadwords,andquestion’scategory,forextractingquestionwordsandheadwordsmoreaccurate,twomethodsbasedonpart-of-speech-fixing,whichareusedtoimprovetheperformanceoftheexistingmethodbasedonpart-of-speechandheuristicrules,aregiven.AndaquestionclassificationmethodcombiningrulesandBayes,whichcanovercomethefaultsthatrule’scoverageisnothigh,isdesignedtoo.Empiricalresultsshowthevalidityofthemethod.(2)Tosolvetheshortcomingsofheadwordsextractioninpreviousmethod,theapplicationofsyntacticstructureinformationinclassifyingChinesequestionsisstudied,andaheadwordsextractionmethodusingsyntacticstructureisdesignedandsomeextractionrulesaresetupatthesametime.Empiricalresultsshowthevalidityofthemethod.Keywords:ChineseQuestionAnsweringSystem;QuestionClassification;self-learningrules;syntacticstructure;hierarchicalclassification插图清单图1-1问答系统的体系结构.......................................................................2图1-2LIP平台中各模块之间的依赖关系.................................................7图2-1改进贝叶斯分类流程图.................................................................14图2-2细类分类精度比较...........................................................................17图2-3粗类分类精度比较...........................................................................17图3-1规则自学习的流程图.......................................................................22图3-2部分QCR规则..................................................................................23图3-3部分QHCR规则................................................................................24图3-4层次分类的流程图...........................................................................25图3-5具体各个类上分类精度比较............................................................27图3-6不同组合方法按类统计的分类精度对比..........................................27图3-7不同的问题集的准确率对比............................................................28图4-1X’结构图........................................................................................30图4-2依存关系分析结果...........................................................................32图4-3疑问词和其它词存在的DE、ATT和SBV关系...................................33图4-4具体分类步骤..................................................................................34图4-5QCR-PQHCR-MB分类精度...................................................................35图4-6各种组合的分类精度对比................................................................35图4-7各方法分类精度对比.......................................................................35图4-8两种方法按类统计的分类精度对比.................................................36图4-9不同中心词规则和改进贝叶斯相结合的分类精度...........................36图4-10两种方法的规则分类精度对比………...………………………………..37图4-11规则参与分类的问题数对比...........................................................37图4-12有句法结构信息的分类精度比较...................................................37表格清单表2-1TREC会议上比较有代表性的分类体系............................................15表2-2中文问题分类体系...........................................................................16表3-1常见疑问词......................................................................................18表3-2ICTCLA3.0系统的词性标注分类......................................................20表3-3词性修改前后的分类精度对比.........................................................26表3-4各方法分类精度对比........................................................................27表3-5QCR-QHCR-MB中各方法的分类数..................................................28表4-1Minipar使用的几种依存关系.................................
本文标题:中文问答系统中的问题分类研究
链接地址:https://www.777doc.com/doc-5527449 .html