您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 基于CRFs 的中文分词和短文本分类技术
基于CRFs的中文分词和短文本分类技术ChineseWordSegmentationandShortTextClassificationTechniquesBasedonCRFs(申请清华大学工学硕士学位论文)培养单位:计算机科学与技术系学科:计算机科学与技术术研究生:滕少华指导教师:孙茂松教授二○○九年五月基于CRFs的中文分词和短文本分类技术滕少华关于学位论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定,即:清华大学拥有在著作权法规定范围内学位论文的使用权,其中包括:(1)已获学位的研究生必须按学校规定提交学位论文,学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆、资料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内容。本人保证遵守上述规定。(保密的论文在解密后遵守此规定)作者签名:导师签名:日期:日期:摘要I摘要中文自动分词和短文本分类是自然语言处理中的基础任务,本文将介绍关于这两个领域的若干基于条件随机场(CRFs)的算法以及在此基础上的创新。本文的工作主要包括两部分:第一部分,我们借用了文本分类领域的特征选择算法对中文分词中的特征进行分析。分析结果表明,特征选择算法在中文分词的任务中也是适用的。在中文分词领域,基于字标注的方法得到广泛应用。通过字标注系统,中文分词任务被转换为序列标注任务,许多成熟的机器学习算法得以应用。评测结果表明,在众多的机器学习算法中,基于CRFs的分词器可以达到state-of-the-art的分词效果。CRFs分词器对于给出的每一个切分,都可以提供置信度。在本文中,我们深入调研了CRFs提供的置信度,在此基础上,提供了一种基于置信度的后处理中文分词算法。三个不同数据集上的实验结果证明,我们的算法是有效的。另一方面,我们对未登录词(OOV)在上下文中的分布进行观察,提出了一种基于篇章内部信息和CRFs置信度的OOV识别方法,可以进一步提高中文分词的准确度。第二部分,我们借用了中文文本分类中的字标注算法来解决短文本分类问题。通过标注算法,可以将短文本分类问题转化为序列标注问题,这样CRFs就可以用于短文本分类任务中。实验结果表明,基于CRFs的短文本分类器可以达到更高的分类精度。关键词:中文分词短文本分类条件随机场特征选择置信度未登录词AbstractIIAbstractChinesewordsegmentation(CWS)andshorttextclassification(STC)arebothbasictasksinnaturallanguageprocess(NLP).Inthispaper,somenovelmethodsbasedonCRFsareintroducedforthesetwoNLPtasks.First,inthispaper,weborrowtheideaoffeatureselectionfromtextclassificationtoevaluateeachfeature’scontributioninCWStask.OuranalysisdemonstratesthatfeatureselectionmethodsareusefulinCWStask.InCWStask,themostwidelyusedmethodsarecharacter-basedtaggingmethod,whichreformulatesCWStasktoasequencetaggingtask.ItisdemonstratedbypreviousworkthatCRFstaggercanachievestate-of-the-artperformance.GivenawordsegmentationproposedbytheCRFs,wecancomputeaconfidenceineachsegment.Inthiswork,weinvestigatetheconfidencegeneratedbyCRFsandproposeanovelpost-processmethodtoimprovetheCWSperformance.WeconductexperimentsonthreecorporawhichshowourCRFsconfidenceapproachachievesbetterperformance.Ontheotherhand,weanalyzeOOVsdistributionsincontext.Basedonouranalysis,weproposeamethodtouseinlocalinformationtorecognizeOOVs.Second,weborrowthecharacter-taggingmethodinCWStasktosolveSTCproblem.Afterconvertingtheclassificationproblemtoasequencelabelingproblem,CRFscanbeusedintheSTCtask.ExperimentresultsshowthatCRFsbasedclassifiercanproduceapromisingperformanceinSTCtask.Keywords:ChineseWordSegmentationShortTextClassificationConditionalRandomFieldsFeatureSelectionConfidenceOOV目录III目录摘要........................................................................................................................................IAbstract.....................................................................................................................................II目录......................................................................................................................................III第1章引言........................................................................................................................11.1课题背景及意义..........................................................................................................11.1.1中文分词问题.....................................................................................................21.1.2短文本分类问题.................................................................................................31.1.3研究目标.............................................................................................................41.2中文自动分词研究现状..............................................................................................41.2.1数据集.................................................................................................................51.2.2转化为序列标注问题.........................................................................................51.2.3条件随机场算法.................................................................................................61.2.4性能评价.............................................................................................................81.3短文本分类研究现状..................................................................................................81.3.1数据预处理和常用数据集.................................................................................91.3.2文本向量化处理...............................................................................................101.3.3分类器选择.......................................................................................................101.3.4性能评价...........................................................................................................111.3.5短文本分类任务的特殊性...............................................................................111.4本文的研究重点和内容安排....................................................................................12第2章中文分词中的特征选择问题..............................................................................132.1字标注系统................................................................................................................132.22maxChi特征选择算法................................................................................................132.3
本文标题:基于CRFs 的中文分词和短文本分类技术
链接地址:https://www.777doc.com/doc-4443124 .html