您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 分词方法基于字符串匹配的分词基于理解的分词基于统计的分词
中文分词相关研究吕先超20150108目录中文分词概况分词算法分词难点已经存在的项目基于CRFs的中文分词算法中文分词概况中文分词(ChineseWordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。词是最小的能够独立活动的有意义的语言成分,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。中文分词是汉语自然语言处理的基础性任务,分词的准确度直接影响到后续处理任务,分词的速度影响一些系统的实际应用因此,中文词语分析是中文信息处理的基础与关键。中文在基本文法上有其特殊性:与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文汉字之间没有。在中文里,“词”和“词组”边界模糊中文分词概况中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。中文分词对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响页面的返回结果。分词算法分类现有的分词算法可分为三大类:基于字符串匹配的分词方法基于理解的分词方法基于统计的分词方法。第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:最大匹配法、最小分词方法等。这类方法简单、分词效率较高,但汉语语言现象复杂丰富,词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理。第二类基于统计的分词方法则基于字和词的统计信息,如把相邻字间的信息、词频及相应的共现信息等应用于分词,由于这些信息是通过调查真实语料而取得的,因而基于统计的分词方法具有较好的实用性,基于CRFs的分词方法就是有此延伸而来。三种分词算法的差异分词方法基于字符串匹配的分词基于理解的分词基于统计的分词歧义识别差强强新词识别差强强需要词典需要不需要不需要需要语料库不需要不需要需要需要规则库不需要需要不需要算法复杂性容易很难一般技术成熟度成熟不成熟成熟实施难度容易很难一般分词准确性一般准确较准分词速度快慢一般分词算法逐词遍历法:逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字搜索,直至文章结束。也就是说,不管文章有多短,词典有多大,都要将词典遍历一遍。这种方法效率比较低,大一点的系统一般都不使用基于知识理解的分词方法。该方法主要基于句法、语法分析,并结合语义分析,通过对上下文内容所提供信息的分析对词进行定界,它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。这类方法试图让机器具有人类的理解能力,需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式。因此目前基于知识的分词系统还处在试验阶段。基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配。根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。正向最大匹配法(由左到右的方向)逆向最大匹配法(由右到左的方向)最少切分(使每一句中切出的词数最小)双向最大匹配法(进行由左到右、由右到左两次扫描)正向最大匹配法(由左到右的方向)又称作MM算法其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。基于匹配的分词方法逆向最大匹配法通常简称为RMM法。RMM法的基本原理与MM法相同,不同的是分词切分的方向与MM法相反,而且使用的分词辞典也不同。逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的2i个字符(i字字串)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个词条都将按逆序方式存放。在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。由于汉语中偏正结构较多,若从后向前匹配,可以适当提高精确度。所以,逆向最大匹配法比正向最大匹配法的误差要小。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。例如切分字段“硕士研究生产”,正向最大匹配法的结果会是“硕士研究生/产”,而逆向最大匹配法利用逆向扫描,可得到正确的分词结果“硕士/研究/生产”。最大匹配算法是一种基于分词词典的机械分词法,不能根据文档上下文的语义特征来切分词语,对词典的依赖性较大,所以在实际使用时,难免会造成一些分词错误,为了提高系统分词的准确度,可以采用正向最大匹配法和逆向最大匹配法相结合的分词方案。也就是双向匹配法基于统计的中文分词算法形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。概念:这是一种全切分方法。它不依靠词典,而是将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。它首先切分出与词表匹配的所有可能的词,运用统计语言模型和决策算法决定最优的切分结果。它的优点在于可以发现所有的切分歧义并且容易将新词提取出来。不同算法歧义识别歧义识别指的是一个字符串有多种分词方法,计算机难以给出到底哪一种分词算法才是正确的分词表示。如表面的可以分成“表面/的”或“表/面的”。计算机无法判断哪一种才是准确的分词系列。基于字符串的分词算法:仅仅是跟一个电子词典进行比较,因此不能进行歧义识别。基于理解的分词算法:指通过理解字符串的涵义,故有很强的歧义识别能力。基于统计的分词算法:根据字符连续出现次数的多少,得到分词系列,故常常能够给出正确的分词系列选择,但是也有可能判断错误的情况发生分词难点(1)歧义的处理从歧义字段的切分结果来看,歧义字段可以分为真歧义字段和伪歧义字段。真歧义歧义字段在不同的语境中确实有多种切分形式例:地面积这块/地/面积/还真不小地面/积/了厚厚的雪伪歧义歧义字段单独拿出来看有歧义,但在所有真实语境中,仅有一种切分形式可接受例:挨批评挨/批评(√)挨批/评(╳)不同算法新词识别新词识别也称作未登录词识别,指正确识别词典中没有出现的词语。姓名、机构名、地址、称谓等千变万化,词典中常常不能完全收录这些词语;另外,网络中出现的流行用语也是一种未登录词的常见来源,如“打酱油”为出现在网络中的流行语,从而成为一个新词。大量的研究证明新词识别是中文分词准确性的一个重要影响因素。基于字符串的分词算法:无法正确识别未登录词,因为这种算法仅仅与词典中存在的词语进行比较。基于理解的分词算法:理解字符串的含义,从而有很强的新词识别能力。基于统计的分词算法:这种算法对第二种未登录词有很强的识别能力,因为出现的次数多,才会当作一个新词;对于第二类未登录词,这类词语有一定的规律,如姓名:姓+名字,如杨利伟;机构名:前缀+称谓,如联想集团;故需要结合一定的规则进行识别,仅仅统计方法难以正确识别。分词难点(2)实体名词和专有名词中国人名:李素丽老张李四王二麻子中国地名:定福庄白沟三义庙韩村河马甸翻译人名:乔治·布什叶利钦包法利夫人酒井法子翻译地名:阿尔卑斯山新奥尔良约克郡机构名:方正公司联想集团国际卫生组织外贸部商标字号:非常可乐乐凯波导杉杉同仁堂专业术语和新词语专业术语:万维网主机板模态逻辑贝叶斯算法缩略语:三个代表五讲四美打假扫黄打非计生办新词语:卡拉OK波波族美刀港刀已经存在的项目和常用中文分词包智呈分词1、新词自动识别2、词性输出3、动态词性输出4、特殊词识别5、智能歧义解决6、多种编码识别7、数词量词优化ICTCLAS这是最早的中文开源分词项目之一,ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M.ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++、C#、Delphi、Java等主流的开发语言。MFSOU中文分词PHP扩展SCWSFudanNLPHTTPCWSCC-CEDICTIKPaodingMMSEG4J盘古分词JcsegICTCLASICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem)是中国科学院计算技术研究所在多年研究工作积累的基础上,基于多层隐马模型研制出的汉语词法分析系统。主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。ICTCLAS经过五年精心打造,内核升级6次,目前已经升级到了ICTCLAS3.0,分词精度98.45%,各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名,是当前世界上最好的汉语词法分析器。基于条件随机场模型的中文分词条件随机场(CRFS)是用于序列标记和数据分割以及组块分析的条件概率模型。是给定输入序列条件下计算输出序列的无向图模型。它属于判别模型,没有生成模型的代表隐马尔可夫模型(HMMs)严格的输出独立性假设,且克服了最大熵马尔可夫模型(MEMMs)等其它判别模型的标记偏置问题。该模型可以非常容易的将输入序列中的任意特征纳入到模型中。为了更清楚的描述条件随机场理论,我们先是给出了隐马尔可夫模型,最大熵模型和最大熵马尔可夫模型的相关描述。而后给出了条件随机场的定义,模
本文标题:分词方法基于字符串匹配的分词基于理解的分词基于统计的分词
链接地址:https://www.777doc.com/doc-1787818 .html