您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 基于云计算的文本挖掘算法研究
基于云计算的文本挖掘算法研究霍立亚文本挖掘技术•主要技术思想首先利用文本切分技术,对文本信息进行抽取,把文本形式的数据转化为能描述原文本内容的结构化数据;然后利用分类、聚类等技术,形成结构化文本并根据这种结构发现新的知识和获取相应的信息之间的关系。关键技术一、中文分词文本挖掘中中文处理与英文处理最大的区别就是需要中文分词。英文语句都是由数个单词构成,每个单词后都会有一个空格,计算机可以很容易的通过空格识别句子中的单词。由于中文句子内部每个字之间不像英文语句那样有间隔,因此要想理解句子的意思就必须对它进行有意义的拆分,这是中文自然语言理解的基础。然而计算机本身是不能够理解中文语句的意思的。中文自动分词技术就是人为的设计一些规则,使计算机可以把中文句子分割成有意义的语音的单元。中文分词技术•1、基于词典方法这种方法也叫机械分词法,它是将待分词的字串S按照一定的算法搜索子串并与一个或多个分词词典中的词条进行匹配,如果匹配成功则认为该子串是一候选分词。然后继续对剩下的部分进行分割处理,直到匹配完字串S中所有的可能词汇;常用的几种分词方法如下:•(1)最短路径法(使每一句中切出的词数最小)。•(2)正向最大匹配法(按照由左到右的方向)。•(3)逆向最大匹配法(按照由右到左的方向)。•2、基于规则方法基于规则的方法的主要思想是在分词的同时对句子进行语法和语义分析并利用这些分析信息来处理出现的歧义现象。即是说需要通过规则的设定使计算机能够对句子的理解与人的理解一样,从而达到分词的效果;其由于它是模拟人对句子的理解过程,如果在没有大量的语言知识和信息的支持下,实现这种方法是很困难的。并且汉语语言是十分复杂和庞大的,事实上将大量语言信息组织成机器可直接接收的形式是相当困难的。因此目前基于理解的分词系统还处在试验阶段,这种方法通常是与其他算法结合起来使用。•3、基于统计方法基于统计方法就是在分词过程中或者分词后对语料中相邻共现的字的组合的频度进行统计,计算它们的互信息。互现信息体现了字与字之间结合的紧密程度。基于统计方法的基本思想是,通过设定一个适当的阈值(此阈值的确定通常是通过多次实验得出的),当字组的互信息高于此阈值时,则认为此字组成词。这种方法的优点是不需要分词词典,只需要统计语料中的字组频度即可,因而又叫做无词典分词法。这种方法的局限性是对出现频率高但本身不是词的常用字组的识别效果不佳,例如“我们的”、“中的”、“的是”等。中科院分词算法•考虑输入一句话“刘双欢迎你”,分词的中体流程如下:一、分词“刘/双/欢迎/你”二、posTagging(词性标注)“刘/q双j/欢迎/v你/r”三、NE识别(人名、音译名、地名)识别“刘/q双j/欢迎/v你/r”“刘双/nr”四、重新分词:“刘双/欢迎/你”五、重新posTagging(词性标注)“刘双/nr/欢迎/v你/r”六、分词结束•其基本思路是:首先载入词典,然后进行原子切分,在此基础上进行N-最短路径粗切分,找出前N个最符合的切分结果,生成二元分词表,然后生成分词结果,接着进行词性标注并完成主要分词步骤。该分词系统的主要是思想是先通过CHMM(层叠形马尔可夫模型)进行分词,通过分层,既增加了分词的准确性,又保证了分词的效率,共分五层,中科院分词算法新词识别算法新词是未登录词的一种,是一种没有出现在词典中的词。语言随着社会的发展而发展,在词汇中的一大表现就是新词语以及新短语的出现。新词在某一特定领域首先被提出,之后重复出现的频率增大,最后稳定下来。它不仅在1个文档中多次出现,而且会在多文档中反复出现,这是一个新词被承认的必要条件。新词的出现反映了新鲜事物的不断涌现,却给中文新词处理带来了挑战。所以,近年来新词的产生引起了语言学者的特别关注。新词主要包括两类:(1)命名实体,包括地名、人名、机构名等;(2)随着新鲜事物的产生而出现的词语,如“超女”,“雷人”,“科学发展观”等。目前对新词识别的研究主要有基于统计和基于规则两种方法。这两种方法在使用上均存在一定的优势和不足。基于规则的方法对新词识别的准确率比较高,但是存在人工提取规则耗费时间和人力的问题,而且需要不断的更新识别规则;而使用统计方法经常会错误的得到很多垃圾字串,而且对“长词中含有短词”的问题,如“硝酸”与“硝酸铵”的识别十分困难。因此,在实际使用中一般不单独使用某一种方法,通常是将这两种方法结合起来使用,从而达到更理想的新词识别效果。中文分词的MapReduce化方案•本文采取的方法为:•(1)系统全局进行参数配置以及初始化词典,使得各Datanode不用再单独初始化词典,节省了大量初始化词典的开销和时间。•(2)将输入数据进行分片,然后分配给各Datanode进行完整的分词过程。•(3)由于进行Map操作后已经得到我们需要的分词结果,所以此算法不需要Reduce操作,只要把各分片的分词结果进行压缩后直接输出到文件即可。新词识别算法的MapReduce化方案新词识别算法的MapReduce主要思想•(1)在Namenode上初始化词典和参数等配置信息,这些信息被集群中的所有节点(包括Namenode和Datanode)所共享。•(2)根据输入数据的大小和集群中机器的数量将输入数据分片发送到相应的Datanode上等待处理。•(3)对数据分片进行中文分词每一个Datanode对被分配到的片数据进行完整、独立的中文分词过程。我们使用Hadoop平台设计的好处是设计者完全可以不用关心这种数据分配和通信问题,因为平台本身提供了稳定、智能的分配解决方案。(4)候选词的提取对分词结束后剩下的分词碎片中的连续单字进行整合,组成候选词。所谓的连续单字,是指连续两个或两个以上单字的组合。例如,“三聚氰胺事件是近期关注的一个热点”这句话,分词后的结果(不带词性)为“三/聚/氰/胺/事件/是/近期/关注/的/一/个/热点”。连续单字是“三聚氰胺”、“的一个”,其可生成的候选词为“三聚”、“三聚氰”、“聚氰”、“三聚氰胺”、“氰胺”、“的一”、“一个”等。•(5)候选词词频统计即把所有Datanode上处理完的候选词及词频统计结果收集起来(相同候选词的词频相加)。•(6)候选词过滤•首先,统计候选词的出现频率,将其与预先设定阈值做对比,过滤掉出现频率小于阈值的候选词。然后再配合停用词典、噪声词典并采用剪枝策略对剩下的候选词进行多层过滤。通过以上步骤仍留下的候选词我们就认为其是新词。引入剪枝策略的新词过滤方法•由于从分词碎片中得到的候选词串中存在大量的垃圾词串和冗余信息,如“三聚氰胺”,若“三聚氰胺”被选中,那么“三聚”、“三聚氰”等也一定都被选中。但是这些都是冗余信息,应该被删除。本文在对候选词进行出现频率过滤的基础上,还配合停用词典、噪声词典并提出了一种剪枝策略来有效过滤噪声词和冗余信息。如何剪枝如果父串的频率等于其两个最大子串的频率,也认为父串是词,删除子串,剪枝结束。反之,如果任意最大子串频率大于父串,则认为父串不是词,删除父串。循环进行直到该词串没有子串,剪枝结束。谢谢
本文标题:基于云计算的文本挖掘算法研究
链接地址:https://www.777doc.com/doc-2535500 .html