您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 其它办公文档 > 中文自动分词系统的研究与实现
华东师范大学硕士学位论文中文自动分词系统的研究与实现姓名:周程远申请学位级别:硕士专业:计算机应用技术指导教师:朱敏20091101中文自动分词系统的研究与实现作者:周程远学位授予单位:华东师范大学相似文献(6条)1.期刊论文黄云峰.HuangYun-feng计算机中文分词技术及其在数字化侦查中的应用研究-福建警察学院学报2008,22(4)实现数字化侦查是社会发展的必然,也是完成繁重侦查任务的要求.计算机中文分词技术是利用计算机,针对中文进行词汇切分的一种技术.将计算机中文分词技术用于侦查工作中,不但可以使办案人员能够利用计算机对大量的原始电子文字数据进行关键词汇信息匹配处理,彻底摆脱繁琐的人工文字搜索比对工作,而且使侦查人员能够获取既准确又全面的证据或者案件线索.2.学位论文夏俊鸾一个基于分类规则发现的汉语消歧方法的设计与实现2006汉语自动分词是中文信息处理领域的基础课题,而且也是进行其它中文信息处理的前提,它有三个主要难点分别是分词规范,歧义字段切分和未登录词,国内外许多研究人员在这一领域都进行了深入的研究,但就目前现状来看,分词的正确率仍然有提升的空间。本论文主要解决分词难点中的歧义字段切分问题,通过深入地研究各种已有的消歧方法,本文发现最终的消歧结果取决于判断汉词词汇切分的准则,这个准则或者说是分词的评价函数的好坏决定了消歧结果的好坏,通过分析发现现有消歧方法的评价函数在客观性和完备性两个方面都存在缺陷,本文从大规模熟语料库中收集歧义数据,可以详细刻画歧义的切分情况以及歧义所在的语境,对这些数据进行分类数据挖掘,抽象出其中的分类规则,这些规则是从大规模的训练文本中训练得到的,体现了大规模文本中歧义待切分点的实际切分状况。最后本文利用挖掘的规则对Sighan的测评文本进行了测试,获得了比较满意的结果。3.期刊论文胥桂仙.朴泰雄.杨丹丹.徐小博.高旭中文文本挖掘中最长频繁序列的发现算法-中央民族大学学报(自然科学版)2004,13(1)本文对中文文本挖掘中的词汇处理技术进行了较深入的探讨,提出了针对汉语语言特点的发现所有最长频繁序列的算法.该算法基于找最长字共现的原则,可以准确地将文本中的词汇切分出来.4.学位论文魏进中文分词技术在公安信息系统中的应用研究2007为了达到在保障整体分词效率和准确率基础上充分保障公安信息分析重要词汇切分的需求,本文利用公安信息文本的特点设计开发了公安信息系统分词系统(WSSPIS)。公安信息文本具有以下特点:1、未登录人名、地名繁多;2、专有名词繁多;3、信息按固定格式书写;4、类似信息和后续信息较多。本文首先设计了SAFM词典机制,该机制便于构建各种专有词汇词典,同时可以利用特点4将已识别的未登录词方便地加入词典以提高分词效率和准确性。在SAFM词典的基础上实现了全切分算法,在全切分的基础上设计了SDOS歧义识别机制,该机制能够识别所有的歧义字段,对于SDOS识别出的所有歧义字段采用SDOSD歧义处理策略有效地减少了歧义处理工作量,在SDOSD歧义处理策略的基础上设计了WSSPIS的歧义处理策略,该策略能够有效地保证重要词汇在歧义处理中的正确切分。对于重要的未登录人名和地名则利用特点3做重复子串的抽取以保证这些词汇能够被有效识别。实验显示WSSPIS对于公安信息文本具有较快的切分速度和较高的准确率,能够满足公安信息系统的需求。5.期刊论文胥桂仙.苏筱蔚.陈淑艳中文文本挖掘中的无词典分词的算法及其应用-吉林工学院学报(自然科学版)2002,23(1)对中文文本挖掘中的词汇处理技术进行了较深入的探讨,提出了针对汉语语言特点的无词典分词算法.该算法基于找最长字共现的原则,可以准确地将文本中的词汇切分出来.6.学位论文万延芝校园网中文信息检索系统的设计和实现2005随着因特网的迅猛发展,WEB信息资源每年都以指数级规律增长,用户要在信息海洋里查找信息,就像大海捞针一样,搜索引擎技术恰好解决了这一难题—它以一定的策略在因特网中搜集、发现信息,对信息进行理解、提取、组织和处理,为用户提供信息检索服务。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。本文所阐述的搜索系统采用目前世界上比较流行的向量空间模型(VSM),该模型及其相关的技术,包括项的选择、加权策略、利用相关反馈进行查询优化等,在文献分类、自动索引、信息检索等许多领域得到了广泛的应用。汉语的词汇在语句中是以线性连续排列的,它不同于西方语言在词汇之间存在分割符(空格),因此,汉语词汇的切分(分词)在中文信息处理系统中尤其重要,词汇切分应用于许多信息领域,如机器翻译、文献检索、文献分类、文献过滤、词频统计等。本文采用了一种基于自动机(Automata)的词典组织结构,并由此生成一种简洁有效的快速分词方法。中文搜索引擎系统由两个部分构成,分别是前台用户查询和后台索引库的维护。其中前台在查询时,系统接收用户输入的中文信息,进行分词、计算相关度的处理,并直观反馈给用户检索的结果;后台维护是管理员更新索引数据库的平台。本文简要介绍了当前与搜索引擎相关的理论和技术,详细阐述中文分词技术,并在此基础上,详细描述了我校校园网络系统的中文信息搜索引擎的设计与实现。本文链接:授权使用:武汉大学(whdx),授权号:e3bd83ae-6b34-4bf0-8c80-9e3300e90269下载时间:2010年11月19日
本文标题:中文自动分词系统的研究与实现
链接地址:https://www.777doc.com/doc-5082485 .html