您好,欢迎访问三七文档
中国人民公安大学本科毕业论文(设计)I汉字识别技术研究摘要:本文主要在研究当前光学字符识别系统及相关识别技术的基础上,利用matlab编程语言设计了一套简单的相对具有较高识别率的汉字识别程序。首先,将RGB图像转化为二值图像(即仅有黑白二种颜色的图像),而后经平滑处理,滤除混入的噪声,得到清晰完整的文字图像,其次,进行行字切分使整篇文字图像成为单个文字图像,最后提取汉字的横竖撇捺特征与现有的汉字特征库进行比较匹配从而进一步输出汉字的数码形式。实验结果表明,本文研究的方法能够识别汉字,准确率较高。关键词:印刷体汉字识别;预处理;特征提取;特征匹配目录1绪论........................................................11.1汉字识别的研究背景与现实意义......................................11.2我国汉字识别技术发展历史与现状....................................21.3本文研究的主要内容................................................32汉字识别技术的相关基础知识..................................42.1概述..............................................................42.2汉字识别流程......................................................52.2.1预处理.......................................................52.2.2特征提取....................................................62.2.3特征匹配与汉字识别..........................................72.2.4后处理......................................................72.3汉字识别模式......................................................82.3.1结构模式识别................................................82.3.2统计模式识别................................................83汉字识别系统................................................93.1汉字图像增强......................................................93.1.1二值化处理..................................................93.1.2平滑去噪...................................................103.1.3行字切分...................................................10中国人民公安大学本科毕业论文(设计)II3.2特征提取.........................................................123.2.1统计特征...................................................123.2.2特征提取方法...............................................133.3特征匹配识别.....................................................133.4后处理...........................................................144系统仿真与实验结果..........................................154.1实验环境.........................................................154.2实验过程.........................................................154.2.1预处理......................................................154.2.2特征提取与特征识别.........................................194.2.3比对实验...................................................214.3仿真结果分析.....................................................224.4本章小结.........................................................225总结与展望.................................................235.1总结.............................................................235.2展望.............................................................23致谢.......................................................25参考文献.....................................................26中国人民公安大学本科毕业论文(设计)11绪论1.1汉字识别的研究背景与现实意义据文献记载,印刷体汉字的识别最早可以追溯到60年代。1966年,IBM公司发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1000个印刷体汉字。70年代以来,日本学者做了许多工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000个汉字的单体印刷汉字识别系统;80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平[1]。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。但价格过于昂贵,没有得到广泛应用。80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,识别率为99.88%,识别速度大于100字/秒,代表了当时汉字识别的最高水平。80年代中期以来,以软件为主并使用通用高档微机的产品走向市场。汉字作为中华民族文明发展的信息载体,已有数千年的历史,也是世界上使用人数最多的文字,它记录了璀璨的民族文化,展示了我国独特的思维和认知方法。随着计算机技术的推广应用,尤其是互联网的日益普及,人类越来越多地以计算机获得各种信息,大量的信息处理工作也都转移到计算机上进行。因此,对于我国而言,在日常工作尤其是和我们接触颇多的警务工作中,存在着大量的文字信息处理问题,因而将文字信息快速输入计算机的要求就变得非常迫切。现代社会的信息量空前丰富,其中绝大部分信息又是以印刷体汉字的形式进行保存和传播的,这使得以键盘输入为主要手段的计算机输入设备变得相形见绌,输入速度低已经成为信息进入计算机系统的主要瓶颈,影响着整个系统的效率,值得一提的是,这对于处理案件等警务工作的影响尤为明显[2]。因此,要求有一种能将文字信息高速、自动输入计算机的方法。这种快速,准确的自动处理方式将在很大程度上推动我国信息化的发展进程,对公安工作也有着相当深远的意义。1.2我国汉字识别技术发展历史与现状我国对印刷汉字识别的研究始于70年代末、80年代初,大致可以分为三大阶段[2]:中国人民公安大学本科毕业论文(设计)2第一阶段,从70年代末期到80年代末期,主要是算法和方案探索。第二阶段,90年代初期,汉字识别技术由实验室走向市场,初步实用。第三阶段,主要是印刷汉字识别技术和系统性能的提高,包括汉英双语混排识别率的提高和稳健性的增强。同国外相比,我国的印刷体汉字识别研究起步较晚。中国是使用汉字最久远和最广泛的国家。因此,能否在汉字识别方面占据领先的位置是中国科技实力的一项至关重要的体现,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。因此针对于我国当前的状况而言,实现在高速率,高效率的汉字识别技术方面的突破是目前的棘手问题,虽然我国印刷体汉字识别技术的发展和应用已经有了长足进步:从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英文混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到98%以上。但是就汉字本身属性而言,仍然面临着以下方面的困难:(1)类别较大目前我国常用汉字约3000~4000个。国标GB2312一80常用汉字字符集中共有,6763个常用字,分为两级。第一级3,755个汉字,使用频度为99.7%,第二级有3,008个汉字,两级汉字总使用频度为99.99%,识别系统一般应能正确识别这些常用字,才能满足实际应用的需要。目前的研究目标一般都着眼于解决国标一级3755个汉字,即使是这样,汉字识别也属于大类别数的模式识别问题。(2)结构复杂汉字是一种结构性很强的文字,每个汉字都具有特定分布的若干笔划构成,笔划是汉字最基本的组成部分,汉字也可以看成是由部件组合而成的,部件是笔划有意义的组合,一般称之为偏旁、部首或字根。笔划和部首的不同排列组合,构成了表达不同含义的结构异常复杂的汉字字符。(3)相似字多部分汉字字符之间只存在着很细小的差别,具有相同笔划数目的汉字字符之间的差异有的表现为某一个笔划位置或形态的微小变化,又比如“干”和“于”仅在字符的下中国人民公安大学本科毕业论文(设计)3部有一细微的差别。即使由人来辨认印刷体的这些汉字,在无上下文信息的帮助时,也很容易出错[3]。识别算法和系统必须能够正确判定这些细微的差异,否则就会发生错误。当前,我国较为先进,也是应用较为广泛的汉字识别技术为汉王公司的汉王汉字识别软件,技术来自于清华大学丁晓青教授在模式识别、图像处理、文字识别方面的突破。而且值得一提的是,我国的汉字识别方面已经有了一个相当成熟的技术空间。1.3本文研究的主要内容基于以上所述,本文将重点研究印刷体宋体汉字识别技术方面的相关技术,印刷体汉字识别技术主要分预处理、特征提取、匹配识别和后处理四部分。本文对预处理和后处理部分只是做基础性的研究工作,将重点放在研究特征提取和匹配识别两部分。因此本文一共将分五章论述所研究的内容第一章,简要介绍印刷体汉字识别的研究背景,存在的问题,和本文的主要工作及章节安排。第二章,详细的介绍了印刷体汉字识别研究历程,研究范围和分类,汉字识别的流程和方法(预处理,特征提取,特征匹配)。第三章,阐述了印刷体汉字识别预处理的过程,详细论述了对整体文档图像的处理方法,包括图像的二值化、平滑去噪和行字切分的研究及实现。以及后期的特征提取与特征匹配。第四章,利用matlab编程方式实现汉字识别过程的仿真。第五章,对本文工作的总结,以及对该项技术日后发展的展望。2汉字识别技术的相关基础知识2.1概述印刷体汉字识别系统由输入设备、汉字
本文标题:汉字识别技术研究
链接地址:https://www.777doc.com/doc-6077001 .html