您好,欢迎访问三七文档
第六章模式识别的应用汉字识别1.文字识别问题2.汉字识别系统3.汉字的结构特性分析4.印刷体汉字的特征描述5.汉字识别方法分类1、文字识别问题1)汉字识别2)汉字OCR技术发展历史3)国内主要研究机构1)汉字识别汉字识别属于文字识别(OCR)的范畴,文字识别是模式识别的重要应用领域。汉字识别技术涉及到模式识别、图像处理、人工智能、模糊数学、组合论、信息论、计算机等多个学科,也涉及到语言文字学、心理学等学科,是一门综合性的技术。根据应用情况的不同汉字识别具体又分为印刷体汉字识别和手写体汉字识别。手写体汉字识别又分为两种:在线手写体识别和离线手写体识别。本章主要讨论印刷体汉字识别问题…印刷体汉字识别,从识别字体上可分为单体(一般为宋体)印刷汉字识别和多媒体汉字识别;从识别文字品质上可分为高品质印刷汉字识别和低品质印刷汉字识别;从应用范围上可分为专用印刷汉字识别和通用印刷汉字识别。汉字识别难度印刷体识别•最容易•已经有了大量实际应用,图书馆数字化脱机手写体识别——最难•脱机手写体数字的识别已有实际应用外,比如邮政编码的自动识别•汉字等文字的脱机手写体识别还处在实验室阶段联机手写体识别•相对容易,PDA等的推广,大量应用不同字体的同一汉字的结构约80%相同,但书写风格,笔划粗细形状,笔划装饰等有一定的差异。不同印刷体汉字字形差别主要有:(1)笔划装饰及方向角度不同。(2)笔划长短、位置有变化。(3)笔划形态变化:如黑体笔划粗而平直,宽度一致;宋体横细竖粗,有装饰角;楷体笔划有较大曲率,其中撇、捺弯曲程度更大,各个文字大小相差较大;仿宋体横笔划略向上倾斜。(4)笔划关系变化:如左偏旁口,黑体为正方形,其他体左竖笔较长。(5)偏旁部首占方块字的比例、位置、形态方面,不同字体也有差异。2)汉字OCR技术发展历史西文OCR技术研究始于50年代–OpticalCharacterRecognition(OCR)–几乎所有的早期模式识别研究者都进行过字符识别的研究。随后的30多年来,字符识别一直是模式识别的重要内容之一汉字OCR技术–印刷体汉字的识别最早可以追溯到60年代–1966年,IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1,000个印刷体汉字2)汉字OCR技术发展历史70年代以来,日本人做了许多工作–日本的常用汉字有2000个左右–1977年东芝综合研究所研制了可以识别2000个汉字的单体印刷汉字识别系统–80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平–日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统简评–这些系统在方法上,大都采用基于KL数字变换的匹配方案,使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵,没有得到广泛应用2)汉字OCR技术发展历史我国自70年代后期开始字符识别方面的研究,80年代以后,台湾和香港发展的也很快–70年代末期到80年代末期•算法和方案探索:单体汉字识别–90年代初期•由实验室走向市场,初步实用–90年代后期——混排•多语言混排文本:如中英文•多字体混排文本:如:宋,楷体,…)•多字号混排文本:不同大小当前进展状态2000年代后–识别率、鲁棒性的提高–单纯OCR文档分析•多语混排,多字号,多字体•版面分析–文本的结构–表格,图像(如插图),公式–摄像设备(非扫描仪)•名片手机摄像通讯录3)国内主要研究机构汉王科技–中科院自动化所•1985年刘迎建开发出国内第一个联机手写汉字识别系统,并获国家发明专利。1993年初,在中科院自动化研究所的支持下创办了中国汉王科技公司,出任总经理–中科院计算所智能计算机研究中心国内主要研究机构/人物其他–清华大学电子系图像所•丁晓青教授–北京信息工程学院–沈阳自动化研究所2、汉字识别系统1)系统构成2)OCR技术流程3)预处理-归一化1)系统构成信号采集方式脱机识别–扫描仪或者摄像设备•数字图像信号联机手写识别–手写屏,手写输入板•运动轨迹电信号,记录了笔划和笔顺信息•电磁式或压电式,在书写时,笔在板上的运动轨迹(在板上的坐标)被转化为一系列的电信号,电信号可以串行地进入到计算机中,从这些电信号我们可以比较容易地抽取笔划和笔顺的信息.2)OCR技术一般流程流程简介1)图像获取–将文本转换为图象点阵•扫描仪(Scanner)•其它光电扫描设备–如传真机,摄象机–不同获取设备的差异•扫描仪:最优•摄像机:识别难度大流程简介2)图像预处理–滤除干扰噪声–倾斜校正–各种滤波处理3)版面分析–完成对于文本图象的总体分析–区分出文本段落及排版顺序,图象、表格的区域•对于文本区域将进行识别处理•对于表格区域进行专用的表格分析及识别处理•对于图象区域进行压缩或简单存储。流程简介4)行字切分–将大幅的图象先切割为行–从图象行中分离出单个字符5)特征提取——模式表示问题–整个环节中最重要的一环,提取的特征的稳定性及有效性,直接决定了识别的性能–从单个字符图象上提取统计特征或结构特征•包括细化(Thinning),归一化(大小等)等步骤流程简介6)文字识别–模式识别研究范畴–从学习得到的特征库中找到与待识字符相似度最高的字符类7)后处理–利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程3)归一化为了消除汉字点阵位置上的偏差,需要把整个汉字点阵图形移动到规定的位置上,这个过程被称做位置归一化。有两种简单的位置归一化方法。一种是基于质心的位置归一化方法;另一种是基于文字外边框的位置归一化。基于质心的位置归一化方法需要首先计算文字的质心,然后再把质心移动到指定的位置上来。基于文字外边框的位置归一化需要首先计算文字的外边框,并找出中心,然后把文字中心移动到指定的位置上来。质心归一化外框归一化原始图像污点干扰后图像上图给出了两种方法的示例,从中不难看出,基于质心的位置归一化方法抗干扰力更强。3)归一化常用的大小归一化方法也有两种。一种是将文字的外边框按比例线性放大或缩小成为规定尺寸的文字。另一种是根据水平和垂直两个方向文字黑像素的分布进行大小归一化。对不同大小的文字做变换,使之成为同一尺寸大小的文字,这个过程称做大小归一化。通过大小归一化,许多特征就能够用于识别不同字号混排的文字。对于后一种归一化方法,先计算文字的:c(i,j)意义如下c(i,j)=1表示该像素点为文字黑像素;c(i,j)=0表示该像素点为背景。A,B,L,R分别文字的上下左右边界。(,)(,),BRkijcijcijiAjL记,BRIiAjLGikij,BRJiAjLGjkij则质心GI和GJ为下面计算水平和垂直方向的散度σI和σJ:最后按比例将文字线性放大或缩小成规定散度的点阵。2(,)2IRBIjLiAkijiG(,)(,),BRkijcijcijiAjL2(,)J2RBJjLiAkijjG3、汉字的结构特性分析周边特征分析游程统计特征及分析笔划特征及分析字根统计特征及分析汉字的图像点阵如“大”字0(,)(,)1ijfij处为黑色否则汉字的图像点阵可用一个离散的二元函数来表示周边特征分析每一个汉字用32×32点阵表示,分别从左、右、上、下四个方面顺次扫描汉字点阵。用PL(n,l),PR(n,l),PU(n,l),PD(n,l),分别表示按上述四个方向扫描汉字点阵时在第n条扫描线第l个点位置上第一次遇到笔划黑像素的概率。(,){(,)1,1,2,...,1,(,)0}LPnlPfniilfnllnnl(,){(,1)1,1,2,...,1,(,1)0}RPnlPfnniilfnnl(,){(,)1,1,2,...,1,(,)0}UPnlPfinilfnl(,){(1,)1,1,2,...,1,(1,)0}RPnlPfninilfnln1,2,...,321,2,...,32nl下面定义周边扫描空程长度熵,它们是四边结构特征所包含信息量的度量:左周边熵:3221(),log,LLLlHnPnlPnl3221(),log,RRRlHnPnlPnl上周边熵下周边熵3221(),log,UUUlHnPnlPnl3221(),log,DDDlHnPnlPnl根据熵的理论,PL(n,l)为等概率分布时,其信息量(熵)为最大右周边熵2max()log324LHnbit对于其他三个周边熵也同样如此。左图给出了四种周边熵的分布,从图中可见:(1)周边熵是较高。熵值一般均大于2;2)角部位置区域的熵值最大。说明这些部位扫描线空程的长度变化多,这些部分结构开头多,所以提取周边特征和角部特征或选取角部结构作为部首的特征是合理的。游程统计特性及分析印刷体汉字的游程统计分布可以反映汉字内部笔划结构的分布情况,对汉字特征选择和汉字压缩编码都具有一定参考意义。游程(RunningLength)是指在同一方向上,宽度为一个像素的扫描线条上亮度相同的连续像素的个数。由笔划像素组成的黑游程长度记为BRL,由背景像素组成的白游程长度记为WRL。左图黑白点阵第二行的游程码为WRL1,2,2,1,2为了对汉字游程分布有一个大概的了解,对八个离散方向(00,200,450,700,900,1100,1350,1600)40×40点阵的汉字进行了游程分布统计。不同角度的平均黑游程长度见下表。离散方向009004501350黑游程平均长度(像素数)4.1594.4702.6772.939离散方向70011002001600黑游程平均长度(像素数)3.4453.5472.2613.348笔划特性及分析每种笔划在汉字中出现的频率是不同的。据统计,横为28%,竖为18%,撇为15%,点、捺为13%,折为7%,其他为19%。但是,要使用图像处理技术自动把汉字中的每种笔划都准确地提取出来,目前还有很大困难。但是提取横、竖、撇、捺笔划是可能的。上图是笔划的数目分布图NS,NH,NV,NL和NR分别表示一个字的笔划总数、横笔划总数、竖笔划总数、撇笔划总数和捺笔划总数。左图是笔划的长度分布图LH,LV,LL和LR分别表示横笔划长度、竖笔划长度、撇笔划长度和捺笔划长度(以像素为单位)。字根统计特性及分析汉字有很多字根,这些字根简繁不一。下表统计了几种字根在6763个汉字中出现的频率。字根田日口王卅土字根在字库中出现的百分比%6.6233.9366.0234.5131.7690.09以上是对汉字的一些统计结果。在汉字识别研究中可以根据设计需要对汉字的其他特征和特性做统计,从而使得识别系统更有效,更可靠。4、印刷体汉字的特征描述1)复杂指数2)四边码3)粗外围特征4)粗网格特征5)笔划密度特征6)汉字特征点1)复杂指数文字x方向和y方向的复杂指数被定义为:式中,cx和cy分别为x方向和y方向的复杂指数。Lx和Ly分别为x方向和y方向黑像素的总数。而σx和σy分别为x方向和y方向质心二次矩的平方根:式中,GI和GJ分别为文字质心位置的i和j坐标值,N和M是文字点阵的长和宽。,LLyxccxyxy(,)11(,),kijNMijcijcij2112,,INMxijkijiG2112,JNMyijkijjG从文字四周边框开始,向内取适当宽度,以此宽度分割出文字四周的四个部分。根据每一个部分中含有文字黑像素的多少分为四级编码(0,1,2,3)。2)四边码文字四边码举例一次粗外围特征反映了文字轮廓特征,二次粗外围特征在某种程度上反映了文字内部结构。3)粗外围特征粗外围特征抽取的过程为:首先求出文字的外边框,再把p×q点阵文字分割成n×n份,n通常取8。再将第二次与文字线相碰的非文字部分面积和全部文字面积之比作为二次
本文标题:6-汉字识别.
链接地址:https://www.777doc.com/doc-2930491 .html