您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 造纸印刷 > 基于模板匹配的印刷号码识别研究
-1-基于模板匹配的印刷号码识别研究贾军锋(西安西正印制有限公司)摘要:随着技术的进步,对号码进行在线识别检测已经成为票据印刷中减少缺陷号码,提高产品质量的必然趋势。本文研究了基于模板匹配的印刷号码自动识别系统,实现了对号码图像的自动识别。关键词:模板匹配;号码识别1引言模板匹配是字符图像识别最重要的一种方法。为了实现模板匹配,首先要得到识别字符的标准模板,模板匹配识别的过程是把待识别字符图像和标准模板进行比较的过程。本文对金融票据号码进行分析研究,用采集来的号码图像制作标准字体模板,然后通过模板匹配对字符图像进行识图1-1识别过程-2-别,得到识别结果。整个识别过程如图1-1所示。2预处理图像的预处理就是用一系列的特定操作来改变图像的像素以达到特定目的的。一般来说,它应该包含图像的噪声去除、图像边缘锐化和二值化。2.1噪声去除图像预处理的目的在于去除孤立的噪声点,使图像画面清晰,以便提取字符特征进行识别。噪声去除是很必要的图像预处理步骤。常见的噪声去除方法有均值滤波法、高斯滤波法、中值滤波法等。由于号码字符主要由笔画线条组成,采用均值滤波或高斯滤波会造成字符边缘模糊,所以本文采用中值滤波法对图像进行去噪处理,滤波效果如图2-1所示。2.2图像边缘锐化锐化的主要目的在于突出图像中的细节或者增强被模糊了的细节,比如号码图像中号码边缘就是必需要增强的特征信息。本(a)原图(b)中值滤波图2-1滤波效果-3-文采用拉普拉斯算子作为图像边缘增强的滤波器,选用3×3模板,各个像素点的权值如图2-2所示,处理效果如图2-3所示。2.3图像的二值化图像的二值化是通过图像的阈值分割来实现的。由于阈值分割能将灰度图像转换为二值图像,不仅可以大量压缩数据减少存储量,而且能简化其后的分析和处理步骤。根据阈值选取方法的不同,二值化方法主要分为三类:全局阈值法、局部阈值法和动态阈值法。由于在印刷号码在线检测识别系统中,光源稳定,待识别号码图像区域可以事先采集,所以可以在系统的设计中采用全局阈值法,预先指定一个阈值,通过调整数值观察图像的变化效果,从而选取合适的阈值。图2-4给出了经过二值化后的图像处理效果。(a)原始图像(b)二值图像图2-4图像二值化图2-2拉普拉斯锐化算子图2-3拉普拉斯边缘增强010141010-4-3号码的定位与分割3.1号码的定位对于票据号码图像,在经过二值化后,单个号码间距较大,噪声干扰较小,因此可以选用比较简单的能够快速定位字符的方法,比较简单的是垂直投影法。将字符在垂直方向投影,由于各字符之间存在明显的间距,就可以通过一条竖线从左向右扫描投影图,通过判断扫描过程中遇见的号码黑色像素和背景白色像素决定字符的起始位置和结束位置。3.1.1字符图像的左右边界定位二值图像的坐标如图3-1所示。设号码图像宽为w,高为h,二值化后的图像为),(jig,则字符左右边界定位的具体步骤如下:对图像),(jig延x方向从上至下读取每一个像素点的灰度级,进行如下判断:a)如果所读取的y向上的灰度级都是白点1),(jif,即背景色,则认为该列位于两个字符之间;图3-1号码字符定位坐标-5-b)若在某一y向上读到了黑点0),(jif,即信息色,则这一列存在字符信息;c)对于一个字符的左右边界是这样确定的:当第一次在y向上读到信息色,则将这一列的i值记录为该字符的左边界;在此之后,当第一次在y向上读到的都是背景色,则将这一列的i值记录为该字符的右边界。这样将整个图像区域扫描完成之后,将记录下每个字符的左右边界。因为号码图像均由连续的线条构成,所以采用垂直投影法对0-9这十个字符图像进行分割没有问题,图3-2是一个号码图像字符定位示意图,图3-2(a)是从在线检测设备上截取的号码图像。图3-2(b)是定位后的号码图像,为8个阿拉伯数字。图3-2(c)是图3-2(b)像素数目垂直投影分布图,可见字符间有明显的间隔,利于单字符定位。3.1.2字符图像的上下边界定位字符上下边界定位的具体步骤如下:对图像),(jig延y方向从左至右读取每一个像素点的灰度级,进行如下判断:a)如果所读取的x向上的灰度级都是白点1),(jif,即背景-6-色,则该行位于字符之上或下;b)若在某一y向上读到了黑点0),(jif,即信息色,则将这一行的i值记录为该字符的上边界;在此之后,当第一次在y向上读到的都是背景色,则将这一行的i值记录为该字符的下边界。c)依次对每个单字符图像的上下边界进行扫描,将整个图像区域扫描完成之后,将记录下每个字符的上下边界。(a)原图(b)字符定位(c)垂直投影直方图图3-2号码单字符定位3.2单字符分割根据字符的定位结果,从字符中准确地把字符从背景图像中分割开来作为识别的数据源,称之为字符分割,字符分割是字符识别的基础,但要注意不能将噪声错认为是有效字符。要避免这种错误出现就要对可能字符的宽度进行分析,分析它是有效字符,还是噪声。另外,还要注意的地方是在图像归一化处理中,调整图像高度时也要考虑类似的噪声的影响,以免错将噪声点认为是有效信息,导致图像不能居中,妨碍数字的识别。-7-4号码识别4.1字符的归一化由于票据号码喷码印刷的随机因素或图像采集、处理等原因,票据号码在单字符分割后,每个数字的大小是不同的.对不同大小的字符做变换,使之成为同一尺寸大小的字符,这个过程被称作大小归一化。字符图像的大小归一化,一般分为两部分:线性归一化和非线性归一化。线性归一化较为简单,在字符识别系统中应用很多,实现方法是对像素坐标进行线性变化,将不同尺寸的图像转换成固定大小的图像。本文采用就是这种归一化方法,将单个号码的大小归一化为20×32的图像,为号码的识别奠定基础。设NM为归一化后的字符的大小。设(u,v)为数字图象的原坐标,(x,y)为归一化处理后的新坐标,计算方法如式(4-1)所示,数据处理效果如图4-1所示。其中Su,Sv分别是X轴方向和Y轴方向上的缩放率,大于1时放大,大于0且小于1时缩小。(4-1)100000011SvSuvuyx-8-4.2字符识别采集到字符图像在归一化之后就可以建立标准模板。对字符图像识进行识别时,这些图像经过上面的处理过程之后与标准模板进行比较;找出差异最小的模板字符,就作为识别的结果。具体如式4-2所示。式中M为字体模板的宽度,N为字体模板的长度。f(i,j)为待识别图像,g(i,j)为标准模板,s为待识别图像与标准模板存在差异的像素总数。5.实验5.1号码图像定位实验号码图像定位实验是基于固定的条件下选取的号码图像为依据的,这里指机器速度、曝光时间、阈值等。选取的号码图像大小为120×47像素。号码图像在进行单字符定位过程中,根据像素点信息的分布对上、下、左、右四个边界进行判别。NjMijigjifS11|),(),(|(4-2)(a)原图(b)字符大小归一化图4-1字符大小归一化-9-设X1,X2,Y1,Y2代表图5-1中每个字符的左右上下边界,表5-1给出了图5-1中一组号码图像中各字符的定位结果实验所示。表5-1号码定位表01537611X1115263851637790X21121364860738396Y11615151515151515Y23636363636363636在实验中,总共统计了24幅图像,192个字符。经人工比对,均能较好的进行定位,证明本文的定位算法是有效的。5.2号码识别实验本文在研究过程中通过VisualBasic6.0开发出了号码识别系统,可以实现对印刷号码进行模板匹配识别。表5-2给出了图5-1所示号码图像的模板匹配的统计数值,模板行对应为0~9这10个标准数字模板,图像列对应为号码图像中待识别的数字。号码图像与模板匹配数值最小值所对应的模板数字即为识别结果。如果字符图像与模板字符完全匹配,则计算结果为0,该模板字图5-1边界定位原图边界位置-10-符即为识别结果;否则继续寻找下一字符的匹配值。使用模板识别法识别时,错误集中在0和8,1和4,0和5之间的相互错误识别,粗略估计占到80%以上。这是由于这几个数字形体相近造成的。本文通过对192个字符图像进行识别统计,识别率达到了97.9%。表5-2模板匹配字符数据统计表0123456789010421424322021420220227721219612255717621913921128515829921751811952481652271152072201752233220210167662521302142211462207289195170199289231331242772296214252307270216198363412203021219331662051251932611822892151277691902591732553151923152436总结对于印刷体号码识别,无论是用机械码打码或是采取喷码方式印刷的号码,由于印刷条件和环境的要求,号码图像在经过二值化处理后难免产生变形,所以必须在特定的光照、曝光时间、曝光量、机器速度一致的情况下才能采集到灰度背景颜色一致的图像,而采取模板匹配方式是最常用的选择。票据印刷号码图像正确识别的前提是能够对号码进行准确定模板图像匹配值-11-位,而选取适合号码图像的阈值则是关键。由于时间和实验条件的限制,本文的实验系统采用VisualBasic6.0开发,虽然对单幅图像的识别达到较好的效果,但是要完成真正的在线的自动识别还有大量的工作要做,如对处理相机采集的视频图像抓取号码区域,连续视频图像的版面分割,处理算法能否满足实时处理的要求等;对于硬件的选择和调试可能面临的困难更大。今后将进一步研究在线检测的识别算法,学习VC++语言对图像处理与号码识别的算法,对软件与硬件结合进行研究,开发实用的票据号码在线检测系统。参考文献【1】陈亚军,张二虎.基于机器视觉的印品质量在线检测【J】.今日印刷,2005(11):12-14【2】冈萨雷斯,数字图象处理(第二版),电子工业出版社,2003.3【3】胡军州.基于DSP的印刷号码自动识别系统研究:【硕士学位论文】【D】.西安:西安理工大学.2005【4】贾云得.机器视觉【M】.科学出版社,2000【5】何斌.数字图像处理[M].北京:人民邮电出版社,2005-12-【6】刘英伟.纸币号码图像识别系统研究[D].哈尔滨理工大学,2008【7】刘京南,陈从颜.一种快速二维熵阈值分割方法.计算机应用研究[J].2002,19(1)【8】朱昊,刘文耀,王金涛等.汽车牌照的字符分割与识别[J].计算机测量与控制.2003【9】郑南宁.计算机视觉与模式识别[M].北京.国防工业出版社,1998
本文标题:基于模板匹配的印刷号码识别研究
链接地址:https://www.777doc.com/doc-58675 .html