您好,欢迎访问三七文档
光学字符识别OCROCR光学字符识别OCR(OpticalCharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(IntelligentCharacterRecognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。OCR处理过程图像预处理文字特征抽取对比识别字词后处理输出图像预处理1、二值化(灰度平局值值法、百分比阈值(P-Tile法)、基于谷底最小值的阈值、基于双峰平均值的阈值、迭代最佳阈值、OSTU大律法、一维最大熵、力矩保持法、基于模糊集理论的阈值、ISODATA(也叫做intermeans法)、Shanbhag法、Yen法)图像的二值化,就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的只有黑和白的视觉效果。图像预处理2、去噪(中值滤波、均值滤波、Wiener维纳滤波)椒盐噪声是黑白相间随机分布的亮暗点噪声,通常产生于图像传感器,传输信道,解码处理等情况中。噪声给图像处理带来诸多不便,对分割图像、提取特征、识别图像等都会带来负面影响。因此,对椒盐噪声去噪显得很有必要。均值滤波维纳滤波3种滤波比较图像预处理3、倾斜校正处理(Hough变换、Hough变换、Hough变换、Fourier变换、最近临簇法、最近临簇法)由于拍摄的图片可能产生倾斜角度,对字符识别带来困扰,所以需将图片倾斜矫正处理。文字特征抽取一、版面分析版面分析将图像切分为不同区域,再把其划分为不同的类型,如图片块、文本块和线条等。虽然名片图像的版面构造多种多样,仍能够将它划分成三类图像组合:文字块:完全由字符构成,它包含中文、字母、数字以及各种标点符号等。线条块:有些名片图像中含有线条,用来醒目单位名称以及有关信息等,通常位于姓名与单位名称间或单位名称与地址之间。图形图片块:由各种线条构成的图案,如单位的标识等。有时,图片块中包含字符或线条,本文将其与图形块和线条分开处理,因为图片块中的信息是偶尔也是有用的。1、方法①自顶而下(投影二分法、循环x-y切分)②自底而上(游程码平滑切分、K近邻聚类方法、连通域提取算法切分)③综合法(基于组件的中文版面分析算法、基于背景空白的版面切分算法)④基于膨胀算法的版面分析技术文字特征抽取二、字符切割提取(基于opencv)1.轮廓检测(只获取最外层的)2.遍历所有检测到的轮廓,用cvBoundingRect()得到每一个轮廓的外接矩形找到的轮廓抠它们出来,这步在上面的遍历中直接通过setROI方法进行提取。文字特征抽取三、特征提取文字特征对OCR识别来说非常重要,文字特征区分一般为两类:其一利用统计的特征,例如文字块的黑、白像素点的比例,通过将文字块几何的分成好几个小块时,形成特征向量,向量是通过每个单独划分的几何区域黑、白点数比例组合起来的,在匹配时,可以利用简单的距离公式或者相似度进行最优匹配。其二从文字的结构入手,比如图片内的文字块通过细化算法细化后,计算交叉点之数量及位置,同时统计字的笔划数量及位置,或配合模版的匹配方法,进行匹配。CNN(卷积神经网络)卷积神经网络是人工神经网络的一种,已成为当前图像识别领域的主流模型.它通过局部感知野和权值共享方法,降低了网络模型的复杂度,减少了权值的数量,在网络结构上更类似于生物神经网络,这也预示着它必然具有更优秀的效果.事实上,我们选择卷积神经网络的主要原因有:1.对原始图像自动提取特征卷积神经网络模型可以直接将原始图像进行输入,免除了传统模型的人工提取特征这一比较困难的核心部分;2.比传统模型更高的精度比如在MNIST手写数字识别任务中,可以达到99%以上的精度,这远高于传统模型的精度;3.比传统模型更好的泛化能力这意味着图像本身的形变(伸缩、旋转)以及图像上的噪音对识别的结果影响不明显,这正是一个良好的OCR系统所必需的。文字特征抽取三、特征提取对比识别样本库训练采集Tesseract-OCR网上下载字体库识别:直观上,我们会有这样一个思路,就是这张待识别的图片,最像样本库中的某张图片,那么我们就将它当作那张图片,将它识别为样本库中那张图片事先指定的字符。在我们眼睛里,判断一张图片和另一张图片是否相似很简单,但对于电脑来说,就很难判断了。我们前面已经将图片数值化为一个个维度一样的矢量,电脑是怎样判断一个矢量与另一个矢量相似的呢?这里需要计算一个矢量与另一个矢量间的距离。这个距离越短,则认为这两个矢量越相似。有些字符变形很严重,有的字符连在一起互相交叉,有的字符被掩盖在一堆噪音海之中。对这类字符的识别需要用上特殊的手段。(1)切线距离(TangentDistance):可用于处理字符的各种变形,OCR的核心技术之一。(2)霍夫变换(HoughTransform):对噪音极其不敏感,常用于从图片中提取各种形状。图像识别中最基本的方法之一。(3)形状上下文(ShapeContext):将特征高维化,对形变不很敏感,对噪音也不很敏感。新世纪出现的新方法。OCR后处理
本文标题:光学字符识别OCR
链接地址:https://www.777doc.com/doc-1908072 .html