您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 【CN110008950A】一种对形状鲁棒的自然场景中文本检测的方法【专利】
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号(43)申请公布日(21)申请号201910189627.9(22)申请日2019.03.13(71)申请人南京大学地址210023江苏省南京市栖霞区仙林大道163号南京大学(72)发明人路通 侯文博 王文海 (74)专利代理机构江苏圣典律师事务所32237代理人胡建华 于瀚文(51)Int.Cl.G06K9/32(2006.01)G06K9/34(2006.01)G06K9/62(2006.01)G06N3/04(2006.01)(54)发明名称一种对形状鲁棒的自然场景中文本检测的方法(57)摘要本发明公开了一种对形状鲁棒的自然场景中文本检测的方法,包括如下步骤:步骤1,对文本数据集中的训练图片进行预处理;步骤2,搭建PSENet进步式尺度生长网络,利用所述进步式尺度生长网络完成对训练图片的特征提取、特征融合以及分割预测,得到多个预测尺度的分割结果;步骤3,对步骤2中搭建的PSENet进步式尺度生长网络进行监督训练得到检测器模型;步骤4,对待检测图片进行检测;步骤5,使用尺度生长算法得到最终检测结果。权利要求书3页说明书6页附图2页CN110008950A2019.07.12CN110008950A1.一种对形状鲁棒的自然场景中文本检测的方法,其特征在于,包括如下步骤:步骤1,对文本图片数据集中的训练图片进行预处理;步骤2,搭建PSENet进步式尺度生长网络,利用所述进步式尺度生长网络完成对训练图片的特征提取、特征融合以及分割预测,得到多个预测尺度的分割结果;步骤3,对步骤2中搭建的PSENet进步式尺度生长网络进行监督训练得到检测器模型;步骤4,对待检测图片进行检测;步骤5,使用尺度生长算法得到最终检测结果。2.根据权利要求1所述的方法,其特征在于,步骤1中所述文本图片数据集为已有的公共的文本图片数据集,或者临时采集场景中的文本图片数据集,所述文本图片数据集中包含有N张训练图片,每张训练图片中有至少一个文本区域,并且有一个以矩形或多边形的顶点坐标来描述图片中所有文本区域位置信息的标注文件,所述标注文件称为标签。3.根据权利要求2所述的方法,其特征在于,步骤1包括:对文本数据集中的训练图片进行如下数据增强:首先将训练图片按照比例{0.5,1.0,2.0,3.0}随机放缩,然后将训练图片随机水平翻转且在[-10°,10°]范围内进行随机旋转,最后从训练图片上随机裁剪出大小为640×640的样例,作为最终的训练图片。4.根据权利要求3所述的方法,其特征在于,步骤2中,所述PSENet进步式尺度生长网络包括一个FPN特征金字塔网络模块,一个特征融合模块和一个n支路预测模块,所述n支路预测模块包含n个预测支路模块。5.根据权利要求4所述的方法,其特征在于,步骤2包括以下步骤:步骤2-1,建立一个FPN特征金字塔网络模块,对步骤1得到的训练图片进行特征提取与特征图的上采样和融合,得到特征图(P2,P3,P4,P5),P2,P3,P4,P5分别代表FPN模块中不同卷积层产生的融合后的卷积特征图;步骤2-2,特征融合模块包括两个子模块:特征融合函数和降维模块,使用特征融合模块中的特征融合函数C(·)对特征图(P2,P3,P4,P5)进行特征融合得到特征图F,融合函数C(·)定义如下:F=C(P2,P3,P4,P5)=P2||Up×2(P3)||Up×4(P4)||Up×8(P5)其中符号||表示连接,Up×2(·)、Up×4(·)和Up×8(·)分别代表2倍的上采样upsample、4倍的上采样upsample和8倍的上采样upsample:特征图经特征融合函数融合为特征图F后需进入降维模块降维到256维,降维模块为Conv(3,3)-BN-ReLU层,其中Conv(3,3)表示卷积核为3×3的卷积层,BN表示批量归一化层,ReLU为线性整流函数;步骤2-3,特征图F进入n支路预测模块,经过n个Conv(1,1)-Up-Sigmoid层生成n个分割结果S1,S2,...,Sn,其中Conv(1,1)表示卷积核为1×1的卷积层,Up表示上采样层,Sigmoid为激活函数,Sn表示第n个分割结果,每个Si中包含对同一张图片中不同文本区域的分割结果,i取值为1~n,所述分割结果中的文本区域即为文本实例,记为kernels。6.根据权利要求5所述的方法,其特征在于,步骤3包括以下步骤:步骤3-1,将训练图片中的文本实例对应的标签进行收缩处理成n个预测支路模块对应的n个训练图片的标签:利用Vatti clipping算法对原始文本实例所对应标签的多边形pn收缩di个像素点得到收缩后的多边形pi,每个收缩后的多边形pi被转换为一个训练图片的二进制掩码,把这些训练图片的掩码图分别定义为G1,G2,...,Gn,Gn表示第n个训练图片的权 利 要 求 书1/3页2CN110008950A2掩码图,用ri表示放缩率,通过以下公式计算pn与pi之间的距离di:其中Area(·)为计算多边形面积的函数,Perimeter(·)为计算多边形周长的函数;步骤3-2,设置PSENet进步式尺度生长网络的训练损失函数L为:L=λLc+(1-λ)Ls,其中Lc和Ls分别表示完整的文本实例损失和收缩后的kernels的损失,参数λ用来平衡Lc和Ls,参数λ的范围在(0,1)区间内,采用dice系数来计算损失函数L;步骤3-3:利用步骤1中预处理过后的文本数据集以及步骤3-1中收缩过后的标签和步骤3-2中设置的损失函数L,使用随机梯度下降法对PSENet进步式尺度生长网络进行监督训练。7.根据权利要求6所述的方法,其特征在于,步骤3-1中,训练图片不同掩码图Gi的放缩率ri按如下公式计算:其中m为最小的放缩率,其值在(0,1]区间内。8.根据权利要求7所述的方法,其特征在于,步骤3-2中,按照下面的公式计算dice系数D(Si,Gi):其中Si,x,y和Gi,x,y分别指第i个分割结果Si中像素点(x,y)的的像素值和第i个训练样本图Gi中像素点(x,y)的的像素值;按照下面的公式计算参数Lc:Lc=1-D(Sn,Gn),Ls为收缩后的标签对应的文本实例的损失,通过以下公式计算Ls:其中,W是第n个分割结果Sn上屏蔽非文字区域像素点的掩码,Sn,x,y为第n个分割结果Sn中像素点(x,y)的像素值,Wx,y为W中像素点(x,y)的像素值。9.根据权利要求8所述的方法,其特征在于,步骤4包括:用步骤3中训练好的检测器模型进行分割结果的预测,每张待检测图片能够得到一组n个分割结果掩码S1,S2,...,Sn,Sn表示第n个分割结果掩码,每个Si是所有文本实例在一个确定尺度下的分割掩码,i取值为1~n。10.根据权利要求9所述的方法,其特征在于,步骤5包括:步骤5-1,从步骤4中得到的分割掩码Si中的kernels以不同的连通组件的形式存在,遍历每一个kernels,对每一个kernel进行以下操作:遍历其邻居像素点,若其邻居像素点属于分割掩码Si+1中的同一位置的kernel范围,则将其合并入该kernel;对于同一分割掩码Si中的不同kernels,在生长时,相邻kernels之间的邻居节点中发生冲突的地方,按照先来先服务的规则将发生冲突的像素点融合进首先生长到该冲突位置的kernel,这样即完成了从分割掩码Si生长到Si+1的过程;权 利 要 求 书2/3页3CN110008950A3步骤5-2,从尺度最小S1开始重复步骤5-1直到尺度最大的Sn为止;步骤5-3,输出步骤5-2生长过程最后的掩码即为最终检测结果。权 利 要 求 书3/3页4CN110008950A4一种对形状鲁棒的自然场景中文本检测的方法技术领域[0001]本发明涉及深度学习技术领域,尤其涉及一种对形状鲁棒的自然场景中文本检测的方法。背景技术[0002]近几年来,自然场景中的文本检测在场景理解,产品识别,自动驾驶和目标地理定位等许多领域都开始了广泛的应用。然而,由于前景的文本块和文本行与背景物体之间的尺度差异较大,并且文本在形状、颜色、字体、大小及方向的不同,自然场景的文本检测依然面临巨大挑战。[0003]目前,卷积神经网络的迅速发展使得场景文本检测取得巨大进展。现有的文本检测方法大致可以分为两种类型:基于边界框回归的方法和基于物体分割的方法。基于边界框回归的方法可以以矩形或四边形的形式定位出方向固定的目标文本,但是这类方法不能准确定位形状不规则的文本实例,而自然场景中这种不规则文本实例非常常见。另外一类基于语义分割的方法在解决任意形状的文本检测问题时被提出来,因为像素级别的分割可以获取任意形状的文本实例的边缘信息。然而当两个文本实例相距非常近时这类方法无法将实例成功分离,因为连接区域会将两个实例合并成同一个文本实例。上述两个问题是场景文本检测领域内仍然存在的两个困难,为了提升场景文本检测的准确率和召回率,解决以上两个问题是非常有必要的。发明内容[0004]本发明针对现有方法和技术的不足,提出一种基于实例分割的新型场景文本检测方法,给定一张场景图片,本发明将在该场景图片中检测出所有文本出现的位置并用边界框将所有文本实例包围起来,给出文本检测的结果。[0005]本发明方法包括如下步骤:[0006]步骤1,对文本图片数据集中的训练图片进行预处理;[0007]步骤2,搭建PSENet(Progressive Scale Expansion Network)进步式尺度生长网络,利用所述进步式尺度生长网络完成对训练图片的特征提取、特征融合以及分割预测,得到多个预测尺度的分割结果;[0008]步骤3,对步骤2中搭建的PSENet进步式尺度生长网络进行监督训练得到检测器模型;[0009]步骤4,对待检测图片进行检测;[0010]步骤5,使用尺度生长算法得到最终检测结果。[0011]本发明中,步骤1中所述文本数据集为已有的公共的文本图片数据集,例如:ICDAR2015、ICDAR 2017MLT、Total-Text或CTW1500等,或者临时采集场景中的文本图片数据集,所述文本图片数据集中通常包含有N张(一般为一千张以上)的训练图片,每张训练图片中有至少一个文本区域,并且有一个以矩形或多边形的顶点坐标来描述图片中所有文本说 明 书1/6页5CN110008950A5区域位置信息的标注文件,所述标注文件称为标签。[0012]本发明中,步骤1包括:对文本数据集中的训练图片进行如下数据增强:首先将训练图片按照比例{0.5,1.0,2.0,3.0}随机放缩,然后将训练图片随机水平翻转且在[-10°,10°]范围内进行随机旋转,最后从训练图片上随机裁剪出大小为640×640的样例,作为最终的训练图片。[0013]本发明中,步骤2中,所述PSENet进步式尺度生长网络包括一个FPN(Feature Pyramid Networks,特征金字塔网络)特征金字塔网络模块,一个特征融合模块和一个n支路预测模块,所述n支路预测模块包含n个预测支路模块。[0014]本发明中,步骤2包括以下步骤:[0015]步骤2-1,建立一个FPN特征金字塔网络模块,并使用该FPN特征金字塔网络模块按照论文“T.-Y.Lin,P.Dollár,R.Girshick,K.He,B.Hariharan,andS.Belongie.Feature pyramid networks for object detection.In CVPR,2017.”中的方法对步骤1得到的训练图片进行特征提取与特征图的上采样和融合,得到特征图(P2,P3,P4,P5),P2,P3,P4,P5(此处换成任何字母abcd都可以表示,属于参考文献T.-Y.Lin,P.Dollár,R.Girshick,K.He,B.Hariharan,andS.Belongie.Feature pyramid networks for object detection.In CVPR,2017.中的特征提取和融合
本文标题:【CN110008950A】一种对形状鲁棒的自然场景中文本检测的方法【专利】
链接地址:https://www.777doc.com/doc-5571820 .html