【CN110096991A】一种基于卷积神经网络的手语识别方法【专利】

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号(43)申请公布日(21)申请号201910340257.4(22)申请日2019.04.25(71)申请人西安工业大学地址710032陕西省西安市未央区学府中路2号(72)发明人肖秦琨　秦敏莹　(74)专利代理机构西安弘理专利事务所61214代理人燕肇琪(51)Int.Cl.G06K9/00(2006.01)G06K9/34(2006.01)G06K9/62(2006.01)G06F16/50(2019.01)G06N3/04(2006.01)(54)发明名称一种基于卷积神经网络的手语识别方法(57)摘要本发明公开一种基于卷积神经网络的手语识别方法，具体的步骤为：步骤1，采集若干含有手语的深度图像；步骤2，经过预处理步骤将所有的深度图像中的手型部分从背景中分割出来，得到完整无噪声的手型图像，建立手语图像数据库；将手语图像数据库中的手型图像分为为两部分，一部分作为训练样本，另一部分作为测试样本；构建一个卷积神经网络模型；步骤3，利用所述训练样本对卷积神经网络模型对进行训练；步骤4，用已经训练好的卷积神经网络模型对测试样本进行识别，并输出分类识别的结果。本发明的能够提供一种基于卷积神经网络的手语识别方法，避免了传统手语识别方法对于数据量较大的任务效率较低的问题。权利要求书2页说明书8页附图1页CN110096991A2019.08.06CN110096991A1.一种基于卷积神经网络的手语识别方法，其特征在于，具体的步骤如下：步骤1，采集若干含有手语的深度图像；步骤2，经过预处理步骤将所有的深度图像中的手型部分从背景中分割出来，得到完整无噪声的手型图像，建立手语图像数据库；将手语图像数据库中的手型图像分为为两部分，一部分作为训练样本，另一部分作为测试样本；构建一个卷积神经网络模型；步骤3，利用所述训练样本对卷积神经网络模型对进行训练；步骤4，用已经训练好的卷积神经网络模型对测试样本进行识别，并输出分类识别的结果。2.如权利要求1所述的一种基于卷积神经网络的手语识别方法，其特征在于，所述步骤一中采用Kinect深度摄像头进行图像采集。3.如权利要求2所述的一种基于卷积神经网络的手语识别方法，其特征在于，采集数据时，所述Kinect深度摄像头距离打手语者约0.8～1.2米，距离地面约1.0～1.4米，帧率为30FPS。4.如权利要求1所述的一种基于卷积神经网络的手语识别方法，其特征在于，步骤2中所述预处理步骤具体如下：步骤2.1：将手语图像数据库中深度图像经过高斯滤波，除去较大的噪声，得到较为平滑的图像集；步骤2.2：对步骤2.1得到的图像集进行深度阈值分割，深度阈值分割的具体方法为：建立目标图像的深度直方图，设定深度直方图中第一个波谷点的值为阈值，大于该阈值的像素点为背景部分，将它们置1；小于该阈值的像素点为前景部分，将它们置0，最后得到分割后的手型图像集；步骤2.3：将步骤2.2得到的分割后的手型图像集做高斯去噪处理，除去噪声；步骤2.4：除去步骤2.3得到的手型图像集的小连通区域最终得到完整的手型图像。5.如权利要求4所述的一种基于卷积神经网络的手语识别方法，其特征在于，所述步骤2.4的具体方法为：标记图像的连通区域并计算连通区域的像素个数，设置阈值，当连通域的像素个数小于阈值时，即判定该连通区域为噪音，将该连通区域的像素均置为1。6.如权利要求1所述的一种基于卷积神经网络的手语识别方法，其特征在于，步骤2所述的卷积神经网络模型为16层卷积神经网络模型，按照信息处理顺序依次为：图像输入层、卷积层1、ReLU层1、归一化层1、池化层1、卷积层2、ReLU层2、归一化层2、池化层2、卷积层3、ReLU层3、归一化层3、全连接层1、全连接层2、softmax层和图像输出层；其中每一层的输出即为下一层的输入。7.如权利要求6所述的一种基于卷积神经网络的手语识别方法，其特征在于，步骤2所述的卷积神经网络模型中的参数设置为：卷积层1中，设置卷积核为3×3，步长为1，填充值为0，滤波器数量为8；池化层1中，设置池化窗口为2×2，步长为2，滤波器数量为8；卷积层2中，设置卷积核为3×3，步长为1，填充值为0，滤波器数量为16；池化层2中，设置池化窗口为2×2，步长为2，滤波器数量为8；卷积层3中，设置卷积核为3×3，步长为1，填充值为0，滤波器数量为32；权　利　要　求　书1/2页2CN110096991A2Softmax层中，MaxIter设置为280，epoch设置为4。权　利　要　求　书2/2页3CN110096991A3一种基于卷积神经网络的手语识别方法技术领域[0001]本发明属于手语识别技术领域，涉及一种基于卷积神经网络的手语识别方法。背景技术[0002]手语是听障人群与正常人群互相交流的唯一途径。正是有手语识别系统的存在，聋哑人群的生活和工作空间才没有因此被限制。另一方面，随着人工智能技术的发展，手语作为新型的、更加便捷的人机交互方式也已经成为当今各行业交互方式的新趋势。[0003]传统的手语识别方法主要涉及特征提取以及学习识别两个步骤。人工设计特征主要包括有梯度方向直方图(HOG)和光流方向直方图(HOF)，用于时序建模的传统模型和方法主要有隐马尔科夫模型(HMM)动态时间规整(DTW)和条件随机场(CRF)等。迄今为止,对这两个问题进行了大量的研究工作。但由于人工设计的特征较为单一，且建模过程较为繁琐，在处理数据量较大的任务时效率较低。发明内容[0004]本发明的目的是提供一种基于卷积神经网络的手语识别方法，避免了传统手语识别方法对于数据量较大的任务效率较低的问题。[0005]本发明所采用的技术方案是，[0006]一种基于卷积神经网络的手语识别方法，具体的步骤如下：[0007]步骤1，采集若干含有手语的深度图像；[0008]步骤2，经过预处理步骤将所有的深度图像中的手型部分从背景中分割出来，得到完整无噪声的手型图像，建立手语图像数据库；将手语图像数据库中的手型图像分为为两部分，一部分作为训练样本，另一部分作为测试样本；[0009]构建一个卷积神经网络模型；[0010]步骤3：用训练样本对卷积神经网络模型进行训练。[0011]步骤4：用已经训练好的卷积神经网络模型对测试样本进行识别，并输出分类识别的结果。[0012]本发明的特点还在于，[0013]其中步骤一中采用Kinect深度摄像头采集图像，采集数据时，Kinect 深度摄像头距离打手语者约0.8～1.2米，距离地面约1.0～1.4米，帧率为 30FPS；[0014]其中步骤二中图像预处理步骤具体如下：[0015]步骤2.1：将手语图像数据库中深度图像经过高斯滤波，除去较大的噪声，得到较为平滑的图像集；[0016]步骤2.2：对步骤2.1得到的图像集进行深度阈值分割，深度阈值分割的具体方法为：建立目标图像的深度直方图，设定深度直方图中第一个波谷点的值为阈值，大于该阈值的像素点为背景部分，将它们置1；小于该阈值的像素点为前景部分，将它们置0，最后得到分割后的手型图像集；说　明　书1/8页4CN110096991A4[0017]步骤2.3：将步骤2.2得到的分割后的手型图像集做高斯去噪处理，除去噪声；[0018]步骤2.4：除去步骤2.3得到的手型图像集的小连通区域，具体步骤为：标记图像的连通区域并计算连通区域的像素个数，设置阈值，当像素个数小于阈值时，即判定该连通区域为噪音，将该连通区域的像素均置为1；最终得到完整的手型部分。[0019]其中步骤2中的卷积神经网络模型为16层卷积神经网络模型，按照信息处理顺序依次为：图像输入层、卷积层1、ReLU层1、归一化层1、池化层1、卷积层2、ReLU层2、归一化层2、池化层2、卷积层3、ReLU层3、归一化层3、全连接层1、全连接层2、softmax层和图像输出层；其中每一层的输出即为下一层的输入。其中参数设置为：[0020]卷积层1中，设置卷积核为3×3，步长为1，填充值为0，滤波器数量为8；[0021]池化层1中，设置池化窗口为2×2，步长为2，滤波器数量为8；[0022]卷积层2中，设置卷积核为3×3，步长为1，填充值为0，滤波器数量为16；[0023]池化层2中，设置池化窗口为2×2，步长为2，滤波器数量为8；[0024]卷积层3中，设置卷积核为3×3，步长为1，填充值为0，滤波器数量为32；[0025]Softmax层中，MaxIter设置为280，epoch设置为4。[0026]本发明的有益效果是，[0027]本发明提出的一种基于卷积神经网络的手语识别方法，克服了传统手语识别过程人工设计特征较为复杂，且时序建模过程较为繁琐，对于数据量较大的任务效率较低的问题。可以避免光照比较敏感，对环境要求高，鲁棒性不强等因素的影响，能够自动识别手势动作。附图说明[0028]图1是本发明一种基于卷积神经网络的手语识别方法的流程图；[0029]图2是本发明一种基于卷积神经网络的手语识别方法所用的卷积神经网络模型的示意图。具体实施方式[0030]下面结合附图和具体实施方式对本发明进行详细说明。[0031]一种基于卷积神经网络的手语识别方法，如图1所示，具体的步骤如下：[0032]步骤1：采用Kinect深度摄像头采集若干含有手语的深度图像；[0033]采集数据时，Kinect深度摄像头距离打手语者约0.8～1.2米，距离地面约1.0～1.4米，帧率为30FPS；[0034]步骤2：对手语图像数据库中深度图像进行图像预处理，得到完整无噪声的手型图像，建立手语图像数据库；将手语图像数据库中的手型图像分为为两部分，一部分作为训练样本，另一部分作为测试样本；[0035]构建一个的卷积神经网络模型。[0036]其中预处理的具体步骤如下：[0037]步骤2.1：将手语图像数据库中深度图像经过高斯滤波，除去较大的噪声，得到较为平滑的图像集；[0038]步骤2.2：对步骤2.1得到的图像集进行深度阈值分割，深度阈值分割的具体方法说　明　书2/8页5CN110096991A5为：建立目标图像的深度直方图，设定深度直方图中第一个波谷点的值为阈值，大于该阈值的像素点为背景部分，将它们置1；小于该阈值的像素点为前景部分，将它们置0，最后得到分割后的手型图像集；[0039]步骤2.3：将步骤2.2得到的分割后的手型图像集做高斯去噪处理，除去噪声；[0040]步骤2.4：除去步骤2.3得到的手型图像集的小连通区域，具体步骤为：标记图像的连通区域并计算连通区域的像素个数，设置阈值，当连通域的像素个数小于阈值时，即判定该连通区域为噪音，将该连通区域的像素均置为 1；最终得到完整的手型部分。[0041]其中卷积神经网络模型为16层卷积神经网络模型，包括1个图像输入层(Image Input Layer)、3个卷积层(Convolution Layer)、3个ReLU(ReLU Layer)层、3个归一化层((Batch Normalization Layer))、2个池化层 (MaxPooling Layer)、2个全连接层(Fully-connected layers)、一个softmax 层和一个图像输出层。按照信息处理顺序依次为：图像输入层、卷积层1、 ReLU层1、归一化层1、池化层1、卷积层2、ReLU层2、归一化层2、池化层2、卷积层3、ReLU层3、归一化层3、全连接层1、全连接层2、softmax 层和图像输出层。每层的[0042]卷积层：对输入图像采用卷积模板在三个通道上，对图像进行卷积操作。得到特征图向量。假定卷积层有L个输出通道和K个输入通道，于是需要 KL个卷积核实现通道数目的转换，则卷积运算公式为：[0043][0044]其中，X*表示第k个输入通道的二维特征图，Yl表示第l个输出通道的二维特征图，Hkl表示第k行、第l列二维卷积核。假定卷积核大小是I*J，每个输出

【CN110096991A】一种基于卷积神经网络的手语识别方法【专利】

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

总平绿化景观施工组织设计方案

单片机开发板计算器电梯密码锁万年历交通灯课程设计宝贝及程序

石嘴山市交通运输管理处岗位职责

城市交通出行方式对能源与环境的影响

实验教学中心的主要仪器设备清单-河北农业大学www

[物理课件]生物制药技术专业微生物精品课程—病毒-病毒的生物学特性（PPT 52页）

中国黄酒演讲——雷丫丫

创新——昌山东省昌乐二中办学特色与管理模式介绍

无锡中小企业电子商务发展机遇及挑战

由富求贵--从归化州张氏看辽金燕云豪族的发展路径

相关文档

相关搜索

【CN110096991A】一种基于卷积神经网络的手语识别方法【专利】

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

总平绿化景观施工组织设计方案

单片机开发板 计算器 电梯 密码锁 万年历 交通灯课程设计宝贝及程序

石嘴山市交通运输管理处岗位职责

城市交通出行方式对能源与环境的影响

实验教学中心的主要仪器设备清单-河北农业大学www

[物理课件]生物制药技术专业微生物精品课程—病毒-病毒的生物学特性（PPT 52页）

中国黄酒演讲——雷丫丫

创新——昌山东省昌乐二中办学特色与管理模式介绍

无锡中小企业电子商务发展机遇及挑战

由富求贵--从归化州张氏看辽金燕云豪族的发展路径

相关文档

相关搜索

单片机开发板计算器电梯密码锁万年历交通灯课程设计宝贝及程序