您好,欢迎访问三七文档
卷积神经网络研究及其在基音检测中的应用答辩人:黄志强指导老师:何立强教授张学良副教授1目录一、选题意义及研究现状二、神经网络与卷积神经网络三、CNN-ACF-DP基音检测方法四、对比实验五、总结与展望2基音检测的意义及研究现状一、选题的意义及研究现状语音是人类生产生活中使用最多的一种交流媒介,被广泛用于智能人机交互领域。语音信号处理技术中,有一个非常重要的语音参数,基音频率(基频),代表声带振动的频率。从语音中提取基频就叫基音检测3基音检测的意义及研究现状常用的基音检测方法有ACF、AMDF、倒谱法及其变形,2011年Jin方法和2014年PEFAC方法。常用的基音检测方法在低信噪比环境下性能急剧下降。一、选题的意义及研究现状4CNN的发展及研究现状神经网络是神经科学与计算机科学结合的产物。神经网络的研究几经起落,直到2006年,深度学习提出,深度神经网研究兴起。Hubel和wiesel通过对猫的视觉系统的实验,提出了感受野的概念。基于视觉神经感受野的理论,有学者提出CNN。一、选题的意义及研究现状5CNN的发展及研究现状深度学习在语音识别、图像识别等领域摧枯拉朽。一、选题的意义及研究现状6国际会议、期刊等涌现大量深度学习的文章,CNN被引入很多领域。知名高科技公司都在深度学习领域加大投入。神经网络起源二、神经网络与卷积神经网络7神经网络-训练过程-----w11x1x2-------W21---------w31-------w22-----w12--------w32------v11-------v21--------v31-------v12-----v22-------v3211Z2z2Z1z1Y1y1Y2y2二、神经网络与卷积神经网络80*nxjijiiYwx1()1YysigmoidYe()kkzsigmoidZkkkErr(z)=T-zj1Err(y)=*()nkjkkkvErrZjjjjErr(Y)=y*(1-y)*Err(y)()*()jkjkdeletavyErrZ()*()ijijdeletawxErrYk0Z*nyjkjjvykkkkErr(Z)=z*(1-z)*Err(z)神经网络-训练理念(梯度下降)各变量满足如下公式:-----w11x1x2-------W21---------w31-------w22-----w12--------w32------v11-------v21--------v31-------v12-----v22-------v3211Z2z2Z1z1Y1y1Y2y2jlossFun**(1)*()kkkkjkTzyzzv2ijj1ijlossFun=-**(1-)**()**(1)yyxwjkkkkkkvTzzz求vjk的梯度:求wij的梯度:二、神经网络与卷积神经网络9BP-梯度下降的规律一条连接权重的更新量为连接中前层神经元的输出乘以后层神经元的输入和的Err。kkkErr(z)=T-zj1Err(y)=*()nkjkkkvErrZjjjjErr(Y)=y*(1-y)*Err(y)-----w11x1x2-------W21---------w31-------w22-----w12--------w32------v11-------v21--------v31-------v12-----v22-------v3211Z2z2Z1z1Y1y1Y2y2jlossFun()**(1)*kkkkjkTzyzzv2ijj1ijlossFun=-**(1-)**()**(1)yyxwjkkkkkkvTzzz对于末层神经元,输出错误定义为:对于非末层神经元,输出误差如Err(y)由与其相连的后层神经元的输入误差Err(Z)加权求和得到:一个神经元的输入误差Err(Y)与输出误差Err(y)满足公式()*()ijijdeletawxErrY二、神经网络与卷积神经网络10BP算法的规律前向过程兴奋在网络中从前往后传播计算末层神经元输出与期望输出的差值作为错误信号错误信号在神经网络中由后往前传播由每条连接前层神经元的输出和后层神经元的误差得到权重的修改量并更新连接权重0jj*;y=sigmoid(Y);nxjijiiYwxkkkErr(z)=T-zj1Err(y)=*()nkjkkkvErrZjjjjErr(Y)=y*(1-y)*Err(y)()*()ijdeletawijxErrY二、神经网络与卷积神经网络11卷积神经网络卷积神经网络是神经网络的一种变形卷积神经网络与神经网络的主要区别就是CNN采用了卷积和子采样过程。神经生物学中局部感受野的提出(1962)催生了卷积的思想。卷积减少了CNN网络参数,子采样减少了网络参数,权值共享大大减少的CNN网络参数。但是CNN具备深层结构。二、神经网络与卷积神经网络12局部感受野二、神经网络与卷积神经网络13卷积神经网络的一般结构14二、神经网络与卷积神经网络卷积卷积核kernal在inputX图中从左向右,从上至下每次移动一个位置,对应位置相乘求和并赋值到OutputY中的一个位置。二、神经网络与卷积神经网络15子采样(pooling)子采样通常有两种形式。均值子采样和最大值子采样,子采样可以看做一种特殊的卷积过程。二、神经网络与卷积神经网络16CNN训练中的三次卷积过程前向过程兴奋在网络中从前往后传播计算末层神经元输出与期望输出的差值作为错误信号错误信号在神经网络中由后往前传播由每条连接前层神经元的输出和后层神经元的误差得到权重的修改量并更新连接权重尾部NN训练的三个过程特征抽取器完成三次卷积前向过程兴奋在网络中从前往后传播特征图经过卷积核得到新的特征图错误信号在特征抽取器中由后往前传播错误信号图卷积形式往前传播修改连接权重卷积形式修改卷积核二、神经网络与卷积神经网络17前向卷积过程二、神经网络与卷积神经网络18错误信号传播二、神经网络与卷积神经网络19权重更新二、神经网络与卷积神经网络20编码实现CNN我们采用了6w张手写数字图片作为训练集,用1w手写数字图片作为测试集。经过100次迭代,在训练集上得到99.51%的准确率,在测试集上得到98.8%的准确率。二、神经网络与卷积神经网络21本文的基音检测模型CNN-ACF-DP伽马通滤波器组过滤ACF自相关函数法CNN卷积神经网络ACF+CNN融合判决信息基于短时平稳性的动态规划分帧-提取频谱-得到数据集测试用带噪语音训练用带噪语音分帧-提取频谱-得到数据集训练基频序列三、CNN-ACF-DP基音检测方法22CNN特征选取本文的CNN模型的输入是语音的频谱特征三、CNN-ACF-DP基音检测方法23特征选择三、CNN-ACF-DP基音检测方法24CNN输出定义人的发声基频约为80Hz到460Hz,使用如下公式将该范围内连续的pitch合理地离散化到71个区间。224*60pSlog三、CNN-ACF-DP基音检测方法25添加一个无基音状态对应CNN的72个输出。本文CNN网络结构描述三、CNN-ACF-DP基音检测方法26CNN的基音预测结果一段带噪语音的真实基频CNN预测出来的基频分布三、CNN-ACF-DP基音检测方法27ACF过程Rk*mmxmxmk三、CNN-ACF-DP基音检测方法28K=32,33….200CNN与ACF融合我们将CNN的预测结果以乘积的形式附加到ACF特征中。将CNN末层神经元的输出乘以ACF特征中对应的维度并作为对应维度的新值。得到CNN-ACF的167+1=168维特征。三、CNN-ACF-DP基音检测方法29动态规划在每一帧的167个状态中,我们挑选出3个概率最高的峰值作为该帧基频的候选项。最后我们利用动态规划对连续语音计算出收益最大路径作为最终的基音序列。动态规划的收益定义为:三、CNN-ACF-DP基音检测方法301max[log()]jijtitijtBBTP最大受益的路径:1max[log()]jititijRBT模型效果ACF三、CNN-ACF-DP基音检测方法31ACF+CNNACF+CNN+DP对比实验实验数据:ChineseNationalHi-TechProject863NOISEX-92训练数据:(male50+female50)*6noises0db对比试验:三种语音三种方法三种方法:1.Jin(2011)2.PEFAC(2014)3.CNN(CNN-ACF-DP)三种语音:1训练用说话者训练用噪声2训练用说话者新噪声3随机说话人随机噪声四、对比实验对比语音四、对比实验33说话人CNN训练用说话人随机说话人噪声类型训练用噪声新噪声随机噪声噪声种数6种10种16种句子数量6*2*20=24010*2*20=40016*20=320评价指标基音检测率(detectionrate,DR)0.05pDRNNpnnpVDENNN错误决策率(voicingdecisionerror,VDE)四、对比实验实验结果噪声类型评估指标信噪比方法训练用噪声非训练用噪声随机说话人随机噪声DRVDEDRVDEDRVDE-10dbCNN0.39790.25040.36140.38040.3110.4228PEFAC0.41880.31340.31030.38430.32760.3544Jin0.25150.37890.28740.39540.21870.4189-5dbCNN0.65420.12840.5920.2890.45650.3335PEFAC0.61370.24550.52270.31230.49570.2796Jin0.42620.30510.43130.33230.39040.32850dbCNN0.7610.07850.72980.22140.69180.2026PEFAC0.7530.1880.69930.23990.66750.2147Jin0.5330.2590.5360.28370.5060.27215dbCNN0.83060.06470.81450.17340.75290.1474PEFAC0.82610.14340.79940.18130.7750.1642Jin0.60450.22650.60280.24830.5830.2334四、对比实验35CNN训练用说话人CNN训练用噪声CNN新噪声四、对比实验36CNN训练用说话人的基音检测结果模型DRVDECNN0.6609250.1305Jin0.45380.292375PEFAC0.65290.222575对于特定说话人训练的CNN模型,在相同说话人语音混合新噪声的条件下,取得了明显优于Jin方法和PEFAC方法的VDE和DR。说明本文训练的模型对噪声的类型不敏感,对训练集中出现的说话人具有良好的识别能力。四、对比实验37随机说话人随机噪声结果模型DRVDECNN0.553050.276575Jin0.4245250.313225PEFAC0.566450.253225四、对比实验38工作总结本文从数学角度分析推导了NN和CNN的工作原理,总结了BP算法中误差传播和权重修改策略。首次提出用切割小图训练共权NN的思想,解释了CNN中卷积过程。基于此思想,实现了CNN算法,用手写数字识别问题进一步说明了该思想的准确性。本文将基音检测视为一个分类问题,将CNN和传统ACF方法融合并结合DP得到CNN-ACF-DP基音检测方法。本文的CNN-ACF-DP方法和Jin、PEFAC进行多角度实验对比。本文的方法完胜Jin方法,在训练用说话人的基音提取问题中也优于PEFAC方法。五、总结与展望39创新点用切割小图的思想解释卷积,并基于此解释CNN特征抽取部分的训练过程。首次将卷积神经网络运用于基音提取。五、总结与
本文标题:卷积神经网络
链接地址:https://www.777doc.com/doc-1425098 .html