caffe学习笔记8实例基于卷积神经网络的声音识别-薛开宇

caffe深度学习笔记实例薛开宇基于卷积神经网络CNN的声音识别之前在caffe刚出来的时候，曾经写过一些caffe的学习笔记，感受到了大家的支持。然而去了国外深造，所以很久没发相关内容。考虑到大家可能需要一些实例去搞caffe，因此就把我之前做的一些东西拿出来给大家分享，并附有一些程序和参数的，主要是关于如何用caffe来做声音方面的深度学习，用的方法是自己的奇思妙想，因此比较创新，和传统声音识别方法不同，由于数据处理和其他论文其实有点不同，所以实际结果可能没有可比性。如果大家想根据这个做出什么成果的或有什么问题的，微博为神and開宇，欢迎大家交流。摘要目前的音乐检索系统用流派、风格、情感等类别标签检索音乐。其中，如果人工标注音乐这些类别标签，则存在主动性强、费时费力、速度慢的问题，而如果采用传统的自动标注方式，则存在准确率低的问题。后者准确率低的原因是，其标注时使用的模型不能很好识别音乐。随着Hinton提出深度学习模型后，因其在图像和语音识别领域均取得很好的成果，在识别领域成为了研究热点。因此，本文旨在研究如何使用深度学习中的卷积神经网络（ConvolutionalNeuralNetworks，CNN）模型，设计出一个准确度高、速度快的自动音乐分类系统，用作标注音乐的类别标签。本文的工作有三部分：（1）提出一种新的自动音乐分类系统。该系统先将音乐转化成声谱图，后使用卷积神经网络进行音乐识别分类。本方法在Caffe和Matlab平台下搭建，在ipythonnotebook平台中作成果展示。（2）在Jamendo网站上收集10类共1000首音乐，制作成音乐分类数据库。（3）在GTZAN数据库上进行了七种实验，从而找出最适合该系统的参数并验证系统的有效性。其中，声谱图实验、微调实验是比较重要的原创实验。最终，通过在以上实验中得出来的较好参数，使用本文设计的基于CNN的音乐分类系统进行测试，在GTZAN10类数据库上达到了90±1%的识别率。关键词：卷积神经网络深度学习音乐流派分类声谱图GTZAN数据库1本文的结构第一章，主要是阐明卷积神经网络理论。先介绍神经网络的原理和概念，其很多知识与CNN有关，再介绍深度学习原理和特点，可对属于深度学习的CNN有初步认识。最后详细介绍CNN的结构、算法。第二章，主要介绍声谱图。本文的创新之处主要是使用了声谱图作为音乐的输入。详细介绍了音乐的声谱图理论，及其可得到的信息。第三章，主要介绍本篇论文如何实现基于卷积神经网络的声音数据的识别分类。先介绍所用框架Caffe平台及其搭建。然后从数据输入、数据训练、结果输出三个方面具体说明如何用该平台实现声音数据的分类。第四章，主要介绍本论文所做实验需要用到的两个数据库，GTZAN和自己制作的Jamendo数据库。先介绍GTZAN数据库及其所含音乐类别特色，再详细介绍自己自做的Jamendo数据库，说明其数据来源，及数据分布。第五章，主要是对基于CNN的音乐分类识系统进行多种测试和分析，从而得出较好的参数和证明可行性。在数据输入层面进行声谱图测试、样本数测试；在训练层面进行两种模型的对比测试、结构的节点测试、微调测试以及学习率测试；在输出层面进行结果综合判断测试。第六章，主要是总结和展望。总结了基于CNN的音乐分类识别系统的一般步骤及其最终参数并展示了其最终的识别结果。然后介绍了本识别系统的优点和创新点，最后通过一个例子展示本识别系统。2目录摘要...............................................................................................................................I本文的结构..................................................................................................................................11卷积神经网络的介绍............................................................................................................41.1神经网络.....................................................................................................................41.1.1神经网络基本原理..........................................................................................41.1.2神经网络的基本概念介绍..............................................................................41.2深度学习....................................................................................................................91.3卷积神经网络...........................................................................................................101.3.1卷积神经网络的结构....................................................................................111.3.2卷积神经网络的训练算法............................................................................131.4本章小结...................................................................................................................152声谱图..................................................................................................................................162.1声谱图的简介...........................................................................................................162.2声谱图中可得到的信息...........................................................................................172.3本章小结...................................................................................................................183实现基于卷积神经网络的音乐分类系统..........................................................................193.1Caffe平台简介.........................................................................................................193.2Caffe平台的搭建.....................................................................................................203.3数据输入...................................................................................................................223.3.1Caffe平台的一般数据输入形式..................................................................223.3.2Caffe平台的音乐数据输入形式..................................................................223.3.3Caffe平台的音乐输入数据后续处理..........................................................253.4训练数据...................................................................................................................273.4.1Caffe平台搭建网络的方法..........................................................................273.4.2本论文需要使用的两种卷积神经网络........................................................283.4.3使用Caffe平台搭建本论文需要使用的两种卷积神经网络.....................303.4.4在Caffe平台训练两种卷积神经网络.........................................................323.5结果输出...................................................................................................................333.6本章小结...................................................................................................................344实验用的数据库GTZAN及自己制作的Jamendo数据库..............................................354.1GTZAN数据库........................................................................................................354.2GTZAN的流派简介................................................................................................354.3自己制作的Jamendo数据库...................................................................................364.3.1Jame

caffe学习笔记8实例基于卷积神经网络的声音识别-薛开宇

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

8K-BIT 非接触式射频卡芯片

经济信息管理专业ppt-金华职业技术学院[农业与生物工程

第十三章液力机械传动

频发事故的在建工程

汽车零部件市场-汽车市场

GB10757-1989邮政通信网术语

通信管道静摩擦系数测量

临建工程合同协议书001

HB粮食贸易公司发展战略研究

浓颗料车间生产操行考核试行管理办法

相关文档

相关搜索