您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 基于深度学习算法的真人变声设备的设计与实现
38|电子制作2019年08月智能应用0引言近年来,全球AI(人工智能)技术不断的快速发展和突破,中国在AI的研究以及产业化落地走在了世界的前列,基于人工智能的产品市场也在持续扩增,国内尤其是在智能语音技术方面的取得了非凡的成就。而智能语音技术作为行业应用中比较成熟的技术之一,在智能设备与系统等方面都有了深入的研究与发展。智能语音技术(包括语音识别和语音合成)是人工智能技术中的关键环节。本文将阐述一种基于深度学习算法的智能变声技术,在一个高性价比的国产的芯片(ARM平台架构),开发出一款能够满足实时变声需求的智能硬件,展示先进的AI技术的同时也拓展了玩具设计的新世界。1算法原理结构和流程设计图1 算法原理和模块构成整个算法结构的系统模块可以理解为:语音识别前端+TTS合成后端的组合。a)特征提取与预处理(1)为了获得语音数据的有效特征信息,采用学术界常用的MFCC特征(此处采用40维)。为获得可靠特征,需要经过去直流、预加重、加窗、分帧、FFT变换、MFCC滤波等操作。(2)去直流:去除音频数据中的直流成分,降低直流成分干扰。(3)预加重:为了补偿人类发音系统高频偏弱的部分,恢复高频信息。(4)加窗和分帧:为了短时平稳的数字信号处理需求等,将语音分成(10ms-30ms)的片段进行处理(5)MFCC(梅尔倒谱系数):是一种仿照人耳听觉的频率特征分析理论。该方法通过一组设计的三角滤波器来模仿人耳对不同频率音频的感知,得到的梅尔域的特征数据能够更好的衡量人耳对于声音的听觉感受。b)VAD判决(6)VAD判决在这个系统中的作用主要有以下方面:通过标注和训练的LSTM结构VAD网络,能够准确的区分出人声和非人声段。可以给后面的合成模块提供纯净的数据。(7)通过VAD模块之后,只有语音部分数据会进入声学模型特征提取和合成的预处理,可以大大减少计算量和减少无关噪声对系统的干扰。(8)通过VAD模块之后,非语音段,只需要提供非语音的开始和长度等信息,可以为合成部分提供静音段信息以及为舒适添加、声音润色等提供数据参考c)声学特征提取1声学特征提取1模块在这个系统中的作用是把语音转化为声学表示(音素)的输出,该输出去除了说话人相关特性,保留了说话人无关的内容相关特性,即找到给定的语音源于某个声学符号的概率。采用的建模方法是通过一个BILSTM(双向LSTM)。声学特征提取结果交给合成系统,进行指定发音人转换和恢复。d)声学特征提取2根据声学特征提取阶段1的输出,结合预设发音人BILSTM网络模型,预测并恢复目标发音人相关特性。e)合成综合:使用恢复的目标说话人特征进行FTS(FeatureToSpeech)合成,并对合成后的音频内容进行声音美化、增益控制,舒适噪音掺入等优化润色操作基于深度学习算法的真人变声设备的设计与实现潘青华,汪道伟,江源,牛杰杰(安徽科大讯飞股份有限公司,安徽合肥,230008)摘要:随着技术的进步和发展,儿童玩具、卡通玩偶等行业会在一些中高端产品中预置角色发音等功能,增强产品卖点和互动性。采用方法一般是通过预先录音或通过TTS合成指定发音人。这样的产品设计虽然在一定层度上能满足市场的需求,但存在灵活性差,可玩性差等不足。本设计是基于深度学习的智能声音转换算法,在一个低成本的国产ARM主控芯片上,通过少量的外围器件等附属电路,完成一个能够将任何人的声音实时转换成所需的任何目标发音人声音功能(any2any)的电子变声模块。该技术和软硬件模块可以应用在偶像卡通玩具、变声领结玩具、直播逗乐、声讯服务、服务热线等场景。关键词:ARM;深度学习;实时真人变声(Any2Any);TTS(语音合成);国产芯片�ele169�com|39智能应用经过上述全部流程,我们便可以获得所期望的能够以假乱真的目标发音人合成音频。2硬件系统结构和功能Mic和Speaker:用来录音采集和播放合成声音。麦克风采用比较可靠和稳定的常规驻极体麦克风。双位模式选择开关:用来选择是实时变声还是非实时变声的拨动开关。图2 硬件系统设计示意图功能按钮:用来选择发音人和辅助模式选择。主控板的主要芯片配置为:ATS3605D(炬芯、4CORE-CortexA5、集成64MB-DDR3)、ATT3002(炬芯、power+audiocodec)、GD25Q256D(兆易创新、32MB,nor-flash),主要芯片部分全部国产化设计。①炬芯ATS3605D作为系统主控,ATS3605(D)集成Cortex-A5MP4CPU、SIMD媒体处理引擎(MPE)和NEON技术。片上嵌入的64MBDDR2,支持SerialNorFlash和ParallelNANDFlash控制器。芯片还具备大量IO、low-power模式、丰富的音视频硬件编解码支持和显示格式支持。②炬芯ATT3002是音频编解码器包括24位/192khz立体声DAC和twoAuxinADC,还包括了PMU(电源管理单元)。既满足了的板载电源系统的需求,又包含了系统所需的mic录音输入输出DAC,同时还能满足充电管理的需求。③GD25Q256D是兆易创新的256bitnor-Flash,该器件作为系统系统软件、算法模型等存储的介质。具备高可靠、高性价比。电源:采用可充电锂电池,亦可使用外部供电和充电。充电控制采用炬芯ATT3002控制芯片。硬件系统的设计目标是:较少的BOM、较低的成本、国产化。上述硬件设计架构的硬件主要器件选型都采用高性价比的国产化芯片,基本满足了预期设计目标。并且在运行实时变声算法之后,计算和存储资源还有一部分富裕,可以在系统中加入更多强大的AI能力,比如命令词、情绪识别等,可以进行全语音控制,让设备变的更加有趣和智能。3软件业务逻辑设计图3 软件系统流程图软件功能流程设计图如图3所示,流程设计和上述硬件设计进行绑定。整个软件任务流程可以分为2个部分,在开机启动时选择变声模式(实时/非实时)(也可以通过软件进行实时切换模式)。模式拨动开关有2个选项,分别为实时模式和非实时模式。功能按钮在不同的模式先有不同的功能表现:在实时变声模式下,只具备切换发音人能力,每按下(不区分长按、短按)一次切换系统中存储的下一个发音人。在非实时变声模式下,每短按一次按钮切换系统中存储的下一个发音人。长按按钮超过3S即进入非实时变声录音状态。实时模式下(模式拨动开关选择为实时),启动进入实时模式后,系统会进行实时录音和说话人声音转换,并监控发音人切换信息和实时切换发音人。非实时模式下(模式拨动开关选择为非实时),启动进入模式后,系统处于等待命令状态,等待功能按钮的按键命令。当接到非实时模型录音启动命令(按钮按下超过3S),提示并启动录音,当录音超过30S或者检测到释放按钮,即对已录音频进行选定发音人语音转换和合成播放。结束后再次进度命令等待状态。4实时变声设备成品电路板展示实时变声设备成品电路板如图4所示。40|电子制作2019年08月智能应用图4 制作样机实物5结语与展望本文通过对基于深度学习算法的概念性引入和介绍,讲述一种采用ASR识别前端+TTS合成后端的方法思路构建的一种全新的语音到语音的实时变声算法原理。该全新设计表现出了非常好的合成转换效果和实时性。进一步,我们采用了全国产化芯片的硬件设计构架,实现了一个低成本、高性价比的实时(非实时)变声硬件设计。并且通过一体化完善的软件设计,能够满足实时和非实时2中业务共存的一种产品实现。虽然只是个样例产品,但是可以举一反三,在更多的应用领域比如:直播、声讯服务、电话客服、变声领夹、玩具、团体组织虚拟语音形象等场景发挥该技术和方案的影响力。参考文献*[1]汤梦,朱杰.一种基于LSTM的合成语音自然度评价方法的研究[J].信息技术,2019(05):41-44.*[2]王海坤,潘嘉,刘聪.语音识别技术的研究进展与展望[J].电信科学,2018,34(02):1-11.*[3]高羽.一种改进的正弦语音分析合成器[A].中文信息学会语音信息专业委员会、中国声学学会语言、听觉和音乐声学分会、中国语言学会语音学分会.第九届全国人机语音通讯学术会议论文集[C].中文信息学会语音信息专业委员会、中国声学学会语言、听觉和音乐声学分会、中国语言学会语音学分会:清华信息科学与技术国家实验室(筹),2007:5.*[4]屠彦辉.基于DNN分离的目标语音段检测方法[A].中国中文信息学会语音信息专业委员会.第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集[C].中国中文信息学会语音信息专业委员会:清华信息科学与技术国家实验室(筹),2015:5.*[5]陈燕.语音合成技术及其在嵌入式领域的应用[J].电子设计技术,2002(05):58.*[6]GabrielTrierweilerRibeiro,VivianaCoccoMariani,LeandrodosSantosCoelho.Enhancedensemblestructuresusingwaveletneuralnetworksappliedtoshort-termloadforecasting[J].EngineeringApplicationsofArtificialIntelligence,2019,82.■3.2烟雾传感器和火焰传感器测试在小车行驶的过程中,对小车四周的环境进行火焰和烟雾的模拟,小车的蜂鸣器发出报警,同时停止运动。■3.3通讯模块测试小车停止后,由SIM808模块通过GSM给指定用户手机号码发送报警短信,同时通过TCP进行GPRS数据传输,电脑就会接到相应的位置信息。4结束语本文设计的农业智能小车可以节省人工成本,但是人工对农作物的环境经行监管。当设定好黑色路线后,小车通过红外传感器就会按照既定路线行驶,同时小车上安装的烟雾传感和火焰传感器,实现了对农田的实时监控。在发现火焰的情况下,快速报警。参考文献*[1]陈永甫.红外探测与控制电路[M].北京:人民邮电出版社,2004.*[2]来清民.传感器与单片机接口及实例[M].北京:北京航空航天大学出版社,2008.*[3]于相洋.基于多传感信息融合的火灾预警技术研究[D].杭州电子科技大学,2012*[4]王晓明.电动机的单片机控制[M].北京:北京航空航天大学出版社,2002.*[5]彭勃,杨忠权,高易旋瀚.改进型GTS1A型探空仪浅析[J].科技视界,2013,20(8):48(上接第25页)(上接第65页)环利用率,节省成本。参考文献*[1]蔡永强.电路与电工技术[M].北京:中国水利水电出版社,2015.01*[2]叶芳,宁爱民.模拟电子技术[M].北京:中国水利水电出版社,2015.01.*[3]孙津平.数字电子技术(第三版)[M].北京:西安电子科技大学出版社,2012.07.
本文标题:基于深度学习算法的真人变声设备的设计与实现
链接地址:https://www.777doc.com/doc-6951201 .html