您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > 一种基于Tacotron-2的端到端中文语音合成方案
龙源期刊网的端到端中文语音合成方案作者:王国梁陈梦楠陈蕾来源:《华东师范大学学报(自然科学版)》2019年第04期龙源期刊网龙源期刊网摘要:颠覆性设计的端到端语音合成系统Tacotron2,目前仅能处理英文.致力于对Tacotron2进行多方位改进,设计了一种中文语音合成方案,主要包括:针对汉字不表音、变调和多音字等问题,添加预处理模块,将中文转化为注音字符;针对现有中文训练语料不足的情况,使用预训练解码器,在较少语料上获得了较好音质;针对中文语音合成急促停顿问题,采用对交叉熵损失进行加权,并用多层感知机代替变线性变换对停止符进行预测的策略,获得了有效改善;另外通过添加多头注意力机制进一步提高了中文语音合成音质.梅尔频谱、梅尔倒谱距离等的实验对比结果表明了方案的有效性:可以令Tacotron2较好地适应中文语音合成的要求.关键词:语音合成;多头注意力;Tacotron2龙源期刊网中图分类号:TP391文献标志码:ADOI:10.3969/j.issn.1000-5641.2019.04.0110简介语音合成,又称文语转换(TextToSpeech,TTS),是一种可以将任意输入文本转换成相应语音的技术。传统语音合成系统通常包括前端和后端两个部分。前端主要对输入文本进行分析,提取某些语言学信息:中文合成系统的前端部分一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等模块[1].后端则通过一定方法,例如参数合成或拼接合成、生成语音波形.參数合成指基于统计参数建模的语音合成[2].该方法在训练阶段对语言声学特征、时长信息进行上下文相关建模,在合成阶段通过时长模型和声学模型预测声学特征参数,对声学特征参数做后处理,最终利用声码器恢复语音波形。在语音库相对较小的情况下,这类方法可能得到较稳定的合成效果.其缺点是往往存在声学特征参数“过平滑”问题,另外声码器也可能对音质造成损伤。拼接合成指基于单元挑选和波形拼接的语音合成[3].其训练阶段与参数合成方式的基本相同,但在合成阶段通过模型计算代价来指导单元挑选,并采用动态规划算法选出最优单元序列,最后对选出的单元进行能量规整和波形拼接。拼接合成直接使用真实的语音片段,能最大限度保留语音音质.缺点是一般需要较大音库,且无法保证领域外文本的合成效果.传统的语音合成系统都是相对复杂的,例如:前端需要较强的语言学背景,不同语言的语言学知识差异明显,通常需要特定领域的专家支持:后端的参数系统需要对语音的发声机理有一定了解,而传统参数系统建模时难以避免信息损失,限制了合成语音表现力的提升:同在后端的拼接系统对语音库要求较高,也常需人工介入指定挑选规则和参数[4].为改善这些问题,新的语音合成方式应运而生.其中端到端合成便是一种非常重要的发展趋势.在这种模式下,将文本或者注音字符输入系统,而系统则直接输出音频波形.这降低了对语言学知识的要求,有利于表现更丰富的发音风格和韵律感,也可以相对方便地支持不同语种.近年来语音合成发展迅猛,如谷歌的Tacotron、Tacotron2、WaveNet、ParallelWaveNet[5-8],百度的DeepVoice、DeepVoice2、ClariNet[9-11],英伟达的WaveGlow[12]等.Tacotron是第一个真正意义上的端到端语音合成系统,它允许输入文本或注音字符,输出线性谱,再经过声码器Griffin-Lim转换为波形.Tacotron2在Tacotron的基础上进行了模型简化,去掉了复杂的CBHG(1-DConvolutionBank+HighwayNetwork+BidirectionalGRU(GatedRecurrentUnit》结构,使用了新颖的注意力机制Location-SensitiveAttention,提高了对齐稳定性.WaveNet及其之后的ParallelWaveNet并非端到端系统,它们依赖其他模块对输入进行预处理,提供特征.仿照龙源期刊网图像生成方式,WaveNet依据之前采样点来生成下一采样点,结构为带洞卷积[13].百度的ClariNet使用单高斯简化ParallelWaveNet的KL(Kullback-Leibler)目标函数,改进了蒸馏法算法,使得结构更简单稳定,并且通过Bridge-net连接了特征预测网络和WaveNet,实现了端到端合成.自2017年以来,端到端语音合成的研究进入了超高速发展时期,谷歌、百度和英伟达等研究机构不断推陈出新,在合成速度、风格迁移、合成自然度方面精益求精。然而,根据领域内文献资料,端到端语音合成目前仅能合成英文,未见成型的中文系统.相较英文,中文语音合成存在一些难点,例如:汉字不表音:中文存在大量多音字和变调现象:中文发音韵律较英文发音更为复杂,如儿化音等.本文设计了一种中文语音合成方案,基于Tacotron2在以下几个方面进行了改进.(1)针对汉字不表音、变调和多音字等问题,添加预处理模块,将中文转化为注音字符.(2)使用中文音频语料预训练Tacotron2的解码器,之后进行微调,显著减少拼音中文音频对所需的训练数据量.(3)使用多层感知机代替停止符(StopToken)处的线性变换,显著减少合成急促停顿现象.(4)利用Transformer中的多头注意力(MultiHeadAttention)改进Tacotron2的位置敏感注意力(LocativeSensitiveAttention)[14],使其能够捕获到更多语音信息,提升合成音质.1相关工作1.1序列到序列生成模型序列到序列的生成模型[15]将输入序列(x1,x2,…,xt)转化为输出序列(y1,y2,…,yr).机器翻译通常先将源语言编码到隐空间,然后再解码到目标语言,有其中,h、S分别是编码器和解码器的隐状态,c是由注意力机制计算得来的上下文向量,由编码器隐状态h加权进行计算,即1.2Tacotron2Tacotron2将英文作为输入,直接从英语文本生成声音波形,如图1所示:输入文本经词嵌入后首先送入3层CNN(ConvolutionalNeuralNetwork)以获取序列中的上下文信息,接着进入双向LSTM(LongShort-TermMemory)组成的编码器.梅尔频谱(在训练阶段,每次送入固定长度的真实频谱;在推断阶段,每次送入上一个时间步的输出)首先进入预处理网络,预处理网络的输出与上一个时间步的上下文向量拼接送入2层LSTM,LSTM的输出被用作计算本时间步的上下文向量,并且经线性映射后用来预测停止符和梅尔频谱.为了提取更为高维的龙源期刊网特征,用于预测梅尔频谱的LSTM输出被带残差的5层CNN组成的后处理网络提纯优化,最后输出梅尔频谱[6].1.3Transformer如图2所示,Transformer是一种完全依赖注意力机制的端到端序列生成模型[14],在机器翻译领域显示出了其优异的性能.Transformer模型的编码器由Ⅳ个基本层堆叠而成:每个基本层包含2个子层,第一子层是1个Attention,第二子层是1个全连接前向神经网络.Transformer模型的解码器也由Ⅳ个基本层堆叠:每个基本层除了与编码器相同的2个子层外,还增加了1个掩码多头注意力子层,所有子层都引入了残差边和LayerNormalization.Transformer的编、解码器都含有的多头注意力机制借鉴了CNN中多个卷积核的叠加,实质上是将注意力机制独立执行几遍后拼接,以更充分地抽取序列中的信息.2中文语音合成方案与英文语音合成相比,中文语音合成主要存在以下几个难点.(1)无法直接使用中文作为文本输入,需要添加文本拼音/国际音标转换器,并且要求在该预处理阶段解决中文变调和多音字问题.(2)对语料要求较高,需要保证说话人单一,幅度变化小,背景噪音小等.相较Tacotron2训练高音质的英文语音至少达25h[16],目前高质量中文语音合成语料较少.(3)中文发音韵律变化较英文复杂.(4)中文语音合成中,往往发生语音生成急促停顿的现象,尤其常见最后一个字无法正常发音的问题.针对上述问题,本文提出了一个基于Tacotron2的中文端到端語音合成方案,如图3所示,并就文本拼音转换器(TexttoPhoneme)、预训练模块、注意力机制、停止符预测及后处理等进行了特殊设计.2.1文本一拼音转换器不同于英文,汉字不含发音信息,可考虑先将中文转化为音素,实验证明,将中文转化为拼音或国际音标,合成后音质相差不大.出于更加熟悉、便于纠错等原因,本文最终采用拼音.中文中存在变调现象,如“第一”“十一”中的“一”读阴平,“一致”“一切”中读阳平,“一丝不苟”“一本万利”中读去声,而“读一读”“看一看”则读轻声.考虑到变调现象在中文中虽然存在,但比例并不高,本文采用规则匹配的方法解决.对于多音字问题,本文首先对输入文本进行中龙源期刊网文分词,然后利用词库对多音字进行正确注音.通过上述方法,基本可以正确地将中文文本转化为表音字符,然后送入模型进行语音生成.2.2预训练目前领域内的高质量拼音音频合成语料稀少,而Tacotron2对语料的需要量却较大.在本文中,解码器使用中文音频进行初始化训练.在预训练阶段,解码器以教师指导模式预测下一个语音帧,即以上一帧预测下一帧音频,不需要对应的文本输入,这要求解码器在帧级别学习声学自回归模型.需要说明的是,预训练阶段解码器仅依靠上一帧进行预测,而微调阶段则需要基于解码器的额外输出进行推断,这可能带来训练和推断的不匹配.实验结果表明,模型能有效学习语音中的声学信息,并通过少量语料得到较好音质.2.3多头注意力机制为了适用中文复杂的韵律变化,本文将Tacotron2中Location-SensitiveAttention扩展为MultiHeadLocation-SensitiveAttention,即多头注意力将S、H、F通过参数矩阵映射再进行Attention运算,然后把多个子注意力结果拼接起来.类似于CNN中的多卷积核对一张图片提取特征的过程,能够有效获取序列中的信息,从而使解码器预测音频时,字与字间的衔接以及整个句子的韵律变化更接近真实人声.2.4停止符预测和后处理网络不同于Tacotron2统一用线性变换预测梅尔频谱和停止符,本文分别使用线性变换预测梅尔频谱,用多层感知机(Multi-LayerPerceptron,MLP)预测停止符,并且使用后处理网络优化重建梅尔频谱.在中文合成过程中,语音常常遇到戛然而止的现象,影响语音流畅性.类似问题在英文合成实践中也存在,但并不明显.这种停顿感主要是由于停止符预测的正负样本不平衡造成的.本文通过将线性变换改为3层MLP并在二元交叉熵上加权f实验中将该权重设置为6.0),较好地解决了生成过程突然停顿的问题.另外,由于Tacotron2的WaveNet生成较慢,本文使用Griffin-Lim作为声码器[17],同时在原有的后处理网络添加CBHG,显著提高了音质.3实验结果与分析本文通过实验验证了本文所提框架的有效性.3.1训练步骤龙源期刊网训练模型,利用8h私有的拼音音频语料和50h中文音频作为训练数据集.私有数据集的前后均保持100ms静音间隔,其中批处理规模(BatchSize)设置为32,过小的规模将造成训练不稳定并影响合成音质,过大则容易引发内存溢出问题.3.2文本拼音转换器Tacotron2直接将英文文本输
本文标题:一种基于Tacotron-2的端到端中文语音合成方案
链接地址:https://www.777doc.com/doc-4320463 .html