您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 基于时域特征的语音自动分割算法实现
11引言众所周知,语言是人们之间彼此交流沟通的最方便最快捷的手段之一。在如今这个信息时代中用数字化的方式来实施语音的传输、储存、识别、合成、增强是整个数字通信系统中最为关键的要素之一错误!未找到引用源。。连续语音的自动分割是我们在进行语音信号处理的过程中遇到的首个需要解决的复杂难点。之所以要进行语音的自动分割,就是为了减少语音识别的计算量并提高语音识别系统的识别精度。我们在对语音进行过分割之后就可以将语音段和噪声段分离开来,这样后续再进行语音识别的时候识别系统只需要对语音段进行检测。如果语音自动分割出现错误,那么语音信号的识别也就无法实现。这在许多语音处理领域中是一个十分基本的问题。特别是在进行独立的单个文字自动识别的时候,能否准确的找到每个单字的语音信号范围,以及能否将声母、韵母分割开都是十分重要的。语音信号分割的准确与否对于一个完整的语音识别系统具有重要意义,不仅算法会影响其最终实现和使用效果,最终结果在很大程度上受外界环境的影响是非常大的。因为输入信号的时候基本不可能是纯粹的语音输入,多多少少都会带有一定的背景噪声。研究人员通过实验对比发现,语音自动分割的准确性会直接影响到语音识别的结果,因为如果分割算法对于语音和噪声的判断出现错误那么之后对所谓语音段进行的识别也就变得毫无意义。因此一个优秀的语音自动分割结果就意味着语音识别过程的一个好的开始。进行自动分割为了达成的目的就是,在各种各样的应用环境下的信号流中将人声段和噪声段分开,并进一步确定语音信号的起始点及结束点错误!未找到引用源。。1948年香农(C.E.Shannon)把关于熵的概念引入到信息论中,把熵看作是一个随机事件的不确定性的度量错误!未找到引用源。。熵的大小和一个系统的有序度直接相关,有序度越高,熵就越低;反之,一个系统随机性越高,其熵就越高。本课题是要提出一种相对简便并具有一定准确率的语音自动分割算法。综合对比各类算法后决定采用一种子带谱熵的改良算法来进行语音分割。算法的总体流程主要包括输入语音文件、进行预处理、选择合适参数、分析确定阈值、检测语音信号端点。该算法在传统谱熵法的基础上进行了改进,提出了一些经验性的约束,设定了归一化谱概率密度的上限,并引入了子带谱熵的思想从而进一步提高了语音自动分割的准确性错误!未找到引用源。。22概述2.1课题背景语音自动分割技术在语音识别系统中占有重要地位,是整个系统的重要组成部分。所谓语音自动分割技术,就是通过计算机的智能识别将人说话的音节部分和说话人所处的背景噪声相分离,从而为下一步进行的语音识别打好基础。如果对于语音的分割不准确,语音信号识别就会因为音节错误而无法实现或出现大量错误。在实际工程应用中,我们需要在进行语音内容识别之前先对输入系统的连续语音信号进行预处理,将每个音节的起始点和终止点划分出来。这样识别系统才能有效的针对每个音节分别进行识别操作,不会盲目识别噪声信号的内容,使得语音识别系统能够尽可能的做到对语音信号实时、准确的判断。随着数字信号处理技术和计算机性能的不断发展,一些具有自适应、人工智能特性的语音识别系统已经可以在不是特别复杂的环境下对语音信号做出较为精确的判断。随着市场需求的不断增加,各研发机构在相关硬件和软件配套设施的投入上越来越大,各类高鲁棒性的新型算法正不断走进我们的日常生活。虽然我们在日常使用中会发现内置于各类终端中的语音识别功能并不是十分好用,很多时候都会出现错误,但我们仍然应该对语音识别技术为我们生活提供的方便表示感谢,并对该领域技术的发展持有乐观态度。语音识别技术的市场应用还处于初期阶段,为了使该技术的市场化应用更为便利,目前需要为语音输入通道硬件和软件的基本引擎和平台建立相应的规范和标准,这样一来语音识别技术就可以通过统一规范的结构集成到各种各样需要语音功能的软件、操作系统中去,从而改变电子产品传统的人机交互模式,实现大量的语音控制。随着语音电子产品的不断发展,语音识别技术为了适应市场的现实需求,其在研究和开发中还有着大量的工作要做。2.2语音信号简述通过对人们讲话语音在时域和频域两个方面进行研究分析,发现无论人们的年龄处于哪个阶段,语音的频率分布都是相对密集的,大部分都集中分布在300~3400Hz的频率范围内。基于这一特征,研究人员可以在对语音进行识别之前先将其通过一个带通滤波器,将处于300~3400Hz的语音信号分离出来得到所需要的频谱,这样的初步筛选将有利于提高语音自动分割算法和语音识别系统的准确性以及运行效率。然后我们需要对选定频谱范围内的连续语音信号进行采样,使3其变成计算机能够处理的离散时域的语音信号,采样率通常取8kHz左右,也可以根据具体情况进行相应的调节。当实验或应用对采样出来的信号有更为苛刻的要求时,我们就可以通过提高语音信号的采样率或者扩大语音信号的采样范围等手段提供更为精确、更为全面的采样结果。由于为了适应实际应用的要求,实现在低信噪比条件下的准确语音自动分割,现在的语音自动分割算法多采用自适应的采样率而不再是传统的系统指定的采样率。由于人体的发声特性使得语音信号是一个非稳态的、时变的信号。众所周知,计算机和人耳不同,对于这类信号是无法进行处理的,研究人员为了解决这个问题就发现了可以利用“短时特性”来进行语音信号处理。所谓短时特性之所以存在就是因为人的口腔在发出各种声音的时候需要进行缓慢的肌肉运动,和肌肉运动的时间相比几十毫秒就相当于是一个短时间,在这个短时间内我们就可以认为语音信号是稳定的、时不变的。语音信号必须要保持它的短时特点才能进行语音信号处理,所有的语音信号处理系统都是根据这种短时特性开发出来的。根据这种短时特性就相应的产生了一系列的语音信号处理的参数,如短时能量、短时过零率、短时频谱以及短时自相关函数等,根据这些参数我们才能对语音信号实施有效的处理。对整段信号进行分帧处理后我们就可以得到这些短时参数特征,整个信号中的每一段叫作“一帧”,帧长一般取10~30ms,通常情况下我们可以将这段短时间内的语音信号看作是相对平稳的。这样一来从整个语音的角度来看,每一帧的特征参数就共同组合成了特征参数的时间序列。从另一个方面看,语音信号另有一个相对较为简单的分类方式,就是根据人们发声的音素进行分类。根据这种分类方法,无论语音的发声者使用何种语言、带有何种音调,从声学上来看都可以按照清音和浊音来进行分类。我们对这两种类型语音的短时特性进行分析就可以发现这种分类方式的依据。清音的短时能量要远高于浊音,浊音的短时过零率则远高于清音。在进行语音自动分割时,噪声一般具有较小的能量和较低的过零率,我们只需要结合这两个参数就可以在信噪比条件不是很差的条件下对语音信号做出较为准确的分割。2.3语音自动分割现状对语音自动分割算法的研究最初能够上溯到上世纪50年代。那个时候为了能够将语音段和噪声段区分开来,从而实现一个实时语音翻译系统,该算法应运而生,并把该算法定名为VAD(voiceActivityDetection),指的是将语音段和背景噪声段分离开来的处理过程错误!未找到引用源。。要想实现一次高准确性、高可靠性的语音自动分割或者语音识别,影响其结果的因素不仅仅局限于所采用的算法。除了语音识别外,还有语音自动分割,他们对于大部分整体系统最终结果的影响都是非常大的。语音识别以及语音自动分4割应用的领域是很广的,除了用于实验、商业还有一些高精度的检测或者识别需要用到他们,在识别过程中产生的一些误差也许对于实验的影响不是很大,但是对于那些要求很高的高精度检测来说这些误差将是不能接受的。为了实现高精度的检测,我们需要根据识别系统对性能要求的不同而采用专门的算法,否则语音识别的准确性将无法得到保证错误!未找到引用源。。在21世纪,电子信息技术伴随着摩尔定律飞速发展,各类语音数字信号处理技术也取得了日新月异的成就,尤其是语音识别技术在手机和电脑上的应用实践最为出众,让人们真正体会到了科学技术的进步为生活带来的便利。但是,由于人们的语音输入经常伴有较大的背景噪音,在这些噪声的干扰下语音识别的准确性就会大大降低,在一些专业领域的语音识别同样面临着严峻的问题。而语音信号处理是为了识别纯净的人声设计出来的,或者通过各种手段将没有用处的噪声信号去除。为了实现这一目标,语音自动分割技术就是一个有效的手段。语音自动分割就是指通过设计好的算法,将一段连续的语音信号分割为有用的语音(人声等)和无用的噪声,并且将每个语音音节的起始点和终止点进行标记处理。语音自动分割是各类语音信号处理的应用中不可缺少的环节。一段混杂着噪声的语音信号经过自动分割以后会极大的改善识别系统的整体性能和识别精度错误!未找到引用源。。随着应用前景的日渐广阔,语音自动分割技术已经日益成为众多学者研究的热点方向,研究人员提出了很多新型语音自动分割算法,如:基于混淆网络、基于仿生识别、基于短时分形维数、基于神经网络等的算法。不仅有许多新型、先进的分割算法,而且每种算法的具体实现也是多种多样的。2.4本文内容和章节安排论文要做的内容主要是综合评估了各种语音分割算法的优缺点后,采用改进后的谱熵法来进行语音信号自动分割。算法分析语音的时频域特性,选取合适的参数,计算出当前语音文件的参数值,再用合适的算法确定阈值,最后实现语音自动分割。第1章引言主要介绍语音自动分割算法的概况。第2章简要概述了语音自动分割算法的课题背景、研究现状等。第3章语音信号的基本处理方法和经典语音自动分割算法。前者从时域和频域两个角度介绍了语音信号分析的基本模式。后者详细分析、介绍了几种具代表性的语音自动分割算法。第4章基于语音熵的自动分割方法的分析与研究深入介绍了熵的概念以及谱熵法在语音自动分割中的应用,并最终确定了本文的语音分割方案。第5章算法实现与仿真主要介绍了算法的具体实现过程以及仿真结果。5第6章结论主要是对实验结果的总结分析以及对算法发展的展望。63经典语音自动分割算法所谓语音自动分割就是在一段连续语音中,把有用的语音音节和构成干扰的背景噪声区分开来,明确每个音节的起始点和终止点。随着语音信号处理技术的不断发展,语音自动分割方法越来越多,每种算法都有各自的特点和应用场景。比较经典的语音自动分割算法包括短时能量检测法、自相关函数法、倒谱距离检测法等。本章将对各类算法进行详细的分析总结,进而引出一种鲁棒性较好的语音自动分割算法。3.1语音信号的时域分析语音信号是时域信号,时域在对语音信号进行分析时是最直观的,通常来说语音信号处理的仿真结果都是以时间为横坐标的。所谓时域分析一般就是指基于短时能量、短时过零率、短时功率谱等参数,来对语音信号进行相应的分析。通过对这些短时参数的提取、利用,我们就能够实现语音信号的时域分析。再对任何一种数字信号进行分析处理时,时域波形总是我们最早了解到的而且是最直观的语音状态描述。时域分析方法的特点有:(1)能够直接观察语音信号的波形;(2)不需要进行复杂的计算就能够实现;(3)能获得重要的短时特征;(4)信号特征能够直观体现出来,减小理解难度。3.1.1连续信号数字化语音信号之所以要进行预滤波的主要原因有二:(1)抑制系统输入的语音信号中高于二分之一采样频率fs的频域分量;(2)抑制50Hz的电源工频干扰。因此只有带通滤波器才能符合预滤波器的使用要求。设其上截止频率为fh,下截止频率为fl。一般情况下,众多语音编译码器上截止频率和下截止频率都设定为hf=3400Hz、lf=60~100Hz、采样率为sf=8kHz。而对于语音识别系统来说,当应用的场景不一样的时候,选用的参数也是不同的。当用于电话用户时,指标通常采用fh=3400Hz、fl=60~100Hz、采样率为fs=8kHz。当用于对语音识别系统要求很高的场所时,通常就要采用更狂的频谱范围、更高的采样率。语音信号通过预处理之后就会转化为二进制数字码。模拟信号需要通过采样量化转化为数字信号,在这个过程中,由于量化过程的基本原理导致其必然会有一定的误差出现。当语音信号波形的变化幅度特别大或者量化间隔Δ特别小时,可以发现量化噪声与输入信号是不存在相关关系的,根据这个
本文标题:基于时域特征的语音自动分割算法实现
链接地址:https://www.777doc.com/doc-2536613 .html