您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 畜牧/养殖 > 语音信号处理与识别方案
语音信号处理与识别发展声纹识别的起源,贝尔实验室开发的Audrey语言识别系统60年代,线性预测编码技术(LPC)和动态规划技术(DP)70年代,LPC和DTW的发展,提出了矢量量化(VQ)和隐马尔科夫模型(HMM)理论。80年代,卡耐基梅隆大学突破了大量词汇、连续语音和非特定人三大障碍,实现了基于隐马尔客服模型的语言识别Sphinx系统。90年代,语音发展相对缓慢,并没有多大创新,许多公司斥巨资将语音识别系统实用化。如:IBM的ViaVoice等等。我国在语音识别方面起步相对较晚,但经过几十年的努力也取得了很大成就。“863计划”,大量词汇非特定人连续语音识别演示系统,多项核心技术和创新性方法21世纪,移动互动网的兴语音识别系统的发展起到了很大的推动作用,有安卓系统内嵌语音识别系统、Google语音翻译、科大讯飞推出的讯飞口讯和语音云识别等相关产品也得到了很大的应用。优缺点:声纹识别具有很多优点:纯天然,识别的特征是声音,不用接触测试设备成本低,不需要特殊设备,对采样和量化的的芯片要求不高。在远程应用和移动互联网环境中,可以通过电话和移动设备进行身份确认和辨认。但同时也有一些缺点:一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;不同的麦克风和信道对识别性能有影响;环境噪音对识别有干扰;混合说话人的情形下人的声纹特征不易提取声纹识别唯一性声纹识别:声纹识别(VoiceprintRecognition,VPR),也称为说话人识别(SpeakerRecognition),是从说话人发出的语音信号中提取声纹信息。具有排他性,因为每个人的自然特征不同,所以声纹和指纹一样都各具特色,声纹识别技术可以作为鉴别身份的一种重要手段。通过声纹识别技术和位置服务技术(卫星定位等)相结合,实现远程身份确认,从而可达到被监管对象真实的地理位置或活动轨迹。相关概念声纹识别按任务有两类,即说话人辨认(SpeakerIdentification)和说话人确认(SpeakerVerification)。①说话人辨认:用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题。②说话人确认:用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。声纹识别按类型有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。①文本相关:因此可以达到较好的识别效果,但系统需要系统要求用户按照规定的内容发音,而识别时也必须按规定的内容发音用户配合。②文本无关:系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽。总框图采样量化首先对语音进行采样量化和预处理,预处理包括预加重处理、加窗、分帧和端点检测。采样量化预滤波是为了防混叠和阻止工频信号的干扰,预滤波器是带通滤波器。自动增益为了放大信号的倍数,以便于后续计算控制。A/D转换是为了把模拟信号转换为数字信号,以便计算机进行相关处理,但在转换中要对信号进行量化这个阶段会产生量化噪声。A/D转换器分为线性和非线性两类。预处理采样后需要对信号进行预处理,可提高信噪比,以便后续操作。预加重可以提升高频段;在整个频段中保持频谱平坦;方便进行频谱分析,预加重之后,开始进行分帧加窗处理,我们把10ms-30ms内语音信号看成是平稳的,为得到短时的语音信号,要对其进行加窗操作,窗函数平滑地滑动,将语音信号分成帧。在选择窗函数时,窗函数必须在时域时减小两端时间窗的坡度,使得窗口边缘缓慢平滑降为零;在频域,带宽要在3db以上。常用的窗函数有:矩形窗和汉明窗。通常情况下,选择汉明窗。通过分桢加窗后,语音信号就被分割成短时语音信号,利用数字信号处理技术,对这些信号进行处理,提取语音信号的特征参数。语音信号时域分析时域分析简单直观,直接分析语音信号时域波形提取特征参数,一般用于最基本信号处理。主要方法有短时平均能量、短时平均幅度、端点检测和短时平均过零率。短时平均能量:语音信号的能量随时间发生变化,清音和浊音间的能量差别很大,浊音能量大,可以分辨清音和浊音,也可以界定有声段和无声段、声母及韵母。短时平均过零率:表示每帧内信号过零的次数,可初步判断清浊音,清音过零率高,可以很好反映信号频率变化。适合背景噪声较大的情况。端点检测:是将短时平均能量和短时平均过零率结合起来,进行端点检测,可以很好的检测语音是否开始和结束;目的就是为了确定语音信号的起始点和结束点位置,避免无声段的干扰。频域分析方法有:带通滤波器组法、傅里叶变换法和线性预测法。短时傅里叶分析:语音信号非平稳,不能用标准傅里叶变换,语音信号在10-30ms时间是平稳的。短时傅里叶变换可表示为:经过短时傅里叶变换,就可以得到短时功率谱。从而可以得到与语谱图,语谱图表示语音频谱随时间变换的图形。不同说话者的语谱图的声纹是不一样的。语音信号频域分析特征参数提取特征提取在声纹识别系统中占有很重要的作用,特征提取方法有:线性预测分析LPC、线性预测倒谱LPCC、梅尔倒谱MFCCLPC和LPCC基本思想:语音信号当前样点的值可以用过去若干个样点值的线性组合来逼近。使实际采样值与预测值之间的均方差最小,可得LPC系数。梅尔倒谱MFCC:模拟人的听觉模型,通常情况下,人们对声音的高低和频率并不满足线性正比关系,Mel参数值和实际声音频率成对数关系,Mel(f)=2595lg(1+f/700),对低频比高频敏感。基本步骤:预处理-FFT变换-短时能量谱-梅尔滤波-对数能量谱-DCT变换-MFCC参数声纹注册,用户在服务器上拥有自己的声纹模型,用户说话时,说话人确认模块将用户语音和此声纹模型进行对比,确认是否用户本人,完成认证。通过手机SIM卡实现手机绑定,可以实现定位及语音信号采集,以确认用户在那个区域及在与什么人通话,从而检测用户是否从事危险活动。训练阶段和识别阶段是说话人识别的两个主要阶段。训练阶段:指的是把每个说话人语音,进行预处理,特征提取,建立相应的数据库模板。识别阶段:把测试者语音经过特征提取处理之后,和之前建立的模板进行匹配。进行说话人辨认实验时,最接近测试语音的说话人就被认为是待识别的人。进行说话人确认实验时,通过测试音和模板的相似度,来判决是否某人。身份确认语音资料库该语音库的存储方式是用说话人文件包进行组织的,标注信息包括如下内容:①录音特性:录音时间,录音地点,录音通道等②说话人信息:姓名,性别,出生日期,家庭所在地,现在居住地址,联系电话,电子邮件③数据相关信息:采样频率,数据量化位数,(A/D)数据编码格式、语音文本信息及录音文本内容特征匹配的识别方法:动态时间规整(DTW);矢量量化(VQ);隐形马尔可夫模型(HMM);人工神经网络(ANN)DTW:人的每次发音不同,发音长短也不一样,不能直接将测试模板与参考模板直接比较。DWT可以解决在时间上不匹配的问题,设测试模板和参考模板分别为Xm和Yn,DWT就是找到函数m=f(n),使测试模板时间轴n映射到参考模板时间轴m上,使两模板匹配时的累计距离达到最小。VQ:在训练阶段,把每个人的语音信号的特征参数进行分类,并生成码子存为码本,识别时,将测试语音参数序列与码本中的每个码子比较,计算最小距离。HMM:是一种基于传输概率和转移概率的随机模型,把语音当作是可观察到的符号序列组成的随机过程。训练时,通过对训练语言的特征参数序列得到HMM的状态转移概率矩阵及符号输出率矩阵,为每个人建立发生模型;识别时计算测试语音的特征参数序列在状态转移概率过程中的最大概率。ANN:模拟生物的感知特性,是一种分布式并行处理结构的网络模型。具有自组织和自学习能力。但训练量大动态时间规整能力差,没有被广泛使用。未来发展的前景银行及证券系统网络安全用于破案军队安全系统Thankyou!人有了知识,就会具备各种分析能力,明辨是非的能力。所以我们要勤恳读书,广泛阅读,古人说“书中自有黄金屋。”通过阅读科技书籍,我们能丰富知识,培养逻辑思维能力;通过阅读文学作品,我们能提高文学鉴赏水平,培养文学情趣;通过阅读报刊,我们能增长见识,扩大自己的知识面。有许多书籍还能培养我们的道德情操,给我们巨大的精神力量,鼓舞我们前进。
本文标题:语音信号处理与识别方案
链接地址:https://www.777doc.com/doc-4262931 .html