您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 基于DSP语音识别课程设计 - 杨艳珍
攻读硕士学位研究生试卷(作业)封面(2013至2014学年度第二学期)题目基于DSP语音识别课程设计科目DSP应用与开发姓名杨艳珍专业电子与通信工程学号2013201283入学年月2013年9月简短评语成绩:授课教师签字:DSP实验报告——语音识别1目录一、设计任务书.........................................................................................................................2二、设计内容.............................................................................................................................3三、设计方案、算法原理说明.................................................................................................41系统概述.........................................................................................................................42.硬件构成..........................................................................................................................42.1系统构成..............................................................................................................42.2系统主要功能模块构成......................................................................................53.语音识别算法软件实现..................................................................................................63.1系统流程图..........................................................................................................63.2语音信号的端点检测..........................................................................................63.3特征参数的提取..................................................................................................93.4建立语音库........................................................................................................103.5特定人语音识别算法........................................................................................11四、程序设计、调试与结果分析...........................................................................................14五、参考文献...........................................................................................................................19DSP实验报告——语音识别2一、设计任务书语音技术,包括语音识别、语音合成、关键词检出、说话人识别与确认、口语对话系统等,是现代人机交互的重要方式之一,具有广泛的应用前景。其中语音识别技术,尤其是连续语音识别技术,是最基础、最重要的部分,而且已经逐步走向成熟与实用。语音识别是研究使机器能够准确地听出人的语音内容的问题,即准确地识别所说的话,语音识别是近二三十年来发展起来的新兴学科,在计算机、信息处理、通信与电子系统、自动控制等领域中,在工业、军事、交通、医学等方面有着广泛的应用。语音识别装置有着重要的应用价值。而计算机技术=模式识别和信号处理技术及声学技术的发展也使满足各种需要的语音识别的实现成为可能。语音识别按不同的角度有以下几种分类方法:从所要识别的单位。有孤立词识别、音素识别、音节识别、孤立句识别、连续语音识别和理解。目前已进入识别的语音识别系统是单词识别。以几百个单词为限定识别对象。从识别的词汇量来分。有小词汇(10-50个)、中词汇(50-200个)、大词汇(200以上)等。从讲话人的范围来分。有单个特定讲话人、多讲话人和与讲话者无关。特定讲话人比较简单,能够得到较高的识别率。后两者难度较大,不容易得到高的识别率。从识别的方法分。有模块匹配法、随机模型法和概率语法分析法。这三种都属于统计模式识别方法。这三种方法都建立在最大似然决策bayes判决的基础上,但具体做法不同,简述如下:a.模块匹配法。将测试语音与模块的参数一一进行比较与匹配,判决的依据是是真测度最小准则。这里,除了参数分析的精度之外,选择何种失真测度至关重要。通常它要求对语音信息的各种信息具有顽健行,而且可以使用具备加权技术,使得测度更符合或更接近于最佳。b.随机模型法。这是一种使用隐马尔可夫模型(HMM)的概率参数来对似然函数进行估计和判决,从而得到识别结果的一种方法。由于HMM具有状态函数,所以这种方法可以利用语音频谱的内在变化和他们的相关性。这表明,该方法能够较好地将语言结构的动态特性用到识别中来。c.概率语法分析法。DSP实验报告——语音识别3适用于大长度范围的连续语言的识别情况,也就是说它可以利用连续语言中的形式语法约束的知识来对似然函数进行估计和判决。这里,形式语法可以用参数形式来表示,也可以用概率估计的非参数形式来表示。甚至可以用两者结合的形式。因此该方法可将a或b方法结合起来。除了上面三种方法,其他的识别方法包括人工神经网络语音语音识别、应用模型数学识别的语音识别语句等。对于汉字语音的识别,本质上和其他语音识别没有区别,也有其特点。主要是它宜于用音节作为基本研究对象,从而使特征的提取、字节的分割、动态时间匹配的选取等也具有特点。目前汉语识别的研究重点主要是以词为单位的孤立词识别和连续语音识别对等。本实验的主要任务就是对以TMS320VC5402芯片为核心的系统硬件设计进行了研究,通过TLC320AD50C对语音信号进行A/D转换,通过TMS30VC5402对语音信号“0”、“1”、“2”进行训练和识别,并由对于的灯LED0、LED1、LED2亮来显示结果是否正确;该系统核心识别算法采用动态时间规整(DTW)算法,主要流程包括预处理、端点检测、提取特征值、模式匹配和模板训练,取得了很好的识别效果。二、设计内容(1)对DMA进行初始化;(2)对A/D、D/A进行初始化;(3)编写DMA中断服务程序,实现语音信号的实时识别;(4)根据识别系统的类型选择一种识别方法,采用语音分析方法分析出这种识别方法所要求的语音特征参数,作为标准模式由机器存储起来,形成标准模式库。(5)对语音进行特征参数的分析,语音信号经过相同的通道得到语音参数,生成测试模板;(6)将测试模板与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果,从而实现语音的识别。DSP实验报告——语音识别4三、设计方案、算法原理说明1系统概述语音识别系统的典型实现方案如图1所示。输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、断点检测、预加重等。语音信号经过预处理后,接下来重要的一环就是特征参数提取,其目的是从语音波形中提取出随时间变化的语音特征序列。然后建立声学模型,在识别的时候将输入的语音特征同声学模型进行比较,得到最佳的识别结果。2.硬件构成2.1系统构成这里采用DSP芯片为核心(图2),系统包括直接双访问快速SRAM、一路ADC/一路DAC及相应的模拟信号放大器和抗混叠滤波器。外部只需扩展FLASH存储器、电源模块等少量电路即可构成完整系统应用。DSP实验报告——语音识别52.2系统主要功能模块构成语音处理模块采用TITMS320VC5402,其主要特点包括:采用改进的哈佛结构,一条程序总线(PB),三条数据总线(CB,DB,EB)和四条地址总线(PAB,CAB,DAB,EAB),带有专用硬件逻辑CPU(40位算术逻辑单元(ALU),包括1个40位桶形移位器和二个40位累加器;一个17×17乘法器和一个40位专用加法器,允许16位带或不带符号的乘法),片内存储器(八个辅助寄存器及一个软件栈),片内外专用的指令集,允许使用业界最先进的定点DSPC语言编译器。TMS320VC5402含4KB的片内ROM和16KB的双存取RAM,一个HPI(HostPortInterface)接口,二个多通道缓冲单口MCBSP(Multi-ChannelBufferedSerialPort),单周期指令执行时间10ns,带有符合IEEE1149.1标准的JTAG边界扫描仿真逻辑。语音输入、输出的模拟前端采用TI公司的TLC320ADSOC,它是一款集成ADC和DAC于一体的模拟接口电路,并且与DSP接口简单,性能高、功耗低,已成为当前语音处理的主流产品。16位数据结构,音频采样频率为2~22.05kHz,内含抗混叠滤波器和重构滤波器的模拟接口芯片,还有一个能与许多DSP芯片相连的同步串行通信接口。TLC320AD50C片内还包括一个定时器(调整采样率和帧同步延时)和控制器(调整编程放大增益、锁相环PLL、主从模式)。TLC320AD50C与TMS320VC5402的硬件连接,如图3所示。DSP实验报告——语音识别63.语音识别算法软件实现3.1系统流程图3.2语音信号的端点检测端点检测是语音识别系统中至关重要的一步,其算法的优劣在某种程度上也直接决定了整个语音识别系统的成败.作为一个完整的语音识别系统,其最终实现及使用的效果不仅仅取决于识别的算法,许多相关因素都直接影响着应用系统的成功与否。端点检测的目的就是在复杂的应用环境下的信号流中分辨出语音信号和非语音信号,并确定语DSP实验报告——语音识别7音信号的开始及结束。好的端点检测方法能改变语音识别软件存在的检测效果不理想、识别率低等问题。用短时能量短时过零率结合的方法,此方法实现简单,在噪声干扰不大的环境中可以取得较好的识别效果,但在实时性上还有提高的空间,采用动态窗长短时能量的方法可以在识别的实时性和识别率上有所提高。为了减小语音帧的截断效应,需要加窗处理;本实验采用hamming窗,因为矩形窗的主瓣宽度最小,旁瓣高度最高,会导致泄漏现象,哈明窗的主瓣最宽,旁瓣高度最低,可以有效的克服泄漏现象,具有更平滑的低通特性,应用更广泛。(1)短时能量定义为:语音信号强度的度量参数短时平均能量的主要用途:①可以从语音中区别出浊音来,因为浊音时短时平均能量的值要比清音时短时平均能量的值大很多;②可以用来区别声母和韵母的分界、无声和有声的分界等③最为一种超音段信息,用于语
本文标题:基于DSP语音识别课程设计 - 杨艳珍
链接地址:https://www.777doc.com/doc-5267918 .html