您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 广告经营 > 第12章多媒体人机交互技术
主讲人:杨帆第十二章多媒体人机交互技术第1页/共41页第十二章多媒体人机交互技术主讲人:杨帆第十二章多媒体人机交互技术第2页/共41页本章导读从多媒体技术的角度看,人机交互技术是在计算机具备处理声音、图像、视频等多种媒体信息能力的基础上发展起来的,是多媒体技术的不同应用。另一方面,人机交互技术的研究又促进了多媒体技术的快速发展,充分表现了多媒体技术的交互性。本章将从多媒体信息处理的角度,简单介绍目前已经广泛应用的几种典型的人机交互技术,如触摸技术、手写识别技术、语音识别与合成技术、虚拟现实技术等。同时,还将介绍基于多媒体技术的人机交互界面的发展方向。主讲人:杨帆第十二章多媒体人机交互技术第3页/共41页本章主要内容12.1人机交互技术概述12.2触摸屏技术12.3OCR与手写识别技术12.4语音识别技术12.5语音合成技术12.6虚拟现实技术主讲人:杨帆第十二章多媒体人机交互技术第4页/共41页12.1人机交互技术概述12.1.1人机交互简介人机交互(ComputerHumanInteraction,CHI)也称HCI(HumanComputerInteraction),是研究人、计算机及其相互影响的技术,其核心是人机界面,它是计算机与人之间通信和对话的接口,是计算机系统的重要组成部分。人机交互技术是指通过计算机系统的输入/输出设备,以有效的方式实现人与计算机系统之间信息交流的技术。目前,人们已经能够与计算机系统较为方便地进行交互,具体应用的交互技术有键盘交互、手写文字交互、语音交互、图像与视频交互、多语言交互、虚拟现实系统中的交互等。主讲人:杨帆第十二章多媒体人机交互技术第5页/共41页12.1.2多模态人机交互1、模态是心理学领域中的一个标准术语,指感知信息的感觉,也就是感觉模态。2、多模态人机交互多模态(Multimodality)人机交互,就是基于智能接口技术,充分利用人的多种感知通道,以并行的、非精确的方式与计算机系统进行交互,旨在提高人机交互的自然性和高效性。主讲人:杨帆第十二章多媒体人机交互技术第6页/共41页3、多模态人机交互的研究内容1)语音识别、2)理解及合成、3)手势识别技术、4)人脸的研究、5)唇读的研究、6)人体动作的研究。主讲人:杨帆第十二章多媒体人机交互技术第7页/共41页4、多模态人机交互的基本特点1)使用多个感觉和动作模态;2)三维的和直接操纵的要求;3)允许模糊交互;4)交互双向性;5)交互的隐含性;主讲人:杨帆第十二章多媒体人机交互技术第8页/共41页12.1.3可视化可视化是指充分利用人们对可视模式快速识别的自然能力,将数据信息和知识转化为一种视觉形成的过程。可视化操作过程可视化科学计算可视化信息可视化利用计算机图形学和图像处理技术,将科学计算过程中(包括计算结果)的数据转换为图形或图像在屏幕上显示出来,进行交互处理的理论、方法和技术。层次信息可视化多位信息可视化文档(文本)信息可视化Web可视化现代操作系统提供人机交互环境的基本要求,它通过GUI技术来实现主讲人:杨帆第十二章多媒体人机交互技术第9页/共41页12.1.4新型人机界面的主要特征1)人性化2)自然化3)智能化4)高带宽5)不限制地点6)图示编程(a)交互墙(b)交互桌(c)交互椅图12-1物面用户接口举例主讲人:杨帆第十二章多媒体人机交互技术第10页/共41页12.2触摸屏技术12.2.1触摸屏简介触摸屏是一种定位装置,安装在显示屏幕前面,它的功能是报告手指(或物体)触摸到屏幕的位置。用户可以直接用手指触摸屏幕以实现与计算机的交互。工作过程:手指或其他物体触摸触摸屏触摸屏控制器检测位置(以坐标形式)通过计算机接口送到CPU确定用户所输入的信息。触摸屏具有界面直观,操作简单,“伸手即得”的优点,大大改善了人与计算机的交互方式。主讲人:杨帆第十二章多媒体人机交互技术第11页/共41页触摸屏是一种定位装置,安装在显示屏幕前面,它的功能是报告手指(或物体)触摸到屏幕的位置;用户可以直接用手指触摸屏幕以实现与计算机的交互;工作过程:手指或其他物体触摸触摸屏,触摸屏控制器检测位置(以坐标形式),通过计算机接口送到CPU,以确定用户所输入的信息。触摸屏具有界面直观,操作简单,“伸手即得”的优点,大大改善了人与计算机的交互方式。12.2触摸屏技术12.2.1触摸屏简介主讲人:杨帆第十二章多媒体人机交互技术第12页/共41页12.2.2触摸屏的主要类型矢量压力传感技术触摸屏电阻技术触摸屏电容技术触摸屏红外线技术触摸屏表面声波技术触摸屏等五种类型。其中矢量压力传感技术触摸屏已经被淘汰。依据所采用的技术原理,触摸屏可分为:主讲人:杨帆第十二章多媒体人机交互技术第13页/共41页1、电阻式触摸屏如右图,当手指接触屏幕,两层OTI导电层出现一个接触点,因其中一面导电层接通Y轴方向的5V均匀电压场,使得侦测层的电压由零变为非零,控制器侦测到这个接通后,进行A/D转换,并将得到的电压值与5V相比,即可得触摸点的Y轴坐标,同理得出X轴的坐标。从而实现屏幕定位。图12-2电阻式触摸屏主讲人:杨帆第十二章多媒体人机交互技术第14页/共41页2、电容式触摸屏如右图,用户触摸屏幕时,由于人体电场,手指与导体层间会形成一个耦合电容,四边电极发出的电流会流向触点,而电流强弱与手指到电极的距离成正比,位于触摸屏幕后的控制器便会计算电流的比例及强弱,准确算出触摸点的位置。图12-3电容式触摸屏主讲人:杨帆第十二章多媒体人机交互技术第15页/共41页3、红外线式触摸屏红外线触摸屏由装在触摸屏外框上的红外线发射与接收感测元件构成,在屏幕表面上,形成红外线探测网,任何触摸物体可改变触点上的红外线而实现触摸屏操作。具体实现:在显示器上加上光点距离框,光点距离框的四边排列了红外线发射管及接收管,在屏幕表面形成一个红外线网(如图11-4所示)。当手指触摸屏幕某一点时,便会挡住经过该位置的横竖两条红外线,计算机便可即时算出触摸点位置。图12-4红外线触摸屏主讲人:杨帆第十二章多媒体人机交互技术第16页/共41页4、表面声波触摸屏表面声波触摸屏由触摸屏、声波发生器、反射器和声波接收器组成,其中声波发生器能发送一种高频声波跨越屏幕表面,当手指触及屏幕时,触点上的声波即被阻止,由此确定坐标位置。图12-5表面声波触摸屏主讲人:杨帆第十二章多媒体人机交互技术第17页/共41页12.2.3触摸屏的基本技术特性触摸屏通常应具备以下三个基本技术特性:1、透明性能2、绝对坐标系统3、检测与定位主讲人:杨帆第十二章多媒体人机交互技术第18页/共41页12.3OCR与手写识别技术12.3.1OCR识别技术OCR(OpticalCharacterRecognition,光学字符识别)技术,是通过扫描等光学输入方式将文字转化为图像信息,再利用文字识别技术将图像信息转化为可编辑的文本信息的计算机输入技术。广泛应用于大量文字资料、票据、档案卷宗、文案的录入和处理等领域。相对一般文本,通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据;而相对于表格及票据,通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。主讲人:杨帆第十二章多媒体人机交互技术第19页/共41页OCR的基本工作过程分为图文扫描、预处理、单字识别、后处理以及文档输出等五个环节,如图12-6所示。图12-6OCR的基本工作原理示意主讲人:杨帆第十二章多媒体人机交互技术第20页/共41页12.3.2手写识别技术手写识别通过提取手写内容的结构特征来分割和识别字符,从而达到手写输入的目的。1、手写输入手写输入是把要输入的字符写在一块叫书写板的数字化设备上,这种设备将笔尖走过的轨迹按时间采样后发送到计算机中,通过手写识别技术,将手写内容识别成相应的字符内容(如汉字、数字、字母等),从而达到手写输入的目的。主讲人:杨帆第十二章多媒体人机交互技术第21页/共41页2、手写识别就汉字识别而言,其方法基本上分为统计识别、结构识别以及神经网络方法等几大类。大量的联机手写识别系统采用的都是结构识别方法。结构识别方法:其出发点是汉字的组成结构,从汉字的构成上讲,汉字是由笔划(点、横、竖、撇、捺等)、偏旁、部首构成,通过把复杂的汉字模式分解为简单的子模式直至基本模式元素,对子模式的判定,以及基于符号运算的匹配算法,达到对复杂模式的识别。主讲人:杨帆第十二章多媒体人机交互技术第22页/共41页3、影响识别率的因素目前影响识别率的因素主要有以下几个方面:1)笔顺问题2)连笔问题3)相似字区分4)对抗干扰能力的要求主讲人:杨帆第十二章多媒体人机交互技术第23页/共41页12.4语音识别技术12.4.1语音识别技术简介语音识别(ASR:AutomaticSpeechRecognition)技术,是指通过计算机的识别和理解过程,将语音信号转换为相应的文字信息,从而识别说话人的语音指令以及文字内容的技术。语音识别是一个多学科交叉的研究领域,涉及语言学、认知科学以及计算机科学等多个学科。语音识别技术与语音合成技术的结合,使人和计算机之间能够实现双向语言交流,摆脱键盘对人机交互方式的束缚。主讲人:杨帆第十二章多媒体人机交互技术第24页/共41页12.4.2语音识别的技术原理语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序列。声学模型与模式匹配(识别算法):声学模型通常通过学习算法来获取语音特征。在识别时将输入的语音特征同声学模型进行匹配与比较,得到最佳的识别结果。语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。对小词表语音识别系统,往往不需要语言处理部分。计算机的语音识别过程与人对语音的识别处理过程基本上是一致的。目前主流的语音识别技术是建立在统计模式识别基本理论之上的,其语音识别系统可大致分为三部分:主讲人:杨帆第十二章多媒体人机交互技术第25页/共41页12.5语音合成技术12.5.1语音合成技术简介语音合成(Speechsynthesis,或TextToSpeech)技术,是指将文本信息转变为语音数据,再以语音的方式播放出来的技术,通常被简称为TTS技术。一个典型的语音合成系统可分为文本分析、韵律建模和语音合成三大模块,主要功能是:根据韵律建模的结果,从原始语音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。主讲人:杨帆第十二章多媒体人机交互技术第26页/共41页12.5.2语音合成的技术方法语音合成(让计算机说话)的基本思路有两种:一种是参数模拟合成,一种是波形拼接合成。参数模拟合成:是采用数字信号处理的方法,将人类发声过程看作是一个模拟声门状态的源,去激励一个表征声道谐振特性的时变数字滤波器。波形拼接合成:是将要合成的语音信息分割成大量不同的语音信息元,并以数字形式存储,合成时根据具体内容和要求,选择适当的语音信息元进行拼接,从而形成所需的语音信息。主讲人:杨帆第十二章多媒体人机交互技术第27页/共41页12.5.3语音合成技术的应用与发展方向语音合成技术可广泛应用于语音数据查询、语音提示、电话银行、语音信箱、语音邮件、语音新闻发布、语音广播等各类语音业务,提供更加人性化的人机交互方式。语音合成技术的发展方向:1)提高合成语音的自然度2)丰富合成语音的表现力3)降低语音合成技术的复杂度4)多语种文语合成主讲人:杨帆第十二章多媒体人机交互技术第28页/共41页12.6虚拟现实技术12.6.1虚拟现实技术简介虚拟现实(VirtualReality)是利用计算机生成一种模拟环境,通过多种传感设备使用户“投入”到该环境中,实现用户与该环境直接进行自然交互的技术。虚拟现实技术的研究内容涉及到人工智能、计算机科学、电子学、传感器、计算机图形学、智能控制、心理学等。虚拟现实技术的特点在于,计算机产生一种人为虚拟的环境,这种虚拟的环境是通过计算机图形构成的
本文标题:第12章多媒体人机交互技术
链接地址:https://www.777doc.com/doc-1482784 .html