您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 人工智能模式识别综述
河北大学人工智能结课论文1模式识别综述摘要模式识别(PatternRecognition)又称图形识别,就是通过计算机用数学技术方法来研究模式的自动处理和判读。通常把环境与客体统称为“模式”。随着计算机技术的发展,人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说,特别重要的是对光学信息(通过视觉器官来获得)和声学信息(通过听觉器官来获得)的识别。这是模式识别的两个重要方面。模式识别研究主要集中在两方面,一是研究生物体(包括人)是如何感知对象的,属于认识科学的范畴,二是在给定的任务下,如何用计算机实现模式识别的理论和方法。本文主要阐述了模式识别的基本原理、方法及各种技术,以及在相关领域的应用。关键字:模式识别模式识别基本概念:(一)模式识别系统模式识别的本质是根据模式的特征表达和模式类的划分方法,利用计算机将模式判属特定的类。因此,模式识别需要解决五个问题:模式的数字化表达、模式特性的选择、特征表达方法的确定、模式类的表达和判决方法的确定。一般地,模式识别系统由信息获取、预处理、特征提取和选择、分类判决等4部分组成,如图1-1所示。图1-1模式识别系统的组成框图(二)线性分类器对一个判别函数来说,应该被确定的是两个内容:其一为方程的形式;其二为方程所带的系数。对于线性判别函数来说方程的形式是线性的,方程的维数为特征向量的维数,方程组的数量则决定于待判别对象的类数。对M类问题就应该有M个线性判别函数;对两类问题如果采用“+”“-”判别,则判别函数可以只有一个。既然方程组的数量、维数和形式已定,则对判别函数的设计就是确定函数的各系数,也就是线性方程的各权值。在计算机上确定各权值时信息获取预处理特征提取和选择分类决策分类器设计河北大学人工智能结课论文2采用的是“训练”或“学习”的方法,这就是待识别的模式集中挑选一批有代表的样本,它们经过人工判读成为已知类别的样本,把这批样本逐个输入到计算机的“训练”程序(或算法)中去,通过一次一次的迭代最后得到正确的线性判别函数,这样一个迭代的运算的过程成为训练过程。由于样本的分类首先经过人工判读,因而这样的构成分类器也称为有人监督或有教师的分类器。线性分类器虽然是最简单的分类器,但是在样本为某些分布情况时,线性判别函数可以成为最小错误率或最小风险意义下的最优分类器。而在一般情况下,线性分类器只能是次优分类器,但是因为它简单而且在很多情况下效果接近最优,所以应用比较广泛,在样本有限的情况下有时甚至能取得比复杂的分类器更好的效果。(三)特征选择和提取(1)特征选择一个模式识别系统的成败,首先取决于所利用的特征是否较好地反映了将要研究的分类问题。因此如何设计和获取特征是一个实际模式识别的第一步。特征的获取是依赖于具体的问题和相关专业的知识的,无法进行一般性的讨论。从模式识别角度,很多情况下人们面对的是已经得到的一组特征,或者是利用当时的技术手段把所有有可能观测到的特征都记录下来。这时,这些特征中可能有很多特征与要解决的分类问题关系并不密切,它们在后续的分类器设计中可能会影响分类器的性能。另一方面,有时即使很多特征都与分类器关系密切,但是特征过多会带来计算量大、推广能力差等问题,在这样数目有限时很多方法甚至会因为出现病态矩阵等问题而根本无法计算,因此人们也往往希望在保证分类效果的前提下用尽可能少的特征来完成分类。模式识别中的特征选择的问题,就是指在模式识别中,用计算方法从一组给定的特征中选择一部分特征进行分类。这是降低特征空间维数的一种基本方法。(2)特征提取原始特征的数量可能很大,或者说样本处于一个高维空间中,通过映射(或变换)的方法可以用低维空间来表示样本,这个过程称为特征提取。映射后的特征称为二次特征,它们是原始特征的某种组合(通常是线性组合)。所谓特征提取,在广义上就是指一种变换。若Y是测量空间,X是特征空间,则变换A:Y→X就称为特征提取器。一般情况下的特征变换都是将维变换。(3)特征选择和提取的作用特征选择和特征的提取的主要目的,一是在不降低或者很少降低分类结果性能的情况下,降低特征空间的维数,二是为了消除特征之间可能存在的相关性,减少特征中与分类无关的信息,使新的特征更有利于分类。其主要作用在于:(1)简化计算。特征空间的维数越高,需占用的计算机资源就越多,设计和计算也就越复杂。(2)简化特征空间结构。由于特征提取和选择是去除类间差别小的特征,保留类间差别大的特征,因此,在特征空间中,每类所占据的子空间结构可分离性更强,从而也简化了类间分界面形状的复杂度。(四)概率密度函数估计概率密度函数的估计方法分为两大类:参数估计与非参数估计。参数估计中,已知概率密度函数形式,但其中部分或者全部参数未知,概率密度函数的估计问题就是用样本来估计这些参数。主要方法又有两类:最大河北大学人工智能结课论文3似然估计和贝叶斯估计,两者在很多实际情况下结果接近,但从概念上它们的处理方法是不同的。参数估计是统计推断的基本问题之一,下面主要介绍几个参数估计的基本概念。(1)统计量。样本中包含着总体的信息,希望通过样本集把有关信息抽取出来,就是说针对不同要求构造出样本的某种函数,这种函数在统计学中称为统计量。(2)参数空间。如上所述,在参数估计中,总是假设总体概率密度函数的形式已知,而未知的仅是分布中的几个参数,将未知参数记为θ,在统计学中,将总体分布未知函数θ的全部可容许值组成的集合称为参数空间,记为ʘ。(3)点估计、点估计值、点估计量。点估计问题就是要构造一个统计量作为参数θ的估计。在统计学中,构造的此统计量称为θ的估计量,把样本的观测值代入统计量,得到一个具体数值,这个数值在统计学中称为θ的估计值。(4)区间估计。利用抽样分布估计参数可能在位于的区间,即要求用区间[d1,d2]作为θ的可能取值范围的一种估计。这个区间称为置信区间,这类估计称为区间估计。非参数估计,就是概率密度函数的形式也未知,或者概率密度函数不符合目前研究的任何分布模型,因此不能仅仅估计几个参数,而是用样本把概率密度函数数值化地估计出来。这种估计只能用数值方法取得,无法得到完美的封闭函数形式。从另外的角度来看,概率密度函数的参数估计实际是在指定的一类函数中选择一个函数作为对未知函数的估计,而非参数估计可以看作是从所有可能的函数中进行的一种选择。非参数估计的方法有直方图法,近邻法和Parzen窗法。(五)聚类分析聚类就是按照一定的要求和规律对事物进行区分和分类的过程,在这一过程中没有任何关于分类的先验知识,仅靠事物间的相似性作为类属划分的准则,因此是无监督分类。聚类分析是指用数学的方法研究和处理给定对象的分类。多年来,人们提出了许多关于“聚类”的定义,但一直没有通用的定义。温熙森给出的聚类分析定义是:“聚类分析是统计模式识别的另一重要工具,它把模式归入到这样的类别或聚合类:同一个聚合类的模式比不同聚合类中的模式更相近”。它的基本原理就是在没有先验知识的情况下,基于“物以类聚”的观点,用数学方法分析各模式向量之间的距离及分散情况,按照样本距离远近划分类别。聚类分析是无监督分类方法,它把一个没有类别标记的样本集按照某种准则划分成若干个子集饿,使相似的样本尽可能归为一类,不相似的样本尽量划分到不同的类中。在实际应用中,很多情况下无法预先知道样本的类别,只能用没有样本类别标记的样本集进行分类器设计,这就是无监督分类方法。监督分类方法和无监督分类方法的区别主要如下:(1)监督分类方法有训练样本集,在训练样本集中给出不同类别的训练样本,用这些训练样本就可以找出区分不同类样本的方法,从而在特征空间中划定决策域。河北大学人工智能结课论文4(2)监督分类方法由训练阶段和测试间断组成。训练阶段利用训练集中的训练样本进行分类器设计,确定分类器参数;测试阶段将待识别样本输入,根据份额ide决策准则,确定待识别样本的所属类别。(3)无监督分类方法可用来分析数据的内在规律,它没有训练样本:如聚类分析、主分量分析、数据拟合等方法都是无监督分类方法。对样本集进行聚类分析要考虑的问题如下:(1)相似性测度。如何度量样本间的相似性。(2)聚类准则。如何聚类取决于聚类的准则函数,使某种聚类准则达到极值。(3)聚类算法。用什么算法找出使准则函数取极值的最好聚类结果。(4)聚类的有效性。判定聚类很大程度上反映了样本集大的真是结构,应如何确定样本集中正确的类别数。模式识别的应用:文字识别:文字识别是利用计算机自动识别字符的技术,是模式识别应用的一个重要领域。文字识别一般包括文字信息的采集、信息的分析与处理、信息的分类判别等几个部分。文字识别方法基本上分为统计、逻辑判断和句法三大类。常用的方法有模板匹配法和几何特征抽取法。文字识别可应用于许多领域,如阅读、翻译、文献资料的检索、信件和包裹的分拣、稿件的编辑和校对等方面。语言识别:语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。近年来,在生物识别技术领域中,声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安验证方式。而且利用基因算法训练连续隐马尔柯夫模型的语音识别方法现已成为语音识别的主流技术,该方法在语音识别时识别速度较快,也有较高的识别率。生物特征识别:生物识别技术(BiometricIdentificationTechnology)是指利用人体生物特征进行身份认证的一种技术。更具体一点,生物特征识别技术就是通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段密切结合,利用人体固有的生理特性和行为特征来进行个人身份的鉴定。模式识别技术的潜力:模式识别技术是人工智能的基础技术,21世纪是智能化、信息化、计算化、网络化的世纪,在这个以数字计算为特征的世纪里,作为人工智能技术基础学科的模式识别技术,必将获得巨大的发展空间。在国际上,各大权威研究机构,各大公司都纷纷开始将模式识别技术作为公司的战略研发重点加以重视。生物认证技术:生物认证技术本世纪最受关注的安全认证技术,它的发展是大势所趋。人们愿意忘掉所有的密码、扔掉所有的磁卡,凭借自身的唯一性来标识身份与保密。国际数据集团(IDC)预测:作为未来的必然发展方向的移动电子商务基础核心技术的生物识别技术在未来10年的时间里将达到100美元的市场规模。数字水印技术:数字水印(DigitalWatermarking)技术是将一些标识信息(即数字水印)直接嵌入数字载体(包括多媒体、文档、软件等)当中,但不影响原载体的使用价值,也不容易被人的知觉系统(如视觉或听觉系统)觉察或注意到。通过这些隐藏在载体中的信息,可以达到确认内容创建者、购买者、传河北大学人工智能结课论文5送隐秘信息或者判断载体是否被篡改等目的。数字水印是信息隐藏技术的一个重要研究方向。结语:模式识别是一个交叉、综合的科学技术领域,不仅与其他信息学科而且和包括数理科学、生命科学、地球科学、工程与材料科学、管理科学、环境科学的相互作用和渗透愈来愈高,其科学界线很可能随着发展而逐渐模糊。其发展离不开应用和工程,离不开国家目标。因此,其科学技术内涵与外延应该与时俱进、更新和扩展,研究的方向与内容应该更具有综合性、交叉性,更强调国家目标的实现,解决国家急需的重大问题、重大关键技术攻关和社会发展中的科学技术难题和基础理论问题。参考文献:[1]边肇祺,张学工等.模式识别(第二版)[M].北京:清华大学出版社,2000.[2]神经网络理论与MATLAB7实现,Comput.J.,vol.3,2005.[3]邵美珍,黄洁.模式识别原理与应用[M].西安:西安电子科技大学出版社,2008.
本文标题:人工智能模式识别综述
链接地址:https://www.777doc.com/doc-2704082 .html