您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第6章 特征的提取与选择
第6章特征的选择与提取模式识别的三大核心问题:•特征数据采集•分类识别•特征提取与选择分类识别的正确率取决于对象的表示、训练学习和分类识别算法。【Why】1.引言2类别可分离性判据3特征选择4.特征提取5.K-L变换及PCA1.引言•特征提取与选择的基本任务是研究如何从众多特征中求出那些对分类识别最有效的特征,从而实现特征空间维数的压缩,即获取一组“少而精”且分类错误概率小的分类待征.目的:使在最小维数特征空间中异类模式点相距较远(类间距离较大),而同类模式点相距较近(类内距离较小)。人脸识别的例子ORL()人脸数据库中,每幅图像的分辨率为112×92,如果将每个像素作为1维特征,则高达10304维。若把所有的原始特征都作为分类特征送到分类器,不仅使得分类器复杂,分类判别计算量大,而且分类错误概率也不一定小;原始特征的特征空间有很大的冗余,完全可以用很小的空间相当好地近似表示图像,这一点与压缩的思想类似。因此有必要减少特征数目,以获取“少而精”的分类特征,即获取特征数目少且能使分类错误概率小的特征向量。使作为识别分类用的特征应具备以下几个条件:(1)具有很大的识别信息量。即所提供的特征应具有很好的可分性,使分类器容易判别。(2)具有可靠性。对那些模棱两可,似是而非不易判别的特征应该去掉。(3)具有尽可能强的独立性。重复的、相关性强的特征只选一个,因为强的相关性并没有增加更多的分类信息,不能要。(4)数量尽可能少,同时损失的信息尽量小。x1x2x3..xd对象模式的特征的有效性直接影响分类器的设计和性能.由信息获取部分获得的原始数据量一般是相当大的.为了有效地实现分类识别,要对原始数据进行选择或变换,得到最能反应分类本质的待征,构成特征向量.这就是特征抽取与选择的过程.传感器y1y2y3..ym学习.训练选择.提取分类器特征选择:从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的,这个过程叫特征选择。特征提取:将一组高维特征,通过变换的方法得到一组新的低维特征,这个过程叫特征提取。特征形成:根据被识别的对象产生出一组基本特征(也可称为原始特征),它可以是计算出来的,也可以是用仪表或传感器测量出来的。有时特征提取和选择并不是截然分开的。例如,可以先将原始特征空间映射到维数较低的空间,在这个空间中再进行选择以进一步降低维数;也可以先经过选择去掉那些明显没有分类信息的特征,再进行映射以降低维数。特征提取特征选择概念描述模式识别中减少特征数目(或压缩特征空间)的方法有两种:一种是特征提取,另一种是特征选择。原始特征:通过直接测量得到的特征称为原始特征。比如人体的各种生理指标(描述其健康状况);数字图像中的各像素点的亮度值(描述图像内容),都是原始特征。特征提取:通过映射(变换)的方法把高维的特征向量变换为低维的特征向量。通过特征提取获得的特征是原始特征集的某种组合,即A:X→Y,可见新的特征中包含有原有全体特征的信息。特征选择:从原始特征中挑选出一些最有代表性、分类性能好的特征以达到降低特征空间维数的目的。也就是说,特征选择就是从已有的D个原始特征中挑选出d个特征组成一个特征子集,同时将D-d个对类别可分离性无贡献的或贡献不大的特征简单地忽略掉。特征提取与具体问题有很大关系,目前没有理论能给出对任何问题都有效的特征提取方法。由于在许多实际问题中,那些最重要的特征往往不易找到,使得特征选择和特征提取成为构造模式识别系统最困难的任务之一。如:♦用傅立叶变换或小波变换的系数作为图像的特征;♦指纹的特征;♦统计特征,如矩、灰度共生矩阵(Co-occurrenceMatrix)等;♦用PCA方法作特征压缩;♦用LDA方法作特征压缩。共性选择方法(1)特征可以获取模式识别系统的主要处理设备是计算机,因此作为观察对象的数字化表达,观察对象应该是可以通过数据采集设备输入到计算机的。目前,市场上有各种传感设备和数字化设备,如采集图像信息的图像卡和采集语音信息的声卡等。作为特征,既可以是数字化表达的结果,也可以是在数字化表达基础上形成的参数性质的值,如图像分割后的子目标特征表达等。共性选择方法(2)类内稳定选择的特征对同一类应具有稳定性。由于模式类是由具有相似特性的若干个模式构成的,因此它们同属一类模式,其首要前提是特性相似,反映在取值上,就应该有较好的稳定性。共性选择方法(3)类间差异选择的特征对不同的类应该有差异。若不同类的模式的特征值差异很小,则说明所选择的特征对于不同的类没有什么差异,作为分类的依据时,容易使不同的类产生混淆,使误识率增大。一般来讲,特征的类间差异应该大于类内差异。特征的类别•1物理的:物理特征是比较直接、人们容易感知的特征,一般在设计模式识别系统时容易被选用。如为了描述指定班级中的某个学生,可以用以下物理特征:性别、身高、胖瘦、肤色等外在特征。物理特征虽然容易感知,却未必能非常有效地表征分类对象。•2结构的:结构特征的表达能力一般要高于物理特征,如汉字识别的成功实现离不开结构特征的选择。结构特征的表达是先将观察对象分割成若干个基本构成要素,再确定基本要素间的相互连接关系。如指纹的识别就是基于结构信息完成的。结构信息对对象的尺寸往往不太敏感,如汉字识别时,识别系统对汉字大小不敏感,只对笔划结构信息敏感。人脸的五官结构信息等,是目前认定人的身份的重要参数。•3数学的:易于用机器定量描述和判别,如基于统计的特征,数学特有时和观察对象的固有特性没有任何联系,有时则是物理特征或结构特征的计算结果。对特征空间的改造、优化、主要的目的是降维,即把维数高的特征空间改成维数低的特征空间。降维主要有两种途径。一种是删选掉一些次要的特征,问题在于如何确定特征的重要性,以及如何删选。另一种方法是使用变换的手段,在这里主要限定在线性变换的方法上,通过变换来实现降维。实现特征选择的前提是确定特征是否有效的标准,在这种标准下,寻找最有效的特征子集。用于特征选择的特征既可以是原始特征,也可以是经数学变换后得到的二次特征。需要注意,特征提取一定要进行数学变换,但数学变换未必就是特征提取。【问题的提出】【问题的提出】典型的运用线性变换对原特征空间优化的基本方法,进一步深入理解模式识别处理问题的基本方法-确定准则函数,并通过计算进行优化。使用特征选择方法的基本问题。1.什么叫特征空间?如果我们用颜色、尺寸、重量来衡量水果的构造的特特空间是几维空间?2.如果用颜色、尺寸与重量组成的特征空间来区分苹果与梨,你认为这三种度量中的哪种最有效?为什么?能否想像这两种水果在这个三维空间的分布?如果用这个特征空间来区分红苹果与樱桃,你想像一下这两类水果在特征空间如何分布?能否对这两种情况设计更经济有效的特征空间?【问题的提出】3.如果两类物体在一个二维特征空间如图分布,能否用删除其中任一维来优化特征空间?有没有什么方法能得到一个对分类很有利的一维特征空间?【问题的提出】4.上题的答案可用右图Y1与Y2组成的空间表示?你认为哪个分量可以删掉?5.你有没有办法将原在X1、X2空间表示的数改成用Y1、Y2空间表示?【问题的提出】1.需要找到描述事物方法的选择与设计-确定准则函数方案1.从框架的左边框到数字之间的距离变化反映了不同数字的不同形状,这可以用来作为数字分类的依据。方案2.强调分析不同截面的信号,如在框架的若干部位沿不同方向截取截面分析从背景到字,以及从字到背景转换的情况,如AB截面切割字符三次,CD截面切割字符一次等。【问题的提出—总结】2.需要确定特征空间的优化---优化算法这个层次的工作发生在已有了特征的描述方法之后,也就是已有了一个初始的特征空间,如何对它进行改造与优化的问题。一般说来要对初始的特征空间进行优化是为了降维。即初始的特征空间维数较高。能否改成一个维数较低的空间,称为优化,优化后的特征空间应该更有利于后续的分类计算例用RGB颜色空间和HSI颜色空间【问题的提出】•用RGB颜色空间和HSI颜色空间–RGB和HSI是两种常用的颜色空间,–虽然它们描述颜色的范围是一样的,–也有确定的转换关系,–但是用这两种不同的特征描述图像,–对以后的识别工作会有很大影响2类别可分离性判据【概念】特征选择与提取的任务是找出一组对分类最有效的特征,因此需一准则。概念:数学上定义的用以衡量特征对分类的效果的准则,实际问题中需根据实际情况人为确定。误识率判据:理论上的目标,实际采用困难(密度未知,形式复杂,样本不充分,…)可分性判据:实用的可计算的判据•为什么需要类别可分离性判据–一般说来分类器最基本的性能评估是其分类的错误率•如果能用反映错误率大小的准则,在理论上是最合适的–对错误率的计算是极其复杂的,以至于很难构筑直接基于错误率的判据–为此人们设法从另一些更直观的方法出发,设计出一些准则,用来检验不同的特征组合对分类性能好坏的影响,甚至用来导出特征选择与特征提取的方法这些准则就是类别可分离性判据【概念】【类别可分离性判据应满足的条件】•类别可分离性判据:衡量不同特征及其组合对分类是否有效的定量准则•理想准则:某组特征使分类器错误概率最小•常用类别可分离性判据:基于距离、概率分布、熵函数,也可以用:相关性、分类的错误率等参数。【概念】•基于距离的可分性判据的实质是Fisher准则的延伸,即综合考虑不同类样本的类内聚集程度与类间的离散程度这两个因素。•判据的优化体现出降维特征空间较好地体现类内密集。一些不能体现类间分隔开的特征很可能被排除掉了。•离散度矩阵(散布矩阵):一种描述数据离散程度的方法。6.2.1基于距离的可分性判据【类内类间距离】•基于距离度量是分类的常用的重要依据,因为一般情况下同类物体在特征空间呈聚类状态,即从总体上说同类物体内各样本由于具有共性,因此类内样本间距离应比跨类样本间距离小。•Fisher准则是以使类间距离尽可能大同时又保持类内距离较小这一种原理为基础的。同样在特征选择与特征提取中也使用类似的原理,这一类被称为基于距离的可分性判据。•为了度量类内、类间的距离,可用其他方法描述方法,即描述样本的离散程度的方法。6.2.1基于距离的可分性判据【类内类间距离】各类样本可以分开是因为它们位于特征空间的不同区域,显然这些区域之间距离越大,类别可分性就越大。如何表示两个类之间的距离?【类内类间距离】【用于可分性判据的类内类间距离】【用于可分性判据的类内类间距离】定义【用于可分性判据的类内类间距离】常用的基于类内类间距离的可分性判据:1)基于类内类间距离的可分离性判据是一种常用的判据,它实际上是各类向量之间的平均距离。2)具体而言,即J(x)表示各类特征向量之间的平均距离,我们通常认为J(x)越大,可分离性越好。3)这种判据优点是计算简单;缺点是当类间距离较小,类内距离较大时,判据仍有可能取得较大的值,而此时的可分离性并不大。特点:直观,易于实现(用样本计算),较常用。不能确切表明各类分布重叠情况,与错误率无直接联系。当各类协差相差不大时,用此种判据较好。选择原则:ii.计算简单,易于实现。iii.数学上容易处理。准则函数的递推计算问题:每增/减一个特征,只影响向量中的一个元素,矩阵的一行和一列。【用于可分性判据的类内类间距离】i.实际分类问题需要,找与分类性能关系密切者。【基于概率分布的可分性判据】考查两类分布密度之间的交叠程度【基于概率分布的可分性判据】定义:两个密度函数之间的距离:它必须满足三个条件:【基于概率分布的可分性判据】具体定义有多种:Bhattacharyya距离Chernoff界散度【基于概率分布的可分性判据】正态分布情况下:【基于概率分布的可分性判据】几种常见的概率距离准则(J)和概率相关性准则(I)最佳分类器由后验概率确定,所以可由特征的后验概率分布来衡量它对分类的有效性。两种特殊情形下最佳分类器的错误率:1)各类后验概率是相等(/)1/,1,2,...,ipxcic(/)1
本文标题:第6章 特征的提取与选择
链接地址:https://www.777doc.com/doc-3972125 .html