您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 六pattern recognition c5
1模式特征分析与选取第五章1第五章模式特征分析与选取模式特征分析与选取第五章2第五章模式特征分析与选取第一节描述模式分布状态的测度第二节特征提取的方法第三节离散K-L变换第四节利用K-L变换的分类特征提取第五节增维问题模式特征分析与选取第五章3模式识别建立在对模式特征量化的基础上。首先要对表征模式的各种特征加以量测或量化,得到每一模式的特征数值集合,或特征向量,然后根据不同类型模式具有不同的特征数值集合,进行自动辨别。问题一:特征数值向量的分量个数很多(或维数很多),但是否都能有效地代表各类模式,针对不同的对象,是否都需要那么多特征来进行辨别。结论:模式维数很高的情况下,计算量太大,且识别精度并不一定随着维数增多而提高。如陆地卫星1号有十二个波段的数据,而从识别精度来分析,三、四个波段的组合却是最好的,下图说明了有关方面的实验结果。这里有个特征挑选和优化的问题,或最佳组合的问题,也就是说需要选择最有代表性的特征。针对不同的研究对象,还需要进行不同的特征组合。第五章模式特征分析与选取模式特征分析与选取第五章4特征数值与识别精度的关系第五章模式特征分析与选取模式特征分析与选取第五章5问题二:有时特征量测值较少,模式集合处于低维空间,给自动分类带来困难。比如热红外航片数字化以后只有一维,这时需要考虑引入辅助数据,或其它影像数据以增加维数。结论:为了提高识别精度而采取增加模式维数的方法。综上所述,模式特征要进行特征优化、特征选取,而特征优化的前提是特征分析。本章所介绍的就是特征分析的理论。第五章模式特征分析与选取模式特征分析与选取第五章6第一节描述模式分布状态的测度各种模式在特征空间的分布状态是模式识别成功与否的一个重要因素。只有对这一分布状况进行分析,才能断定描述模式的特征空间是否有利于分类,才能决定哪些特征是起主导作用的,哪些特征是可以忽略,从而进行特征的选取。一般描述模式在特征空间的分布状态有如下几种方法:模式特征分析与选取第五章7一,欧氏距离tntnbbbbaaaa、、、、2121,模式1,模式与模式间的距离:21,iinitbababababaDnkikkmiimiiiaxmaxDmaxDmiax1212121,1,,2,1,:之间距离为与点集第一节描述模式分布状态的测度模式特征分析与选取第五章82,类内距离:同一类模式内所有点之间距离平方的平均值。若同类点集为:则类内距离为:,,2,1,miaijimjiaaDDji且;,2,1,,22类内距离用类内所有样本的方差表示为:2122knkD类内方差的大小反映了同一类模式的凝聚情况,即所有同类模式之间的距离的波动情况。第一节描述模式分布状态的测度模式特征分析与选取第五章93,类间距离:两类模式集合,各有和个样本,则类间距离为jiba和aKbKbajikjkibaD,2,1;,2,1,222112kknkmmD类间距离也可以用两类的中心点(均值)之间的距离来表示类间距离反映了不同类别在特征空间中的差异程度。第一节描述模式分布状态的测度模式特征分析与选取第五章10二,离散度令离散度是另一种形式的距离概念,它以似然比表示,可以作为一个准则来确定选取哪些特征量以更好地区分诸类样本。1,似然比iixPxPjjxPxPijxijxPxPnjiij似然比为模式对于和两类归属明确程度的度量:第一节描述模式分布状态的测度模式特征分析与选取第五章112,离散度所有样本对于和两类归属明确程度的平均量度为ijdxxPxPnxPxEjiIjiXjiji,jidxxPxPnxPxEijIijXjjij,dxxPxPnxPxPijIjiIJjiXjiij,,对于和归属明确程度的平均量度为离散度第一节描述模式分布状态的测度模式特征分析与选取第五章12离散度表示两类样本可区分程度的量度。三,特征变换与排序对于同一类样本,即时,有。对两类样本,即时,有,并且。可见离散度以似然比函数的积分表达了两类模式的差异性,并具有距离函数的性质。当知道两类模式的分布规律之后,就可以计算其离散度。ji0ijJji0ijJjiijJJ利用正交矩阵对样本x实施线性变换得:xy第一节描述模式分布状态的测度模式特征分析与选取第五章13为nn矩阵,由n个行向量i构成。当的各行向量为样本集合{x}协方差矩阵Cx的本征向量,对应于各本征向量i,(i=1,2,…n)有本征值i(i=1,2,…n)。实施正交变换后的样本集{y}的协方差矩阵:txyCCCy实际上是由i构成的对角矩阵:nyC0021第一节描述模式分布状态的测度模式特征分析与选取第五章14可见i是样本y各本征分量的方差,即niii,2,1,2它们同时也是Cx的本征值。由于它们提拱了变换后的特征分量的方差信息,就有利于对变换后的特征进行分析,比如{x}为同一类模式,则i的大小就反映了变换后该类的凝聚水平,相应于较小的i的特征是反映凝聚状态较好的那一维。而当{x}为多类模式集合时,将i按大小排列,就能发现较大的i所对应的那几维对分类有利,因为方差大的反映分离的状况好。xCxiixii第一节描述模式分布状态的测度模式特征分析与选取第五章15四,熵设某类样本x出现的概率为P(x),则用来度量类内异样性的总体熵为xnPEH当对于该类中所有样本,P(x)=1时,H=0,即不确定性量度值为0,当各样本出现的概率各异,H值也随之变化。一般对M类样本,若每一类的概率密度为则每一类的总体熵为,,2,1,mjxPiixiiidxxnPxPH第一节描述模式分布状态的测度模式特征分析与选取第五章16当为正态分布时,有:ixP2212121221212121exp211212nnCnndxnnCnmxCmxmxCmxCHiiiitiiitixini可见,熵H仅与样本的协方差矩阵C有关。第一节描述模式分布状态的测度模式特征分析与选取第五章17对于一维模式来说,是样本方差,这个方差值越小,则H值越小,它表示凝聚程度越高。对于多维模式来说,若所有样本X经过线性变换,则为C的各本征值的乘积,即CnC2121211nnHiniC这些本征值也就是各个方差值。于是,同样可以对类别的凝聚情况进行分析。第一节描述模式分布状态的测度模式特征分析与选取第五章18在特征维数较多的情况下,选取其中有利于分类的特征,以减少特征维数,减少内存负担,加快运算速度,提高效率,是自动分类中的一个重要问题。如何降低维数,保证有较好分类精度呢?一般要依据一些准则,这些准则是利用前节所述测度理论进行的。第二节特征提取的方法模式特征分析与选取第五章19一,独立特征的选取准则若原始的各特征量测值是统计独立的,即其相关性很小,则可利用训练样本集逐一对各特征分量进行分析,看其对于各类样本可分性的程度大小如何。对于和两类n维样本,其第K维的样本均值为mik和mjk,方差为和。准则函数:ijikjk),2,1(222nkmmGjiikjkikkkGijnkGk,2,1,愈大,第k维特征对与两类的可分性愈好。将按大小排列,选其前m个特征,即可保证有较好分类结果。第二节特征提取的方法模式特征分析与选取第五章20二,一般情况下的特征选取准则考虑到各特征分量之间常常存在相关性,可采用如下准则:1,散布矩阵准则(1),类内散布矩阵类的均值向量。类中的样本,iiiitiiiiiCjwmxmxmxEPS1样本总体均值。0001,mmmmmPStiiiCjb(2),类间散布矩阵第二节特征提取的方法模式特征分析与选取第五章21(3),总体散布矩阵样本集任意样本xmxmxESSStoobwt显然,的迹的值愈小,的迹的值愈大,类别可分性愈好,故可采用所谓散布矩阵迹准则:wSbSbwtSStrJ1tJ当利用散布矩阵准则时,一般需要足够数量的样本,对于各种特征的组合,计算使最大的组合,作为最佳组合,得到最佳特征选取方案。第二节特征提取的方法模式特征分析与选取第五章222,散度准则当类概率密度分布为正态分布时,散度准则:jijitjiijjitjijijiijjiijmmCCmmICCCCtrmmmmCCtrCCCCtrJ11111111212212121显然,使最大的特征子集,就是适于分离和两类模式的最佳选择。ijJij对于多类模式,以平均散度作为准则,即:ijjiCijCiJPPJ11第二节特征提取的方法模式特征分析与选取第五章23上式是对两两类别的值相加而得的。这种根据平均散度选择特征的方法虽然合理,但容易掩盖某些散度较小的类对。因为只要其中某些类对散度很大,计算平均散度时就有显著数值。为此,将上述散度公式加以改化,定义变换散度8/exp1%100ijTijJJTijJTijjiCijCiTJPPJ11平均变换散度准则为:ijJ第二节特征提取的方法模式特征分析与选取第五章24当相当大时,只不过平稳趋于100%处,此处被称为“饱和态”。而对较小散度的变化,则较为敏感。下图指出了对于变化的敏感度,说明了它们之间的单调变化规律。TijJTijJijJ第二节特征提取的方法模式特征分析与选取第五章253,Bhattacharyya距离和Jeffries-Matusita距离准则(即J-M距离准则)这也是对于正态分布模式的特征选取准则。当两类模式的协方差矩阵相近或相等时,有Bhattacharyya距离公式jitjiijmmCmma181对多类模式,Bhattacharyya距离准则为:jijiCijCiaPPa11第二节特征提取的方法模式特征分析与选取第五章26显然,与散度准则一样,存在数值大的项掩盖数值较小项的问题。故也采取改化方法,得到J-M距离公式:ija21exp12ijMijaJMijJijaMijjiCijCiMJPPJ11同样,与之间的指数关系也有利于克服上式的不足。对多类模式,J-M准则为:第二节特征提取的方法模式特征分析与选取第五章27三,穷举法对于n维模式,选取m维特征作为分类特征,利用散布矩阵迹准则,变换散度准则和J-M距离准则,都需要从种特征组合中进行最佳组合选择,即将K种特征子集的准则函数值按从大到小顺序排列,选出最优组合。这样做虽然能比较全面地了解所有特征对各类的可分性信息,但当维数n很大时,计算量相当大。为此,可采取某种简化算法,所谓最大的最小类对距离法就是其中一种方法。mnCK第二节特征提取的方法模式特征分析与选取第五章28此方法是从C类中选出最难分离的一对类别,即选用对应于C类中类对距离最小的准则函数数值,来代替变换散度或J-M准则。此时,首先用散度或B氏距离计算出C类中每一类别对之间的距离,再从所有中选出最小值,即ijdijdCijCiddijK,1;,2,1minmnCKKdKdKdKLcijjiciddijL,2,1,1,,2,1minmax这一计算只针
本文标题:六pattern recognition c5
链接地址:https://www.777doc.com/doc-4278253 .html