您好,欢迎访问三七文档
当前位置:首页 > 中学教育 > 初中教育 > 距离判别是基于欧氏距离或马氏距离-将样品判断为与之距-…
基于投影的组合判别方法梁飞豹*,陈婷婷(福州大学数学与计算机科学学院福建福州350108)摘要:由于数据的复杂性,一般的投影判别方法在应用上有一定的局限性,本文引入权重因子对不同投影方法进行组合,从而提出一种组合判别方法,以提高判别回代正确率与预测效果。通过实际例子和模拟数据验证了组合判别模型的判别效果良好,回代正确率相比于单一判别方法高,预测效果也优于单一判别方法。关键词:Fisher判别;内聚外散;回代正确率;权重;组合判别中图分类号:O212文献标识码:A判别问题分析是一种判断个体所属类别的统计方法,在已知观测对象的分类结果和若干表明观测对象特征的变量值的情况下,建立一定的判别准则,利用判别准则对新的观测对象的所属类别进行判断。判别分析方法多样,思路不尽相同,常见的判别法有距离判别分析法、最大后验概率准则、Fisher判别分析法和Bayes判别分析法等。由于数据类型的复杂性,距离判别并不能很好地体现数据所在总体潜在的几何特性。Fisher判别的决定因素是样本中心,隐含了数据是高斯分布的假设,当数据不是高斯分布时,经过任何的投影变换,都无法使其各类的类内差小组间差大,造成各类数据分辨不清,判别效果不好。目前,并没有一种判别方法能够适用于所有的数据类型。我们知道在预测模型中,由于建模机制和出发点不同,通常同一问题有不同的预测方法,不同的预测方法提供不同的有用信息,其预测精度往往也是不同的。如果简单地将预测误差较大的一些方法舍弃,将会丢失一些有用的信息,那么,一种更为科学的做法就是将一些不同的预测方法进行适当的组合,从而形成了所谓的组合预测方法,这将有利于综合各种方法提供有用的信息,有利于提高预测的精度[1]。在判别中,我们可以考虑引入这种组合的思想,较大限度地综合利用各种判别方法所提供的信息,尽可能地提高回代正确率。它比单个预测模型考虑问题更系统、更全面、更科学,能有效地减少单个判别模型判断过程中一些环境因素的影响。对于新的测试样本所属类别的判断,不同的判别方法有着不同的回代正确率和预测精度,本文尝试引入权重因子,将多种判别方法进行线性组合,构造一种组合判别方法,经过数据模拟,验证其广泛适应性,且对复杂数据判别问题有实际应用价值,理论和方法上也具有一定的创新性。收稿日期:2015-07-09录用日期:2015-11-28基金项目:国家自然科学基金资助项目(11301084),福建省自然科学基金资助项目(2014J01010)*通信作者:fbliang@163.com由于Fisher判别通过投影将多维的特征降到只有一维,又保证了类别能够“清晰”地反映在低维数据上。因此,本文考虑将基于投影变换的几种判别方法进行组合,既能保留投影判别的优良性,又能考虑到单个投影方向无法判别的数据经过多种判别得到较准确的结果。1基于投影的判别方法本文主要分析两个总体的情况,多总体的判别问题可以转换成双总体的判别分析。现考虑有n个来自总体12,GG的p维样本()()()()111211()()()()212222()()()()()12(1,2)iiiiTiiiipiiiipiiiiinnnpnxxxxxxxxXixxxx其中(1,2)ini表示第i个总体的样本数,12nnn。在介绍投影方法之前,我们先定义几个必要的基本参量。总体iG的样本均值向量:()()11iniijjixxn;总样本均值向量:(1)(2)12nnxxxnn;样本组间离差阵:2()()1()()iiTibinSxxxxn;样本总组内离差阵:2()()()()11()()iniiiiTwjjijSxxxx;总体2G“相对于”总体1G的组间离差阵:2(2)(1)(2)(1)1()()nTjjjBxxxx;总体1G的组内离差阵:1(1)(1)(1)(1)11()()nTjjjExxxx;总体2G的组内离差阵:2(2)(2)(2)(2)21()()nTjjjExxxx。一、Fisher投影将p维空间上的点x经投影后变为一维实数上的点z,并希望投影后的数据其组内差尽量小,组间差尽量大,即所求投影向量1w为:11argmaxTTbT其中w为1p的待定向量。易知1w是1wbSS的最大的特征值所对应的特征向量。由此投影的判别准则是:对于给定的任一样品x,比较投影后样品1Twx与总体iG经投影后重心(均值)的距离,即如果()()11111,2minTTtTTiiwxwxwxwx则判断样品txG。二、改进的Fisher投影同样作投影,将p维投影到一维,但我们只希望投影后的数据,其组间差尽量大,而不考虑组内差(这主要是为了避免p维空间上样本矩阵的组内离差阵wS奇异),即所求的投影向量2w为:21argmaxTTb,显然2w是bS的最大的特征值所对应的特征向量。由此投影的判别准则与Fisher投影的判别准则一致,即对于给定的任一样品x,如果()()11111,2minTTtTTiiwxwxwxwx则判断样品txG。三、“内聚外散”投影[2]同样,将p维投影到一维,我们希望投影后的数据,属于第一类1G的样本聚集在一块,而不属于第一类2G的样本远离第一类1G(即“内聚外散”投影),即所求的投影向量3w为:311argmaxTTT,显然3w为11EB的最大的特征值所对应的特征向量。这种投影的核心是事先要选好哪一类样本为指定的“第一类1G”,根据“内聚外散”的思想,“第一类1G”应该比较“集中”,所以一般以二个总体样本方差(取方差矩阵的行列式)大小来衡量它们的“集中”度,哪个方差行列式越小,就选择这一类为“第一类1G”。此时其判别准则为:以“第一类”投影后的重心点(即均值)(1)3Twx为中心,确定一个区间I(称为判别区间),对于任一给定的样品x,如果3TwxI,则判断样品1xG,否则判断样品2xG。我们为了能与Fisher投影有一致的判别准则,可以对“内聚外散”投影后的数据进行“折叠”处理,即以总体1G经投影后重心为中心,将数据往右“对折”。经“对折”后,判别准则可与Fisher投影的判别准则一致。四、改进的“内聚外散”投影思想同上,还是希望投影后的数据,属于第一类1G的样本聚集在一块,而不属于第一类2G的样本尽可以地分散,即所求的投影向量4w为:2411argmaxTTT,显然,4w为112EE的最大的特征值所对应的特征向量。此时判别准则同上,以“第一类”投影后的重心点(即均值)(1)4Twx为中心,确定一个区间I(称为判别区间),对于任一给定的样品x,如果4TwxI,则判断样品1xG,否则判断样品2xG。同样可以对投影后的数据进行“折叠”处理,则判别准则可与Fisher投影的判别准则一致。基于不同投影得到的判别方法是适用于不同的数据类型。Fisher投影判别在处理两个总体的样本数据均为高斯分布的时,效果好。而当两个总体的样本数据呈现一个集中,另一个相对分散时,“内聚外散”投影则具有更明显的优点。因此,可以说并没有一种能够适用于所有的数据类型的判别方法,下面我们将寻找一种组合方式,使得能够较好地适用于不同的数据类型做判别。2组合判别模型本文建立的组合判别模型拟将四种投影判别方法所得到的回代正确率作为权重,进行加权的判别方法:例如,设对某一待判样本x,两个总体1G,2G利用四个判别方法得到四个模型的回代正确率值分别为(1,2,3,4)tt,利用这些回代正确率值构成一个对x的最终判别结果,即x所属的类别1234(,,,)k,这种组合判别方法建立在对各个方向投影利用的基础上,它集多种单一判别模型所包含的信息,进行最优组合。因此,在大多数情况下,通过组合判别可以达到提高回代正确率的目的。值得注意的是,高维的样本数据经过不同的投影降到一维后,并不能直接加权组合,而是需要处理成具有统一的标准后才能进行组合的。我们采取的处理方式是:将总体1G经投影后重心(均值)落在“0”处,而总体2G的重心落在了“1”处。组合判别方法的算法如下:(Ⅰ)选好哪一类样本为指定的“第一类1G”,以两个个总体样本方差(取方差矩阵的行列式)大小来衡量它们的“集中”度,哪个方差行列式越小,就选择这一类为“第一类1G”;(Ⅱ)将两个总体分别进行四种投影变换,即总体(1,2)iGi分别向(1,2,3,4)twt上投影,即()()(1,2,,)iTijttjizwxjn,可得()()()()12iiiiitttntZzzz;(Ⅲ)对()(3,4)itZt做“对折”处理,即以(1)Ttwx为中心,整个数据向右折叠,得到新的()(3,4)itZt,然后对()(1,2,3,4)itZt作如下处理(对投影后的数据进行“压缩”或“扩展”,保证不同投影后的数据具有“一致性”):()(1)()(2)(1)(1,2,,)()iTjttijtiTtzwxyjnwxx即将投影后的1G的重心落在了“0”处,2G的重心落在了“1”处;(Ⅳ)建立组合判别模型:()()()()()11223344(1,2)iiiiiCYYYYi其中()()()()12(1,2,3,4)iiiiitttntYyyyt,(1,2,3,4)tt为权重,是四种投影方法得到的回代正确率;(Ⅴ)由此组合判别准则是:对于给定的任一样品x,经四次投影得到Tttywx,数据“对折”及重心“移动”处理后,得到(1,2,3,4)tYt,令11223344YYYYY,比较Y与“0”,“1”的距离,即0,1minaYbYa如果0b,则判断样品1xG,否则2xG3数据分析3.1实例分析对全国30个省市自治区1994年影响各地区经济增长差异的制度变量[3]:经济增长率(%)1x、非国有化水平(%)2x、开放度(%)3x、市场化程度(%)4x。第一组的样本方差矩阵行列式615.884510D,第二组的样本方差矩阵行列式821.321410D,故第一组样本确定为“第一类1G”,第二组样本确定为“第二类2G”。可以得到四个投影方向:10.00050.29120.34770.8912Tw20.01630.73850.47180.4814Tw30.95880.26520.03660.0955Tw40.95960.25720.03660.1082Tw将两组样本分别向1234,,,上投影,并对投影后的数据进行“对折”和重心“移动”处理,得到四组一维向量如表1所示。同时我们可以得到,四个投影判别的回代正确率分别是:12340.8148,0.7778,0.5556,0.5926,建立组合判别模型:12340.81480.77780.55560.5926Cyyyy易得,组合判别后的回代正确率为0.8519C。表1.四个方向投影后的数据Tab.1Thefourdirectionsprojectiondata序号1y2y3y4y原组别序号1y2y3y4y原组别10.56260.54470.06760.08301150.55460.49370.44760.5018220.23810.2116-0.1071-0.11471160.48910.42490.09630.1220230.14220.1147-0.0396-0.03841170.98470.7523-0.1011-0.1634240.06110.2258-0.1176-0.13221180.44440.44280.08520.1167250.14190.00020.08160.07541190.76950.53230.06790.0340260.01460.1553-0.0905-0.10081201.09
本文标题:距离判别是基于欧氏距离或马氏距离-将样品判断为与之距-…
链接地址:https://www.777doc.com/doc-7158822 .html