您好,欢迎访问三七文档
判别分析的基本原理和模型一、判别分析概述(一)什么是判别分析判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。常用的有,距离准则、Fisher准则、贝叶斯准则等。判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。(二)判别分析的种类按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。二、判别分析方法(一)距离判别法1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第i类的重心距离最近,就认为它来自第i类。因此,距离判别法又称为最邻近方法(nearestneighbormethod)。距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。2.两组距离判别两组距离判别的基本原理。设有两组总体BAGG和,相应抽出样品个数为21,nn,nnn)(21,每个样品观测p个指标得观测数据如下,总体AG的样本数据为:AxAxAxAxAxAxAxAxAxpnnnpp111212222111211该总体的样本指标平均值为:AxAxAxp21,总体BG的样本数据为:BxBxBxBxBxBxBxBxBxpnnnpp222212222111211该总体的样本指标平均值为:BxBxBxp21,现任取一个新样品X,实测指标数值为X=(pxxx,,,21),要求判断X属于哪一类?首先计算样品X与AG、BG两类的距离,分别记为AGXD,、BGXD,,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;如果样品距离两类的距离相同,则暂不归类。判别准则写为:AGX,如果AGXD,BGXD,,BGX,如果AGXD,BGXD,,X待判,如果AGXD,BGXD,。其中,距离D的定义很多,根据不同情况区别选用。如果样品的各个变量之间互不相关或相关很小时,可选用欧氏距离。采用欧氏距离时,AGXD,=pAxx12))((BGXD,=pBxx12))((然后比较AGXD,和BGXD,的大小,按照距离最近准则判别归类。但实际应用中,考虑到判别分析常涉及到多个变量,且变量之间可能相关,故多用马氏距离。马氏距离公式为:AAAAXXSXXGXd12,BBBBXXSXXGXd12,其中AX、BX、AS、BS分别是AG、BG的均值和协方差阵。这时的判别准则分两种情况给出:(1)当AS=BS=S时ABGXdGXd,,22=AAABBBXXSXXXXSXX11=BABAXXSXXX1212令BAXXX21,同时记XW2)),(),((22ABGXdGXd则BAXXSXXXW1所以判别准则写成:AGX,如果0XW,BGX,如果0XW,X待判,如果0XW。该规则取决于XW的值,因此XW被称为判别函数,也可以写成:XXXW,其中BAXXS1。XW被称为线性判别函数。作为特例,当1p时,两个总体的分布分别是21,N和22,N,判别函数为2122112XXW或2122112xxsxxXXW(使用样本资料代替总体参数时)不妨设21,这时XW的符号取决于X或X。X时,判AGX;X时,判BGX。两组距离判别法,简单容易理解,判别准则也是合理的,但是有时也会出现错判。如下图6.1,如果X来自AG,但却落入2D,被错判为BG组,错判的概率为图中阴影的面积,记为)1/2(P,类似有)2/1(P,显然)1/2(P=)2/1(P=)2(121。图6.1当两总体靠的比较近时,即两总体的均值差异较小的时候,无论用何种判别方法,错判的概率都比较大,这时的判别分析也是没有意义的。因此只有当两总体的均值有显著差异时,进行判别分析才有意义,为此,要对两总体的均值差异性进行检验,对此在下文中叙述。(2)当ASBS时按照距离最近准则,类似地有:AGX,如果AGXD,BGXD,,BGX,如果AGXD,BGXD,,X待判,如果AGXD,BGXD,。仍然用)(XWBGXd,2AGXd,2BBBXXSXX1AAAXXSXX1作为判别函数,此时的判别函数是X的二次函数。(3)关于两组判别分析的检验由于判别分析是假设两组样品是取自不同总体,如果两个总体的均值向量在统计上差异不显著,则进行判别分析意义不大。所以,两组判别分析的检验,实际就是要经验两个正态总体的均值向量是否相等,为此,检验的统计量为:1,~2122122121pnnpFTpnnpnnF其中:)()()()(2212112121212BXAXnnnnSBXAXnnnnnnTBASSS给定检验水平,查F分布表使FF,可得出F,再由样本值计算F,若FF,则否定原假设,认为两个总体的均值向量在统计上差异显著,否则两个总体的均值向量在统计上差异不显著。3、多个总体的距离判别法类似两个总体的讨论推广到多个总体。设有k个总体kGG1,相应抽出样品个数为knn1nnnk)(1,每个样品观测p个指标得观测数据如下,总体1G的样本数据为:111111111111212222111211pnnnppxxxxxxxxx该总体的样本指标平均值为:11,121pxxx总体kG的样本数据为:kxkxkxkxkxkxkxkxkxpnnnpp222212222111211该总体的样本指标平均值为:kxkxkxp21,它们的样本均值和协方差阵分别为:1XkX、1SkS。一般的,记总体的样本指标平均值为:)(iX(ixixixp21,),ki2,1。(1)当1SSSk时此时iiiiXXSXXGXd12,,ki2,1判别函数为)],(),([2122ijijGXdGXdXWjijiXXSXXX212,kji2,1,相应的判别准则为:iGX,当0XWij时,对于一切ij待判,若有一个0XWij(2)当1SkS不相等时此时判别函数为iiijjjjiXXSXXXXSXXXW11相应的判别准则为:iGX,当0XWij时,对于一切ij待判,若有一个0XWij(二)费舍判别法费舍判别法是1936年提出来的,该方法对总体分布未提出什么特定的要求。1.基本思想费舍判别法是基于统计上的费舍准则,即判别的结果应该使两组间区别最大,使每组内部离散性最小。在费舍准则意义下,确定线性判别函数:ppxcxcxcy2211其中pccc21,为待求的判别函数的系数。判别函数的系数的确定原则是使两组间区别最大,使每组内部离散性最小。有了判别函数后,对于一个新的样品,将p个指标的具体数值代入判别式中求出y值,然后与判别临界值进行比较,并判别其应属于哪一组。2.两组判别分析(1)方法原理设有两组总体BAGG和,相应抽出样品个数为21,nnnnn)(21,每个样品观测p个指标得观测数据如下,总体AG的样本数据为:AxAxAxAxAxAxAxAxAxpnnnpp111212222111211第1个总体的样本指标平均值为:AxAxAxp21,总体BG的样本数据为:BxBxBxBxBxBxBxBxBxpnnnpp222212222111211第2个总体的样本指标平均值为:BxBxBxp21,根据判别函数,用pkkkAxcAy1表示AG组样品的重心,以pkkkBxcBy1表示BG组样品的重心。则两组之间的离差用2ByAy来表示,AG、BG内部的离差程度分别用112nniAyAy和212nniByBy来表示,其中pkikkiAxcAy1;pkikkiBxcBy1。根据费舍准则,要使判别的结果满足两组间区别最大,每组内部离散性最小。则判别函数的系数pccc21,应该能够使:1211222niniiiByByAyAyByAyI取得最大值。(2)判别系数的导出令Q2ByAyF112nniAyAy+212nniByByFQI根据数学分析求极值的原理,对上式两边取对数:LnFLnQLnI令pkcLnFcLnQcLnIkkk2,10则011kkcFFcQQ即kkcFcQQFkkcFcQI1而2ByAyQ=211pkpkkkkkBxcAxc21pkkkkBxAxc令BxAxdk有21pkkkdcQ则有kplllkddccQ)(21而F112nniAyAy+212nniByBy=2111211121nipkpkkkikknipkpkkkikkBxcBxcAxcAxc=21121121)()(nipkkikknipkkikkBxBxcAxAxc=1111)()(nipklillpkkikkAxAxcAxAxc+2111)()(nipklillpkkikkBxBxcBxBxc=AxAxAxAxcclilpkplnikiklk1111[+BxBxBxBxlilnikik21]令klS=AxAxAxAxlilnikik11+BxBxBxBxlilnikik21有pkplkllkSccF11则有plkl
本文标题:判别分析的基本原理
链接地址:https://www.777doc.com/doc-4668925 .html