您好,欢迎访问三七文档
第三章判别分析判别分析(discriminantanalysis)是研究判断个体所属类型的一种统计方法。判别分析的应用十分广泛。如判别产品质量的等级;判断一个国家的经济发展程度;判断该地的矿物类型;判断病人患哪种疾病;判断明天是晴、多云或有雨等等。判断分析所处理的问题往往是包含大量的数据资料,且其数量指标往往是多元的。判别分析是一种有效的多元数据分析方法,它能科学地判断得到的样品属于什么类型,揭示内在的规律,做出正确的判断。判别分析的模型如下:设有k个总体G1,…,Gk,都是p元总体,其数量指标是设Gi的分布函数Fi(x),概率密度fi(x)=fi(x1,x2,…,xp)。对任一样品x=(x1,x2,…,xp)T,判断它来自哪个总体。X=(X1,X2,…,Xp)T由于判别准则不同,则有不同的判别分析方法,本章主要介绍距离判别、Bayes判别和Fisher判别。一、两个总体的情况设有两个总体G1和G2,x=(x1,x2,…,xp)是一个样品,若能定义x到G1和G2的距离d(x,G1)和d(x,G2),则判别规则为§3.1距离判断1221212(,)(,),(,)(,),(,)(,)xGdxGdxGxGdxGdxGdxGdxG1,若若待判若定义3.1设x,y是从均值向量为、协方差矩阵为的总体G中抽取的两个样品,则x,y两点之间的马氏距离平方是21(,)()()Tdxyxyxy定义3.1设x,y是从均值向量为、协方差矩阵为的总体G中抽取的两个样品,则x,y两点之间的马氏距离平方是21(,)()()Tdxyxyxy21(,()()TdxGxx)又定义x与总体G的马氏距离平方是当两总体G1和G2的均值向量分别为(1)和(2),协方差矩阵均为1和2,则2(1)1(1)112(2)1(2)22(,()()(,()()TTdxGxxdxGxx))当两总体G1和G2的均值向量分别为(1)和(2),协方差矩阵均为1和2,则2(1)1(1)112(2)1(2)22(,()()(,()()TTdxGxxdxGxx))若1=2=,则12(),1,2TixxYxi2(,)idxG()1()()()iTixx11()()1()2[/2]TTiiTixxx其中1.两个总体协方差矩阵相等的情况1()()1()()/2]TiiTiiYxxTiiaxb是x的线性函数,称为线性判别函数。判别准则为1221212()(),()(),()()xGYxYxxGYxYxYxYx1,若若待判若12(),1,2TixxYxi2(,)idxG()1()()()iTixx11()()1()2[/2]TTiiTixxx其中1()()1()()/2]TiiTiiYxxTiiaxb其中(1)(2)1()2=1(1)(2)()a12,()0,()0,()0xGWxxGWxWx若 若待判若若记()()TWxax其中W(x)也是线性函数。(1)(2)12()()Tx实际上,这种情况还可以进一步简化为2221(,)(,)dxGdxG判别规则:1(1)(1)(1)111ˆ,niixxn12(1)(1)(1)(2)(2)(2)1212,,...,;,,...,nnxxxxxx2(2)(2)(2)121ˆniixxn当,(1),(2)未知时,用样本估计。设来自两个总体的样本,均值和协方差矩阵的估计为12(1)(1)(1)(1)111(2)(2)(2)(2)2121()()11()()1nTiiinTiiiSxxxxnSxxxxn122212(1)(1)ˆ2nSnSSnn当∑1=∑2=∑时,的无偏估计为此时为非线性判别。2.两个总体协方差矩阵不等的情况:∑1≠∑22(1)1(1)1112(2)1(2)222(,)()()(,)()()TTdxGxxdxGxx判别准则为2212222122212(,)(,),(,)(,),(,)(,)xGdxGdxGxGdxGdxGdxGdxG1,若若待判若当1,2,1,2未知时的样本估计为(1)(2)12,,,xxSS二、判别准则的评价当一个判别法则提出以后,还要研究其优良性。考察一个判别法则的优良性,要考察误判率,即考察x属于G1而误判为属于G2或x属于G2而误判为属于G1的概率。1.误差率回代估计法12(1)(1)(1)(2)(2)(2)1212,,...,;,,...,nnxxxxxx设分别是来自两个总体的样本,将每个样品进行回代判别,其判别结果如下表:回判情况实际归类G1G2G1G2n11n12n21n221.误差率回代估计法12(1)(1)(1)(2)(2)(2)1212,,...,;,,...,nnxxxxxx设分别是来自两个总体的样本,将每个样品进行回代判别,其判别结果如下表:回判情况实际归类G1G2G1G2n11n12n21n22其中n11+n12=n1,n12为样品属于G1而误判为G2的个数;n21+n22=n2,n21为样品属于G2而误判为G1的个数.误判率的回代估计为122112ˆnnann2.误判率的交叉确认估计误判率的交叉确认估计是每次剔除样本中的一个样品,利用其余n1+n2-1样品建立判别准则,再用所建立的判别准则对删除的那个样品作判别.对样本中的每个样品作上述分析,以其误判比例作为误判概率的估计。设G1的n1个样品中,有n*12个样品被误判;G2的n*21个样品被误判。则误判率的交叉确认估计为***122112nnannSAS系统可以计算误判率的交叉确认估计。例3.1马尾松苗紫化病是一种生理性病害,现从病苗(紫化苗)中选取12株,健苗中选取8株分别测定其每平方厘米叶片所含5种元素的微克数,其数据见表3.1,试据此作距离判别分析。表3.1马尾松苗数据G1:健苗G2:紫花苗序号x1x2x3x4x5序号x1x2x3x4x51234567812.50.65.20.10.512.10.87.80.20.411.10.65.20.20.79.40.66.10.10.67.00.55.20.20.48.40.54.30.10.47.10.56.10.10.511.20.74.90.10.512345678910111212.10.42.80.20.612.80.52.80.10.511.40.54.90.40.88.50.45.00.30.610.00.44.20.20.79.40.43.90.20.68.60.42.20.20.77.10.43.40.30.49.50.34.20.70.87.80.44.00.20.77.00.42.70.20.77.50.32.20.30.6解SAS程序:dataex3_1;inputgroup$x1-x5@@;cards;a12.50.65.20.10.5………………………….a11.20.74.90.10.5b12.10.42.80.20.6……………b7.50.32.20.30.6;数据步procdiscrimdata=ex3_1pool=testslpool=0.1method=normaldistancesimplelistcrosslisterrwcovpcov;classgroup;varx1-x5;run;说明:pool=test检验方差阵相等(或=yes或=no);slpool=0.1指定显著性水平,仅与pool=test匹配;method=normal(或npar非参数方法)前者为缺省;distance输出各组间距离并进行检验,理论从略;simple输出简单统计量;过程步crosslisterr输出交叉确认法误判率信息;list输出每个样品的判别结果;wcov输出各类的组内协差阵;pcov输出联合协方差矩阵。输出结果:(1)简单统计量(2)协方差矩阵(3)协方差矩阵是否相等的检验检验结果不显著(p=0.73410.1),即两总体的协方差矩阵相等。(4)类间距离的检验检验结果显著(p=0.0007),两总体间差异显著。(5)线性判别函数W1(x)=-41.05361–0.74441x1+100.24194x2+1.39795x3+4.56860x4+41.67557x5W2(x)=-30.81622+0.11215x1+67.67498x2-0.28010x3+12.18045x4+48.55509x5(6)样品回判结果(7)回判结果概要与误判率(8)交叉确认回判结果概要与误判率协方差矩阵分别为1,2,…,k。类似两总体距离判别,计算新样品到各总体的马氏距离,距离最短者属于响应的总体。三、多个总体的距离判断设有k个总体G1,G2,…Gk,均值向量分别为1,2,….,k任取两个总体Gi,Gj,考察x到Gi,Gj的马氏距离的平方差22(,)(,)2(()())jijidxGdxGWxWx1.总体协方差矩阵相等其中:11111(),,21(),,2TTiiiiiiiiTTjjjjjjjjWxaxbabWxaxbab01()max()jjjkWxWx2222(,)(,)()()(,)(,)()()jiijjiijdxGdxGWxWxdxGdxGWxWx这样,得到多总体在总体协方差矩阵相等时的距离判别准则:若总体Gj0满足22(,)(,)2(()())jijidxGdxGWxWx易见则判定x属于Gj0。()()11ˆ,1,2,...,jnjjjiijxxjkn()()()12,,...,,1,2,...,jjjjnxxxjk当总体均值j和协方差矩阵未知时,用样本估计。设是来自总体Gj的样本,均值和协方差矩阵的估计为()()()()11211()(),1,2,...,11ˆ(1),...jnjjjjTjiiijkjjkjSxxxxjknnSnnnnnk2.总体协方差矩阵∑j不全相等21(,)()(),1,2,...,TjjjjdxGxxjk计算x至各总体Gj的马氏平方距离22()(,),1,2,...,jjdxdxGjk记二次判别函数0221()min()jjjkdxdx判别准则:若总体Gj0满足则判定x属于Gj0。()()11ˆ,1,2,...,jnjjjiijxxjkn当总体均值j和协方差矩阵j未知时,用样本估计。其估计值为()()()()11()(),1,2,...,1jnjjjjTjiiijSxxxxjkn对多总体的距离判别,同两总体情况一样,做出误判率的回代估计及交叉确认估计。3.2贝叶斯(Bayes)判别Bayes统计思想是假定对研究对象已有一定的认识,常用先验概率分布来描述这种认识。然后取得一个样本,用样本来修正已有的认识(先验概率分布)得后验概率分布,各种统计推断都通过后验概率分布来进行。将Bayes统计思想用于判别分析就得到Bayes判别。设有k个总体G1,G2,…,Gk分别具有p维密度函数f1(x),f2(x),…,fk(x),已知出现这k个总体的先验概率为q1,q2,…,qk(q1+q2+…+qk=1),我们希望建立判别函数和判别规则。用D1,D2,…,Dk表示p维欧氏空间RP的一个划分,即D1,D2,…,Dk互不相交,且D1∪D2∪…∪Dk=RP。如果这个划分取得适当,正好对应于这k个总体,这时判别规则可以采用如下办法:设有k个总体G1,G2,…,Gk分别具有p维密度函数f1(
本文标题:第三章-判别分析
链接地址:https://www.777doc.com/doc-2345524 .html