您好,欢迎访问三七文档
逐步判别分析一、逐步判别分析的基本思想在判别问题中,当判别变量个数较多时,如果不加选择地一概采用来建立判别函数,不仅计算量大,还由于变量之间的相关性,可能使求解逆矩阵的计算精度下降,建立的判别函数不稳定。因此适当地筛选变量的问题就成为一个很重要的事情。凡具有筛选变量能力的判别分析方法就统称为逐步判别法。逐步判别法和通常的判别分析一样,也有许多不同的原则,从而产生各种方法。这里讨论的逐步判别分析方法是在多组判别分析基础上发展起来的一种方法,判别准则为贝叶斯判别函数,其基本思路类似于逐步回归分析,采用“有进有出”的算法,即按照变量是否重要,从而逐步引入变量,每引入一个“最重要”的变量进入判别式,同时要考虑较早引入的变量是否由于其后的新变量的引入使之丧失了重要性变得不再显著了(例如其作用被后引入地某几个变量的组合所代替),应及时从判别式中把它剔除,直到判别式中没有不重要的变量需要剔除,剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束。也就是说每步引入或剔除变量,都作相应的统计检验,使最后的贝叶斯判别函数仅保留“重要”的变量。二、逐步判别的基础理论――对判别变量附加信息的检验根据逐步判别分析的基本思想,进行判别分析需要解决两个关键的问题,一个是引入或剔除判别变量的依据和检验问题;另外则是判别函数的及时导出的问题。其中的理论基础又在于如何对判别变量在区别各个总体中是否提供附加信息的检验。为此这里先给出如何对判别变量在区别各个总体中是否提供附加信息进行检验的基础理论。设有m个总体,mGGG21,,相应抽出样品个数为mnnn21,nnnnm)(21每个样品观测p个指标得观测数据如下,第1个总体的样本数据为:111111111111212222111211pnnnppxxxxxxxxx第2个总体的样本数据为:222222222222212222111211pnnnppxxxxxxxxx……第m个总体的样本数据为:mxmxmxmxmxmxmxmxmxpnnnppppp212222111211和多组判别分析一样,假定各组的样品都是相互独立的正态随机向量,各组的协方差矩阵都一样,即nkmNxxxkpkk,,;,,),(),,()()()(212121其中,)(kjx为组第k个样品的第j个变量,为组的均值向量,为协方差矩阵。再令全部样品的总均值向量为:),,(21pxxxX各个总体的样品的均值向量为:))(),(),((21pxxxXm,2,1于是,样品的组内离差阵为:))()(())()((11XxXxWimnii样品的总离差阵为:))(())((11XxXxTimnii为了对这m个总体建立判别函数,需要检验:)()()(:mH210当0H被接受时,说明区分这m个总体是没有什么意义的,在此基础上建立的判别函数效果不好。当0H被否定时,说明m个总体可以区分,建立的判别函数有意义。但是为了达到区分这m个总体的目的,原来选择的p个指标是否可以减少而达到同样的判别效果,为此,也就要去掉一些对区分m个总体不带附加信息的变量。对于上述问题的检验,可以采用维尔克斯统计量(Wilks)来进行:TW而ln121)(mpn的极限分布是服从于大样本的]1[2)(mp。为了进一步考虑这一问题,把p个变量分解为两个部分,如果通过某种步骤已经选中了1p个变量,我们要检验增加第p个变量后对区分总体是否提供了附加信息,即对第p个变量的“判别能力”进行检验。为此,将矩阵W、T进行分块:222111211111222111211111TTTTpTP于是前1p个变量的维尔克斯统计量(Wilks)1p为1p1111TW当增加第p个变量后,p个变量的维尔克斯统计量(Wilks)p为,2221121122211211TTTT1211121221112111212211TTTTT1211121221211121221TTTT所以有,1211121221211121221即12111212212111212212111212211统计量)()(1111mmpnFpp的极限分布是))(),((mpnmF11。用此F统计量来检验给定前1p个变量的条件下,增加第p个变量的条件均值是否相等,即是否对区分总体提供附加信息。三、引入和剔除变量的依据和检验统计量在上述理论基础上,下面给出,判别分析中引入变量和剔除变量的依据和检验方法。(1)假定我们已经计算了l步,并且已经引入了lxxx,,21,现对第1l步添加一个新变量rx的“判别能力”进行检验,为此将变量分为两组,第一组是前l个已经引入的变量,第二组仅有一个变量rx,将这1l个变量的组内离差阵和总离差阵仍分别记为W与T。2221121111)(11l其中,rrrrrr2221121111TTTTlTl)(11ltTTrr其中,rrrrrrTTTTTTTTlt11111121112122所以维尔克斯统计量)()()()(lrrlrrllrrlrrltwtTwWTW11111令ltlwVrrrrr,有rrllVV111由附加信息检验准则,则引入变量的依据是rV,引入变量的检验统计量为1111mmlnlwlwltmmlnVVFrrrrrrrrr它服从于分布mlnmF,1。在未选入变量中,选择使rV达到最小值的变量rx,当rF1mlnmF,1时,则认为变量rx提供了附加信息,即rx的判别能力显著,由此将rx作为入选变量1lx。对已入选的l个变量中,要考虑较早选入的变量中其重要性有没有较大变化,应及时把不能提供附加信息的变量剔除,剔除的原则同于引进变量。(2)如果第1l步是剔除变量lrxr1,第1l步剔除变量rx的能力等价于第l步引入rx的判别能力,令,lwltltlwVrrrrrrrrr11则相应的剔除变量的依据是rV,剔除变量的检验统计量为1)1(1)1(12mmlnltltlwmmlnVVFrrrrrrrrr它服从于分布mlnmF)1(,1。如果对于某个变量lrxr1,使得在已经入选的变量中的rV具有最大值,并且满足rF2mlnmF)1(,1,则认为变量rx不能提供附加信息了,即rx的判别能力不显著,由此应该将rx从入选变量中剔除。四、求解判别函数中的矩阵变换为求判别函数,逐步判别在计算上采用的是“求解求逆紧凑变换法”将变量逐步引入或剔除,每引入或剔除一个变量称为逐步判别的一步。设初始的组内离差矩阵为(0ijw),初始的总的离差矩阵为(0ijt),从它们开始,每步施行一次变换,假如已经进行了l步,引入了l个变量,则第1l步无论是引入还是剔除变量rx,都要进行如下的变化:rjriwwrjriwrjri,,,,,,,,)()()()()()()()()()(11rjrittrjritrjrittttrjritttlrrlirlrrlrrlrjlirlijlrrlijlij,,,,,,,,)()()()()()()()()()(11逐步判别过程,就是不断的引入和剔除变量的过程,可以证明,前三步都只引入,而不必考虑剔除,在以后的各步中则首先考虑剔除,如果不能剔除则再考虑引入,当既不能剔除又不能引入时,逐步计算的过程即告终止,将已选中的变量建立判别函数。五、建立判别式,对样品判别分类假设最终引入了l个变量,并得到最终变换矩阵lwij,则第k组的判别函数为:jjkjkokkxccqflnjmk;,2,1已入选变量。其中,式中的kq为第k组的先验概率,一般采用样品频率代替,ikiijkjxlwmncimk;,2,1已入选变量。ikikikxcc210imk;,2,1已入选变量kix为第k组第i个变量的均值。将每个样品),,(pxxx1(可以是新样品也可以是原来的样品)分别代入k个判别式中,若)(xgyxhymg1max,则x属于第h个总体。并且,此时的后验概率的计算和贝叶斯多组判别分析时一样。另外,为了对已经引入的L个变量对于区分m个组的能力进行综合检验,可采用不Bartlett给出的2分布近似统计量VmLnmLln)2/)(1())1((2其中V为Wilks统计量:)1()1()1()1()0()0()1(11100lrlrrrrrlltwtwtwV110,lrrr为逐次引入或剔除的变量序号。
本文标题:逐步判别分析
链接地址:https://www.777doc.com/doc-3685720 .html