您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业文化 > 判别分析(spss)
判别分析判别有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。判别分析(discriminantanalysis)这就是本章要讲的是判别分析。判别分析和前面的聚类分析有什么不同呢?主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。判别分析例子数据disc.sav:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。这些指标包括:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等等。另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。Disc.sav数据根据距离的判别法(不用投影)Disc.sav数据有8个用来建立判别标准(或判别函数)的(预测)变量,另一个(group)是类别。因此每一个企业的打分在这8个变量所构成的8维空间中是一个点。这个数据有90个点,由于已经知道所有点的类别了,所以可以求得每个类型的中心。这样只要定义了如何计算距离,就可以得到任何给定的点(企业)到这三个中心的三个距离。显然,最简单的办法就是离哪个中心距离最近,就属于哪一类。通常使用的距离是所谓的Mahalanobis距离。用来比较到各个中心距离的数学函数称为判别函数(discriminantfunction).这种根据远近判别的方法,原理简单,直观易懂。Fisher判别法(先进行投影)所谓Fisher判别法,就是一种先投影的方法。考虑只有两个(预测)变量的判别分析问题。假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图(下一张幻灯片)。这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是Fisher判别法。-4-20246-4-3-2-10123逐步判别法(仅仅是在前面的方法中加入变量选择的功能)有时,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。也就是,一边判别,一边引进判别能力最强的变量,这个过程可以有进有出。一个变量的判别能力的判断方法有很多种,主要利用各种检验,例如Wilks’Lambda、Rao’sV、TheSquaredMahalanobisDistance、SmallestFratio或TheSumofUnexplainedVariations等检验。其细节这里就不赘述了;这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。Disc.sav例子利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp),还剩下七个变量is,se,sa,prr,ms,msr,cs,得到两个典则判别函数(CanonicalDiscriminantFunctionCoefficients):0.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.385CS-3.1660.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.384这两个函数实际上是由Fisher判别法得到的向两个方向的投影。这两个典则判别函数的系数是下面的SPSS输出得到的:Disc.sav例子根据这两个函数,从任何一个观测值(每个观测值都有7个变量值)都可以算出两个数。把这两个数目当成该观测值的坐标,这样数据中的150个观测值就是二维平面上的150个点。它们的点图在下面图中。CanonicalDiscriminantFunctionCoefficients.035.0053.283.567.037.041-.007.012.068.048-.023.044-.385-.159-3.166-4.384IS企业规模SE服务SA雇员工资比例PRR利润增长MS市场份额MSR市场份额增长CS资金周转速度(Constant)12FunctionUnstandardizedcoefficientsCanonicalDiscriminantFunctionsFunction1100-10Function243210-1-2-3GROUPGroupCentroids321321Disc.sav例子从上图可以看出,第一个投影(相应于来自于第一个典则判别函数值,即横坐标值)已经能够很好地分辨出三个企业类型了。这两个典则判别函数并不是平等的。其实一个函数就已经能够把这三类分清楚了。SPSS的一个输出就给出了这些判别函数(投影)的重要程度:Eigenvalues26.673a99.099.0.982.262a1.0100.0.456Function12Eigenvalue%ofVarianceCumulative%CanonicalCorrelationFirst2canonicaldiscriminantfunctionswereusedintheanalysis.a.前面说过,投影的重要性是和特征值的贡献率有关。该表说明第一个函数的贡献率已经是99%了,而第二个只有1%。当然,二维图要容易看一些。投影之后,再根据各点的位置远近算出具体的判别公式(SPSS输出):Disc.sav例子具体的判别公式(SPSS输出),由一张分类函数表给出:ClassificationFunctionCoefficients.118.338.554.77021.32941.616.345.542.811.086.029-.001.355.7431.203.368.173.0817.5315.2202.742-57.521-53.704-96.084ISSESAPRRMSMSRCS(Constant)1.002.003.00GROUPFisher'slineardiscriminantfunctions该表给出了三个线性分类函数的系数。把每个观测点带入三个函数,就可以得到分别代表三类的三个值,哪个值最大,该点就属于相应的那一类。当然,用不着自己去算,计算机软件的选项可以把这些训练数据的每一个点按照这里的分类法分到某一类。当然,我们一开始就知道这些训练数据的各个观测值的归属,但即使是这些训练样本的观测值(企业)按照这里推导出的分类函数来分类,也不一定全都能够正确划分。Disc.sav例子下面就是对我们的训练样本的分类结果(SPSS):ClassificationResultsb,c300030030030003030100.0.0.0100.0.0100.0.0100.0.0.0100.0100.0300030030030003030100.0.0.0100.0.0100.0.0100.0.0.0100.0100.0GROUP1.002.003.001.002.003.001.002.003.001.002.003.00Count%Count%OriginalCross-validateda1.002.003.00PredictedGroupMembershipTotalCrossvalidationisdoneonlyforthosecasesintheanalysis.Incrossvalidation,eachcaseisclassifiedbythefunctionsderivedfromallcasesotherthanthatcase.a.100.0%oforiginalgroupedcasescorrectlyclassified.b.100.0%ofcross-validatedgroupedcasescorrectlyclassified.c.误判和正确判别率从这个表来看,我们的分类能够100%地把训练数据的每一个观测值分到其本来的类。该表分成两部分;上面一半(Original)是用从全部数据得到的判别函数来判断每一个点的结果(前面三行为判断结果的数目,而后三行为相应的百分比)。下面一半(Crossvalidated)是对每一个观测值,都用缺少该观测的全部数据得到的判别函数来判断的结果。这里的判别结果是100%判别正确,但一般并不一定。Disc.sav例子如果就用这个数据,但不用所有的变量,而只用4个变量进行判别:企业规模(is)、服务(se)、雇员工资比例(sa)、资金周转速度(cs)。结果的图形和判别的正确与否就不一样了。下图为两个典则判别函数导出的150个企业的二维点图。它不如前面的图那么容易分清楚了CanonicalDiscriminantFunctionsFunction186420-2-4-6-8Function23210-1-2-3-4GROUPGroupCentroids321321CanonicalDiscriminantFunctionsFunction1100-10Function243210-1-2-3GROUPGroupCentroids321321原先的图Disc.sav例子下面是基于4个变量时分类结果表:•这个表的结果是有87个点(96.7%)得到正确划分,有3个点被错误判别;其中第二类有两个被误判为第一类,有一个被误判为第三类。ClassificationResultsb,c300030227130003030100.0.0.0100.06.790.03.3100.0.0.0100.0100.0300030227130003030100.0.0.0100.06.790.03.3100.0.0.0100.0100.0GROUP1.002.003.001.002.003.001.002.003.001.002.003.00Count%Count%OriginalCross-validateda1.002.003.00PredictedGroupMembershipTotalCrossvalidationisdoneonlyforthosecasesintheanalysis.Incrossvalidation,eachcaseisclassifiedbythefunctionsderivedfromallcasesotherthanthatcase.a.96.7%oforiginalgroupedcasescorrectlyclassified.b.96.7%ofcross-validatedgroupedcasescorrectlyclassified.c.判别分析要注意什么?训练样本中必须有所有要判别的类型,分类必须清楚,不能有混杂。要选择好可能用于判别的预测变量。这是最重要的一步。当然,在应用中,选择的余地不见得有多大。要注意数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适宜的;这可以用单变量方差分析(ANOVA)和相关分析来
本文标题:判别分析(spss)
链接地址:https://www.777doc.com/doc-3976433 .html