您好,欢迎访问三七文档
例:人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。衡量人生的三大要素的指标分别为:实际人均GDP指数、出生时的预期寿命指数、受教育程度指数(由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。今从2007年世界各国人文发展指数(2005年)的排序中,选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品,另选四个国家作为待判样品,资料如下表所示。试用判别分析过程对以下数据资料进行判别分析,并据此对待选的四个国家进行判别归类。国家人均GDP(美元)出生时的预期寿命(岁)成人识字率(%)初等、中等和高等教育入学率(%)第一类:高发展水平国家美国4189077.999.593.3德国2946179.199.288希腊2338178.99699新加坡2966379.492.587.3意大利2852980.398.490.6韩国2202977.99996第二类:中等发展水平国家古巴600077.799.887.6罗马尼亚906071.997.376.8巴西840271.788.687.5泰国867769.692.671.2菲律宾51377192.681.1土耳其840771.487.468.7第三类:低发展水平国家尼泊尔155062.648.658.1尼日利亚112846.569.156.2喀麦隆229949.867.962.3巴基斯坦237064.649.940越南307173.790.363.9印度尼西亚384369.790.468.2待判组日本3126782.39985.9印度345263.76163.8中国675772.590.969.1南非1111050.882.477datadevelop;inputtypegdpliferatezhrate@@;cards;14189077.999.593.312946179.199.28812338178.9969912966379.492.587.312852980.398.490.612202977.999962600077.799.887.62906071.997.376.82840271.788.687.52867769.692.671.2251377192.681.12840771.487.468.73155062.648.658.13112846.569.156.23229949.867.962.33237064.649.9403307173.790.363.93384369.790.468.2.3126782.39985.9.345263.76163.8.675772.590.969.1.1111050.882.477;procdiscrimsimplewcovdistancelist;/*simple:要求技术各类样品的简单描述统计量;选项WCOV要求计算类内协方差阵;选项DISTANCE要求计算马氏距离;选项LIST要求输出重复替换归类结果。由于没有给出方法选项,所以系统按缺省时的正态分布进行有关参数的估计和归类。*/classtype;vargdpliferatezhrate;run;procdiscrimpool=testslpool=0.05list;/*simple:*/classtype;priors'1'=0.3'2'=0.4'3'=0.3;run;procdiscrimmethod=npark=2list;/*simple:*/classtype;run;proccandiscout=resultncan=2;/*simple:*/classtype;vargdpliferatezhrate;run;procgplotdata=reult;plotcan1*can2=type;run;procdiscrimdata=resultdistancelist;classtype;varcan1can2;run;表1已知样本分类水平信息表2样本统计量信息表3类间距离及三类总体均值差异的显著性检验表3给出了类1与类2之间的马氏距离为37.58288,类1与类3之间的马氏距离为75.97603,类2与类3之间的马氏距离为10.91428.类与类之间总体均值的F检验统计量值分布为22.54978,45.58562,22.54973,对应的检验概率分别为0.0001,0.0001,0.0001,说明三类总体均值两辆之间的差异是显著的,因此判别分析有意义。表4线形判别函数由表4可写出线形判别函数如下:高发展水平:y1=-157.18932+0.00204gdp+1.66582life-0.37085rate+1.72851zhrate中等发展水平Y2=-99.12840+0.0006250gdp+1.49389life-0.09262rate+1.19559zhrate低发展水平:Y3=-62.22473+0.0002576gdp+1.31631life-0.08940rate+0.85253zhrate表5:用距离判别法判别分析结果由表5得,最后四个观测的归类结果为19号(日本)观测为高发展水平国家,第20号(印度)为第3类,即低发展水平国家,21号(中国)和22号(南非)归为中等发展水平国家。表6距离判别法判别分析结果小结表6给出了分类错误信息,由输出结果可知分类错误的比率为0,即正确的比率为100%。本程序中第二个判别分析过程的选项“pool=test”,要求进行类内协方差阵一致性检验,检验的显著性水平由选项”slpool=0.05”给出为0.05.priors语句给出了各发展水平国家的先验概率。表7分类信息及类内协方差阵一致性检验结果表7表明3个类的先验概率分别为0.3,0.4,0.3,类内协方差阵行列式的自然对数不相等,表明类内协方差阵不相等,而卡方统计量值为46.068898,对应的概率是0.0008,在0.05的显著性水平下是显著的,即类内协方差阵存在显著差异。由于类内协方差阵不等,所以判别函数应是二次函数。表8类间配对广义马氏距离由表8可知,类内广义马氏距离不再为0,而且类间的广义马氏距离也不再相等,因而类内协方差和先验概率对后验概率的计算是起作用的。表9用Bayes判别法得到的判别分析部分结果由表9可知,用BAYES判别法对待判样品的判别结果与距离判别法结果一致。本程序中的第三个过程要求进行非参数分析,即对类密度函数进行非参数估计。选项K=2要求用最近邻的两个样品进行密度函数估计,选项list要求输出重复替换归类结果。该过程运行结果如下:表10用NPAR方法得到的判别分析部分结果由表10可知,4个待判的样品中19号和21号归类结果与BAYES判别归类结果是一致的,但20号和22号所属类别则不能确定,这是与前面2中判别方法结果不一致的地方。第四种FISHER判别:第一个过程执行典型判别分析。第二个过程要求绘制第一个典型变量CAN1和第二个典型变量CAN2的散点图,以便更加直观了解分类情况。第一、二个过程输出结果如下:表11典型相关的多变量检验结果由上表对相关阵的显著性检验结果可知,至少有表12典型相关与特征值上表可知,第一典型相关为0.969875,而第二典型相关为0.653396。第一个特征值为15.8514,所占比例为95.51%,第二个特征值为0.7450,所占比例仅有4.49%,说明只需用第一个典型变量即可。表13原始变量的典型相关系数由表12可得两个典型变量分别为:CAN1=0.0002096544gdp+0.0382960552life-0.0346472260rate+0.0988009134zhrateCan2=-0.0001135485gdp+0.0394378902life+0.0500655661rate+0.0390500134zhrate表14类间马氏距离及各类总体均值的显著性检验由上表的显著性概率可知,在0.05的显著性水平下,三个类的总体均值两两显著不等。表15线性判别函数由表15得3个类的线形判别函数分别为:第一类:Y1=-12.01131+4.88922can1-0.34378can2第二类:Y2=-1.16768-1.07130can1+1.08981can2第三类:y3=-7.56654-3.81792can1-0.74604can2表16由DISCRIM利用两个典型变量进行判别部分样品归类结果上表分类结果与前几种分类方法结果一样,总错判率为0.
本文标题:判别分析实例
链接地址:https://www.777doc.com/doc-5109892 .html