您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 应用多元统计分析SAS作业
5-9设在某地区抽取了14块岩石标本,其中7块含矿,7块不含矿。对每块岩石测定了Cu,Ag,Bi三种化学成分的含量,得到的数据如表1。表1岩石化学成分的含量数据类型序号CuAgBi类型序号CuAgBi含矿12.580.900.95不含矿82.251.981.0622.901.231.0092.161.801.0633.551.151.00102.331.741.1042.351.150.79111.961.481.0453.541.850.79121.941.401.0062.702.231.30133.001.301.0072.701.700.48142.781.701.48(1)假定两类样本服从正态分布,使用广义平方距离判别法进行判别归类(先验概率取为相等,并假定两类样本的协方差阵相等);(2)今得一块标本,并测得其Cu,Ag,Bi的含量分别为2.95,2.15和1.54,试判断该标本是含矿还是不含矿?问题求解1使用广义平方距离判别法对样本进行判别归类用SAS软件中的DISCRIM过程进行判别归类。SAS程序及结果如下。datad59;inputgroupx1-x3@@;cards;12.580.90.9512.91.23113.551.15112.351.150.7913.541.850.7912.72.231.312.71.70.4822.251.981.0622.161.81.0622.331.741.121.961.481.0421.941.41231.3122.781.71.48;procprintdata=d59;run;procdiscrimdata=d59pool=yesdistancelist;classgroup;varx1-x3;run;由输出结果可知,两总体间的广义平方距离为D2=3.19774。还可知两个三元总体均值相等的检验结果:D=3.19774,F=3.10891,p=0.07560.10,故在显著性水平=0.10时量总体的均值向量有显著差异,即认为讨论这两个三元总体的判别问题是有意义的。线性判别函数为:1231.110513.78958.212011.3311,28.737510.31398.990416.8578.YCuAgBiYCuAgBi判别结果为含矿的6号样本错判为不含矿;不含矿的13号样本错判为含矿。2对给定样本判别归类将Cu,Ag,Bi的含量数值2.95、2.15、1.54分别代入线性判别函数得:1244.674246.978882YY,。贝叶斯判别的解***1,,kDDD为*|()(),,1,,(1,,)ttjDXYXYXjtjktk,由于1244.6742246.97888YY,因此待判的样品判为不含矿。5-10已知某研究对象分为三类,每个样品考察4项指标,各类的观测样品数分别为7,4,6;类外还有3个待判样品(所有观测数据见表2)。假定样本均来自正态总体。表2判别分类的数据样品号X1X2X3X4类别号16.0-11.519.090.012-11.0-18.525.0-36.03390.2-17.017.03.024-4.0-15.013.054.0150.0-14.020.035.0260.5-11.519.037.037-10.0-19.021.0-42.0380.0-23.05.0-35.01920.0-22.08.0-20.0310-100.0-21.47.0-15.0111-100.0-21.515.0-40.021213.0-17.218.02.0213-5.0-18.515.018.011410.0-18.014.050.0115-8.0-14.016.056.01160.6-13.026.021.0317-40.0-20.022.0-50.031-8.0-14.016.056.0292.2-17.018.03.03-14.0-18.525.0-36.0(1)试用马氏距离判别法进行判别分析,并对3个待判样品进行判别归类。(2)使用其他的判别法进行判别分析,并对3个待判样品进行判别归类,然后比较之。问题求解1判别分析及判别归类使用SAS软件中的DISCRIM过程进行判别归类,SAS程序及结果如下。datad510;inputx1-x4group@@;cards;6-11.519901-11-18.525-36390.2-171732-4-15135410-14203520.5-11.519373-10-1921-4230-235-35120-228-203-100-21.47-151-100-21.515-40213-17.21822-5-18.51518110-1814501-8-14165610.6-1326213-40-2022-503-8-141656.92.2-17183.-14-18.525-36.;procprint;run;procdiscrimdata=d510simplepcovwsscppsscpwcovdistancelist;classgroup;varx1-x4;run;从结果来看,样本2、3类之间的马氏距离为d212=1.34,检验(2)(3)0:H的F统计量为0.63177,相应的p=0.6510.10,故在显著性水平=0.10时量总体2、3类的均值向量没有显著差异,即认为对讨论样本分为2、3类的判别问题是没有太大意义的。此外,判别结果中两个样本被判错归类:1类中8号样本应属于2类,2类中9号样本应属于1类;且待判得三个样本分别属于1,2,3类。2二次判别函数判别由第一问SAS运行结果可知三个总体的协方差阵不同,因此使用二次判别函数进行判别。此时贝叶斯判别的解***1,,kDDD为*|()(),,1,,(1,,)ttjDXZXZXjtjktk,其中02()ln()12lnln()2jjjjjjZXqfXdqSdX将第一问中SAS程序procdiscrimdata=d510后加入pool=no,使其采用二次判别函数进行再分类,变动部分程序如下:procdiscrimdata=d510simplepool=nodistancelist;程序运行结果如下图。由此可知,17个观测全部判别正确;待判的三个观测依次判归1,1,3类。5-11某城市的环保监测站与1982年在全市均匀地布置了14个监测点,每日三年次定时抽取大气样品,测量大气中的二氧化硫、氮氧化物和飘尘的含量。前后5天,每个取样点(监测点)每种污染元素实测15次,取15次实测值的平均作为该取样点的大气污染元素的含量(数据见表3)。表中最后一列给出的类号是使用第六章将介绍的聚类分析方法分析得到的结果(第1类为严重污染地区,第2类为一般污染地区,第3类为基本没有污染地区)。表3大气污染数据污染元素样品号二氧化硫(X1)氮氧化物(X2)飘尘(X3)类别10.0450.0430.265220.0660.0390.264230.0940.0610.194240.0030.0030.102350.0480.0150.106360.2100.0660.263170.0860.0720.274280.1960.0720.211190.1870.0820.3011100.0530.0600.2092110.0200.0080.1123120.0350.0150.1703130.2050.0680.2841140.0880.0580.2152150.1010.0520.181160.0450.0050.122(1)试用广义平方距离判别法建立判别准则(假设三个总体为多元正态总体,其协方差阵相等,先验概率取为各类样本的比例),并列出回判结果。(2)该城市另有两个单位在同一期间测定了所在单位大气中这三种污染元素的含量(见表3中最后两行),试用马氏距离判别方法判断这两个单位的污染情况属于哪一类。问题求解用SAS软件中的DISCRIM过程进行判别归类。datad511;inputx1-x3group@@;cards;0.0450.0430.26520.0660.0390.26420.0940.0610.19420.0030.0030.10230.0480.0150.10630.2100.0660.26310.0860.0720.27420.1960.0720.21110.1870.0820.30110.0530.0600.20920.0200.0080.11230.0350.0150.17030.2050.0680.28410.0880.0580.21520.1010.0520.181.0.0450.0050.122.;procprint;run;procdiscrimdata=d511simpledistancelist;classgroup;varx1-x3;run;由输出结果可知三个三元总体均值相等的检验结果中均满足p0.10,故在显著性水平=0.10时量总体的均值向量有显著差异,即认为讨论这三个三元总体的判别问题是有意义的。判别结果:14个监测点全部判对。且待判的两个观测点依次判归2,3类。
本文标题:应用多元统计分析SAS作业
链接地址:https://www.777doc.com/doc-7305165 .html