您好,欢迎访问三七文档
全国各省市关于行业就业人员工资总额的分析摘要:改革开放以来,中国经济社会的到了巨大的发展,老百姓的物质生活水平也日益提高。进入新世纪以来,各行业的从业人员的收入水平均有比较明显的提升。但不同行业之间收入的巨大差距和不同地区工资水平的巨大差异,也严重制约着我国经济社会的全面发展。本文以应用多元分析中的聚类分析为主要知识基础,spss和sas为主要分析工具,研究全国各省市关于行业就业人员工资总额的问题。希望通过此次数据上的研究探索,一方面可以增强自身对于书本知识的理解与运用,另一方面也是即将来临的大四毕业论文做好基础与寻求灵感。也从增加对于中国就业人员工资水平的认识,并希望在此社会问题中,做出自己身为统计学学生可以尽到的绵薄之力。关键词:应用多元分析、聚类分析、工资总额。具体数据如下:单位(亿元)X1:农林牧业x2:采矿业x3:制造业x4:资源供应业x5:建筑业x6:批发零售业x7:交通运输业region农林牧业采矿业制造业资源供应业建筑业批发零售业交通运输业北京15.756.1763.788.8302.2592.6422.2天津363.6768.344.1180.496.8118河北7.3175.5608.1125.3327.691.1128.7山西6.5694.4269.870.5157.769.4130.8内蒙古71.5150.2217.784.6138.645.9120.3辽宁30.2194.5821.187.4526.6112.5208.5吉林31.777.9409.374.3145.844.482.9黑龙江188.8213.6261.299.8181.974.1140.1上海7.70.61538.566.7241.8669.3394.1江苏19.881.73036.1176.51905.8318.6273浙江3.64.61650127.91259.8219.9198.5安徽12.2231.8531.386.7436.587.8103.5福建11.910.71091.763.3654.4121.7134.3江西15.334.9493.168.5339.260.8114.9山东7.2478.71807.5138.3769262274.9河南13318.91034.1131.9621.5176.3191.4湖北22.137.9815101.5594.5156.3164湖南4.957.5579.787381.989.4121.5广东15.520.34756.7286.4648.3491.2507.8广西20.916.9304.183.1221.353104海南9.43.743.611.630.341.631.6重庆445.6401.549.742896.9141.1四川12.9118.7916.6185.4624.7138.5224.7贵州5.284.4199.887.7164.262.258.6云南17.495.3299.966225.39989.2西藏1.23.44.85.375.14陕西9.5253.2476.669.4280.588.8124.5甘肃15.261.7182.157.617125.164.6青海4.732.253.311.631.79.427.7宁夏7.153.754.827.245.611.321.9新疆162.7161176.951.4271.841113.3系统聚类分析对上述数据进行系统的聚类分析,以下主要使用了最短距离法、重心法和Ward方法。(1)最短距离法;对于该方法,有,minKLKLijiGjGDd,计算新类和任一类之间的距离递推公式为,,,minminmin,minmin,MJKLMJMJijijijKJLJiGjGiGjGiGjGDdddDD通过sas进行聚类分析,得出:TheCLUSTERProcedureSingleLinkageClusterAnalysisEigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative13.680412352.521298870.52580.525821.159113490.253579470.16560.691430.905534010.131559810.12940.820740.773974200.429138890.11060.931350.344835310.231894650.04930.980660.112940660.089750680.01610.996770.023189980.00331.0000Thedatahavebeenstandardizedtomean0andvariance1TheCLUSTERProcedureSingleLinkageClusterAnalysisRoot-Mean-SquareTotal-SampleStandardDeviation1MeanDistanceBetweenObservations3.228709(2)重心法设GK和GL的重心分别为,则GK与GL之间的平方距离为合并GK和GL之后的新类GM的重心是其中nM=nK+nL为GM的样品个数。重心法的递推公式为同样通过sas有TheCLUSTERProcedureCentroidHierarchicalClusterAnalysisEigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative13.680412352.521298870.52580.52521.159113490.253579470.16560.69130.905534010.131559810.12940.820740.773974200.429138890.11060.931350.344835310.231894650.04930.980660.112940660.089750680.01610.996770.023189980.00331.0000KL和xx22KLKLKLKLDdxxxxxxKKLLMMnnnxxx22222KLKLMJKJLJKLMMMnnnnDDDDnnnThedatahavebeenstandardizedtomean0andvariance1TheCLUSTERProcedureCentroidHierarchicalClusterAnalysisRoot-Mean-SquareTotal-SampleStandardDeviation1Root-Mean-SquareDistanceBetweenObservations3.741657(3)Ward法定义GK和GL之间的平方距离为也可表达为同样由sas程序,可得出TheCLUSTERProcedureWard'sMinimumVarianceClusterAnalysisEigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative13.680412352.521298870.52580.525821.159113490.253579470.16560.691430.905534010.131559810.12940.820740.773974200.429138890.11060.931350.344835310.231894650.04930.980660.112940660.089750680.01610.996770.023189980.00331.00002KLMKLD2KLKLKLKLMnnDnxxxx1=112KLKLKLKKLMKLLKMnnnnnnnnnnnnnnn,当时,Thedatahavebeenstandardizedtomean0andvariance1TheCLUSTERProcedureWard'sMinimumVarianceClusterAnalysisRoot-Mean-SquareTotal-SampleStandardDeviation1Root-Mean-SquareDistanceBetweenObservations3.741657由上述3种分析方法,尤其树状图分析。在结合我们所拥有的实际知识可以可看出,相对于最小距离法和重心法而言,Ward法作出的聚类相对较为合理的反应了数据和现实情况。我们大致依据Ward方法所作出的树状图,将31个地区分成以下几类:第一类:北京、上海、江苏和广东。第二类:天津、重庆、江西、广西、湖南、吉林、云南、甘肃、贵州、内蒙古、海南、青海、宁夏、黑龙江、新疆。第三类:河北、安徽、陕西、辽宁、河南、浙江、四川、福建、湖北、山西、山东。总的来说,分类结果和现实经济社会发展情况是一致的。从分析结果看出,比如第一类分类,北京上海江苏广东这四省市的经济社会发展是出于全国领先的地位,而其工资就业总额也就随之较高。所以从分类中我们可以看出。地区职工工资总额是与地区的经济社会发展是相关的。另外,经济结构相对于比较多元的地区,其分类也相对靠前。动态聚类分析那么由上述方法进行的分类应该为:第一类:北京、上海。第二类:天津、河北、内蒙古、辽宁、吉林、安徽、福建、江西、湖南、湖北、广西、海南、重庆、四川、贵州、云南、西藏、陕西、甘肃、青海、宁夏第三类:黑龙江、新疆第四类:山西、山东、河南第五类:广东、江苏、浙江。总结:总的来说,对比系统聚类分析和动态聚类分析,我们会发现,其大体的分类是相近的。但结合我们的实际情况来看,我们不难发现,动态聚类分析的结果是相对较为合理的。对于第一类而言,北京上海是中国的经济文化中心,其产业反正也较为均衡,百姓涉及的行业较多,其工资收入也与之经济发展大环境吻合。而第二类来说,大多数是经济发展较为落后的地区。分类也较为准确的反应出其工资水平的问题。从分析结果我们大体可以得出这样的一个结论。各行业工资总额与当地经济社会发展水平,人口,产业链等息息相关。经济发展较为发达的东部沿海地区和北京上海此类的经济社会中心其工资总额水平处于较高的地位。而中西部等地,由于其经济发展的制约,和产业的相对单一,其职工工资总额相对较低。通过动态聚类分析所得出的结果,也非常明显的反应出这样的情况。参考文献:[1]王学民.上海财经出版社.《应用多元分析》.[2]胡良平.SAS统计分教程.[3]2014年度《中国统计年鉴》.[4]薛微.Spss统计分析方法及应用.
本文标题:多元统计分析小论文
链接地址:https://www.777doc.com/doc-2545840 .html