您好,欢迎访问三七文档
1课程设计说明书课程设计:题目:我国各地区城镇居民消费性支出的主成分分析2理学院数学系学号学生姓名专业(班级)设计题目我国各地区城镇居民消费性支出的主成分分析设计目的与要求通过本课程设计进一步熟悉多元统计分析的下列内容:方差分析;因子分析;主成分分析;聚类分析;回归分析;时间序列分析。要求能熟练应用SPSS软件对实际问题进行多元统计分析。。设计具体内容根据多元统计分析的原理和方法,借助SPSS软件,对我国各地区城镇居民消费性注册问题进行了主成分分析,并讨论和研究分析过程中出现的问题,最后对结果进行了统计分析和解释。工作量题目分析,总体设计,算法设计,编程与调试,结果分析。工作计划1月1日——题目分析;1月2~4日——总体设计;1月5~8日——算法设计与编程,调试和结果分析;1月9~10日——撰写课程设计说明书。参考资料1.汪冬华.多元统计分析与SPSS应用,华东理工大学出版社,上海:2011;2.杨维忠.SPSS统计分析与行业应用,清华大学出版社,北京:2011;3.罗志辉.SPSS19统计分析教程,电子工业出版社,北京:2013;4.何晓群.多元统计分析,高等教育出版社,北京:2013;5.谢中华.MATLAB统计分析与与案例分析,清华大学出版社:北京:2012。指导教师签字系主任签字3课程设计(论文)成绩评定表学生姓名:学号:专业班级:课程设计题目:我国各地区城镇居民消费性支出的主成分分析指导教师评语:该生在学习期间能够认真钻研教材,积极掌握所学知识,把握教学重点、难点,虚心好学,能够按照此次要求完成全部任务。此外,该生具备一定的调查能力、研究分析能力,能够实际动手实践解决问题,该课程设计需要查阅资料,并掌握学习运用SPSS等相关软件,该生的报告文字通顺,内容详实,结构合理,符号统一,图标符合规范要求,并得出结论与心得,总体表现良好。成绩:一、问题描述1999年全国31个省、直辖市和自治区(港、澳、台不在其中)的城镇居民家庭平均每人全年消费性支出的八个主要变量数据。这八个变量是:1x:食品5x:交通和通讯2x:衣着6x:娱乐教育文化服务3x:家庭设备用品及服务7x:居住4x:医疗保健8x:杂项商品和服务地区1x2x3x4x5x6x7x8x北京2959.19730.79749.41513.34467.871141.82478.42457.64天津2459.77495.47697.33302.87284.19735.97570.84305.08河北1495.63515.90362.37285.32272.95540.58364.91188.63山西1406.33477.77290.15208.57201.50414.72281.84212.10内蒙古1303.97524.29254.83192.17249.81463.09287.87192.96辽宁1730.84553.90246.91279.81239.18445.20330.24163.86吉林1561.86492.42200.49218.36220.69459.62360.48147.76黑龙江1410.11510.71211.88277.11224.65376.82317.61152.85上海3712.31550.74893.37346.93527.001034.98720.33462.03江苏2207.58449.37572.40211.92302.09585.23429.77252.54浙江2629.16557.32689.73435.69514.66795.87575.76323.36安徽1844.78430.29271.28126.33250.56513.18314.00151.39福建2709.46428.11334.12160.77405.14461.67535.13232.29江西1563.78303.65233.81107.90209.70393.99509.39160.12山东1675.75613.32550.71219.79272.59599.43371.62211.84河南1427.65431.79288.55208.14217.00337.76421.31165.32湖北1783.43511.88282.84201.01237.60617.74523.52182.52湖南1942.23512.27401.39206.06321.29697.22492.60226.45广东3055.17353.23564.56356.27811.88873.061082.82420.81广西2033.87300.82338.65157.78329.06621.74587.02218.27海南2057.86186.44202.72171.79329.65477.17312.93279.19重庆2303.29589.99516.21236.55403.92730.05438.41225.80四川1974.28507.76344.79203.21240.24575.10430.36223.465问题:结合两个表格,对数据进行主成分分析。二、问题分析运用主成分分析法,讨论全国31个省、直辖市和自治区的城镇居民消费结构,并建立对应的消费函数模型,进而分析消费结构的地区差异及原因。最后提出消费结构升级过程中的不足,衔接好产需关系,并提出合理的政策性建议。首先用SPSS软件进行主成分分析法中的因子分析,利用降维的思想将所选取的城镇居民消费支出的8项指标中选出相关性较高的两个主成分;其次通过系统聚类,将31个选取观测的地区,通过能够度量它们之间相似程度的统计量,将其划分,把相似程度较大的地区聚合为一类,以此类推直到把所有的地区都聚合完毕,终将选取的31个地区分成了四类且重新定义四个类别,并且对地区进行差异分析。三、对应的多元统计分析原理1、要求对各地区的消费结构进行分析,而题设条件中,已知数据繁多,如果直接分析31个省的消费结构,分析过程将会很复杂,而且分析步骤琐碎。而由统计学思想可知,主成分分析是一种对数据进行降维分析的方法,但包含原数据的大部分信息。其核心是设法将原来众多具有一定相关性(比如P个指标)的指标,重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用(选取的第一个线性组合,即第一个综合指标)的方差来表达,即)(1FVar越大,表示1F包含的信息越多。因此在所有的线性组合中选取的1F应该是方差最大的,故称1F为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取2F即选第二个线性组合,为了有效地反映原来信息,1F已有的信息就不需要再出现在2F中,用数学语言表达就是要求0),(o21FFvC,则称2F为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。由此建立了主成分分析模型,如果仅分析各指标的相关性就会显得消费结构的分析相对简单,为了完善消费结构的分析。贵州1673.82437.75461.61153.32254.66445.59346.11191.48云南2194.25537.01369.07249.54290.84561.91407.70330.95西藏2646.61839.70204.44209.11379.30371.04269.59389.33陕西1472.95390.89447.95259.51230.61490.90469.10191.34甘肃1525.57472.98328.90219.86206.65449.69249.66228.19青海1654.69437.77258.78303.00244.93479.53288.56236.51宁夏1375.46480.89273.84317.32251.08424.75228.73195.93新疆1608.82536.05432.46235.82250.28541.30344.85214.406四、在R中的分析用R分析的代码如下:Read.table("E:yang.txt",head=FALSE)Library(psych)Principal(r=x,nfactors=2,rotate="none")PrincipalComponentsAnalysisCall:principal(r=x,nfactors=2,rotate="none",scores=T)Standardizedloadingsbaseduponcorrelationmatrix得到了两个主成分的分析如下PC1PC2X10.91-0.09X20.300.87X30.850.08X40.720.40X50.88-0.27X60.920.03X70.74-0.58X80.890.11PC1PC2SSloadings5.101.35ProportionVar0.640.17CumulativeVar0.640.81可用fa.parallel()函数得到其碎石图如下7四、用SPSS对上述分析进行检验1、将问题描述中的31个数据导入SPSS软件中,截图如图1所示2、对以上数据用SPSS进行数据分析表1描述统计量N均值标准差方差统计量统计量标准误统计量统计量食品311980.6603105.40787586.88616344435.368衣着31489.073221.63464120.4565814509.787家庭设备及服务31395.985532.31615179.9287232374.343医疗保健31244.360315.5094786.353107456.858交通和通讯31311.018423.01261128.1287816416.985娱乐教育文化服务31569.571634.03690189.5094635913.837居住31430.370330.19947168.1435228272.243杂项商品及服务31243.045215.8153688.056227753.898有效的N(列表状态)31将数据进行主成分分析(因子分析)表2公因子方差公因子方差初始提取食品1.000.828衣着1.000.848家庭设备及服务1.000.723医疗保健1.000.683交通和通讯1.000.839娱乐教育文化服务1.000.841居住1.000.8758杂项商品及服务1.000.813提取方法:主成份分析。表3解释的总方差解释的总方差成份初始特征值提取平方和载入合计方差的%累积%合计方差的%累积%15.09863.72163.7215.09863.72163.72121.35216.90380.6251.35216.90380.6253.5757.18487.8094.4065.07992.8875.2813.51696.4036.1221.52897.9327.0931.15899.0908.073.910100.000提取方法:主成份分析。表4相关成分矩阵在公因子方差中,给出了因子载荷阵的初始公因子方差和提取公因子方差在表4的初始特征值中,给出了按顺序排列的主成分得分的方差,在数值上等于相关系数矩阵的各个特征根λ,因此可以直接根据特征根计算每一个主成分的方差百分比。由于全部特征根的总和等于变量数目,即有8im,故第一个特征根的方差百分比为15.098100%63.725%8m,第二个特征根的百分比相关矩阵食品衣着家庭设备医疗交通娱乐居住杂项相关食品1.000.247.698.468.828.769.670.877衣着.2471.000.258.423.086.255-.201.349家庭设备.698.2581.000.621.585.856.569.667医疗.468.423.6211.000.531.684.314.628交通.828.086.585.5311.000.708.800.776娱乐.769.255.856.684.7081.000.647.745居住.670-.201.56
本文标题:主成分分析课程设计
链接地址:https://www.777doc.com/doc-5484319 .html