您好,欢迎访问三七文档
数理经济学分析方法实验报告2:主成分分析1.采用数据student.txt,对六个变量做协方差矩阵和相关系数矩阵。我在做主成分分析之前对student.txt进行90%的随机抽样,然后根据抽样后的数据,利用spss计量分析软件对六个变量做协方差矩阵和相关系数矩阵如下。(1)协方差矩阵项间协方差矩阵VAR00001VAR00002VAR00003VAR00004VAR00005VAR00006VAR0000195.11786.63881.622-78.737-49.277-51.975VAR0000286.638196.094101.140-80.705-48.619-54.245VAR0000381.622101.140180.663-79.275-46.809-52.245VAR00004-78.737-80.705-79.275177.724111.933117.244VAR00005-49.277-48.619-46.809111.933106.06388.028VAR00006-51.975-54.245-52.245117.24488.028112.574(2)相关系数矩阵项间相关性矩阵VAR00001VAR00002VAR00003VAR00004VAR00005VAR00006VAR000011.000.634.623-.606-.491-.502VAR00002.6341.000.537-.432-.337-.365VAR00003.623.5371.000-.442-.338-.366VAR00004-.606-.432-.4421.000.815.829VAR00005-.491-.337-.338.8151.000.806VAR00006-.502-.365-.366.829.8061.0002.采用数据student.txt,先对六个变量做标准化,然后求协方差矩阵和相关系数矩阵。观察步骤1和步骤2的结果,并做说明。运用spss计量分析软件对六个变量做标准化后,得出协方差矩阵和相关系数矩阵如下。(1)标准化后协方差矩阵项间协方差矩阵Zscore(VAR00001)Zscore(VAR00002)Zscore(VAR00003)Zscore(VAR00004)Zscore(VAR00005)Zscore(VAR00006)Zscore(VAR00001)1.000.634.623-.606-.491-.502Zscore(VAR00002).6341.000.537-.432-.337-.365Zscore(VAR00003).623.5371.000-.442-.338-.366Zscore(VAR00004)-.606-.432-.4421.000.815.829Zscore(VAR00005)-.491-.337-.338.8151.000.806Zscore(VAR00006)-.502-.365-.366.829.8061.000(2)标准化后相关系数矩阵项间相关性矩阵Zscore(VAR00001)Zscore(VAR00002)Zscore(VAR00003)Zscore(VAR00004)Zscore(VAR00005)Zscore(VAR00006)Zscore(VAR00001)1.000.634.623-.606-.491-.502Zscore(VAR00002).6341.000.537-.432-.337-.365Zscore(VAR00003).623.5371.000-.442-.338-.366Zscore(VAR00004)-.606-.432-.4421.000.815.829Zscore(VAR00005)-.491-.337-.338.8151.000.806Zscore(VAR00006)-.502-.365-.366.829.8061.000解释说明:步骤1是原始数据未经过标准化处理得到的协方差矩阵和相关系数矩阵,而步骤2是经过标准化处理后得到的协方差矩阵和相关系数矩阵。从表格中,我们可以发现,标准化以后的协方差矩阵和相关系数矩阵对应相等,并且与未经标准化处理的相关系数矩阵对应相等,唯独与未经标准化处理的协方差矩阵对应不相等。这表明在进行主成分分析时,一般采用相关系数矩阵进行分析,因为相关系数就是标准化以后的协方差,它可以消除量纲的影响,从而避免了由于量纲影响而导致的分析误差。3.用数据student.txt,分别采用协方差矩阵和相关系数矩阵进行主成分分析,并解释模型输出结果。做主成分分析之前对student.txt进行90%的随机抽样后,利用spss计量分析软件得到模型分析结果如下表:(1)基于相关系数矩阵的主成分分析:解释的总方差成份初始特征值提取平方和载入合计方差的%累积%合计方差的%累积%13.74062.32962.3293.74062.32962.32921.12718.78581.1141.12718.78581.1143.4637.71888.8324.3195.32294.1545.1953.24397.3976.1562.603100.000提取方法:主成份分析。从“解释的总方差”一表中可以得出相关系数矩阵的特征值为:λ1=3.740;λ2=1.127;λ3=0.463;λ4=0.319;λ5=0.195;λ6=0.156前两个成份的特征值都大于1,并且累计贡献率达到81.116%。将“成份矩阵”表中每一列值分别除以特征值的开方,就得出了每一个特征值对应的特征向量,由此可以得出第一、第二主成分表达式:成份矩阵a成份12VAR00001-.808.351VAR00002-.673.527VAR00003-.674.515VAR00004.893.303VAR00005.823.445VAR00006.840.414F1=-0.417X1-0.348X2-0.348X3+0.461X4+0.425X5+0.434X6F2=0.331X1+0.496X2+0.485X3+0.285X4+0.419X5+0.389X6(2)基于协方差矩阵的主成分分析:解释的总方差成份初始特征值a提取平方和载入合计方差的%累积%合计方差的%累积%原始1472.53858.11558.115472.53858.11558.1152171.95321.14879.262171.95321.14879.262390.06011.07690.338434.5344.24794.586524.2212.97997.564619.8052.436100.000重新标度1472.53858.11558.1153.51758.61358.6132171.95321.14879.2621.21920.31678.929390.06011.07690.338434.5344.24794.586524.2212.97997.564619.8052.436100.000提取方法:主成份分析。a.分析协方差矩阵时,初始特征值在整个原始解和重标刻度解中均相同。成份矩阵a原始重新标度成份成份1212VAR00001-7.3601.998-.787.214VAR00002-9.4646.961-.701.516VAR00003-9.2366.245-.700.473VAR0000411.2795.472.864.419VAR000057.6684.755.771.478VAR000067.5825.287.757.528提取方法:主成份。a.已提取了2个成份。同理可得到F1、F2的表达式:F1=-0.338X1-0.435X2-0.424X3+0.518X4+0.352X5+0.348X6F2=0.153X1+0.530X2+0.476X3+0.417X4+0.362X5+0.403X6上述结果表明,运用相关系数矩阵和协方差矩阵得到的主成分分析有所不同,但从整体上来看,第一主成分F1与X1(math)、X2(phys)、X3(chem)有较明显的负相关性,这是由于这三门(数学、物理、化学)属于理科性质学科,从直观意义上可以进行理解:若某个学生数学成绩差,其物理、化学成绩一般也不太好。第二主成分F2与X2、X3、X5有较明显的正相关性。整体表明该班学生成绩存在较大的差异,且分布不均衡。显然,在运用主成分分析后,用两个主成分F1、F2代替原来6个变量(X1、X2、X3、X4、X5、X6),来描述学生的成绩,可以起到降维的作用,使问题进一步简化明了。
本文标题:实验主成分分析
链接地址:https://www.777doc.com/doc-2458465 .html