您好,欢迎访问三七文档
在统计学中,主成分分析(principalcomponentsanalysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。主成分分析的主要作用体现在五个方面,第一,主成分分析能降低所研究的数据空间的维数。第二,可通过因子负荷的结论,弄清X变量间的某些关系。第三,可用于多为数据的一种图形表现方法。第四,可由主成分分析构造回归模型,即把各个主成分作为新自变量代替原来自变量做回归分析。第五,用主成分分析筛选回归变量。案例分析:下表是关于全国31个省市的8项经济指标,以此为例,进行主成分分析。省份国内生产1居民消费2固定资产3职工工资4货物周转5消费价格6商品零售7工业产值8北京11394.892505519.018144373.9117.3112.6843.43天津2920.112720345.466501342.8115.2110.6582.51河北32849.521258704.8748392033.3115.2115.81234.85山西41092.481250290.94721717.3116.9115.6697.25内蒙5832.881387250.234134781.7117.5116.8419.39辽宁62793.372397387.9949111371.7116.11141840.55吉林71129.21872320.454430497.4115.2114.2762.47黑龙江82014.532334435.734145824.8116.1114.31240.37上海92462.575343996.489279207.4118.71131642.95江苏105155.2519261434.9559431025.5115.8114.32026.64浙江113524.7922491006.396619754.4116.6113.5916.59安徽122003.5812544744609908.3114.8112.7824.14福建132160.522320553.975857609.3115.2114.4433.67江西141205.111182282.844211411.7116.9115.9571.84山东155002.3415271229.5551451196.6117.6114.22207.69河南163002.741034670.3543441574.4116.5114.91367.92湖北172391.421527571.684685849120116.61220.72湖南182195.71408422.6147971011.8119115.5843.83广东195381.7226991639.838250656.5114111.61396.35广西201606.151314382.595105556118.4116.4554.97海南21364.171814198.355340232.1113.5111.364.33四川2235341261822.544645902.3118.51171431.81贵州23630.07942150.844475301.1121.4117.2324.72云南241206.6812613345149310.4121.3118.1716.65西藏2555.98111017.8773824.2117.3114.95.57陕西261000.031208300.274396500.9119117600.98甘肃27553.351007114.815493507119.8116.5468.79青海28165.31144547.76575361.6118116.3105.8宁夏29169.75135561.985079121.8117.1115.3114.4新疆30834.571469376.965348339119.7116.7428.76将数据输入SPSS软件,选择“Analyze”—“DataReduction”—“因子分析”,在出现的对话框中进行以下步骤:第一步,将八个经济指标都转入到变量中去第二步:进行各选项的设置,如图第三步:按“确定”键,分析结果如下:GETDATA/TYPE=XLSX/FILE='C:\Users\11\Desktop\数据.xlsx'/SHEET=name'Sheet1'/CELLRANGE=full/READNAMES=on/ASSUMEDSTRWIDTH=32767.DATASETNAME数据集3WINDOW=FRONT.FACTOR/VARIABLES国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值/MISSINGLISTWISE/ANALYSIS国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值/PRINTUNIVARIATEINITIALCORRELATIONDETEXTRACTION/CRITERIAMINEIGEN(1)ITERATE(25)/EXTRACTIONPC/ROTATIONNOROTATE/METHOD=CORRELATION.因子分析附注创建的输出11-二月-201216时31分44秒注释输入活动的数据集数据集3过滤器none权重none拆分文件none工作数据文件中的N行30缺失值处理对缺失的定义MISSING=EXCLUDE:用户定义的缺失值作为缺失对待。使用的案例LISTWISE:统计量基于对所使用任何变量都不含缺失值的案例。语法FACTOR/VARIABLES国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值/MISSINGLISTWISE/ANALYSIS国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值/PRINTUNIVARIATEINITIALCORRELATIONDETEXTRACTION/CRITERIAMINEIGEN(1)ITERATE(25)/EXTRACTIONPC/ROTATIONNOROTATE/METHOD=CORRELATION.资源处理器时间00:00:00.078已用时间00:00:01.410所需的最大内存9080(8.867K)字节[数据集3]描述统计量均值标准差分析N国内生产1921.0926671.4748060E330居民消费1745.93861.64230固定资产511.508667402.885361430职工工资5457.631310.21830货物周转666.140000459.966985030消费价格117.2872.025330商品零售114.9071.898130工业产值862.998000584.587258530相关矩阵a国内生产居民消费固定资产职工工资货物周转消费价格相关国内生产1.000.267.951.191.617-.273居民消费.2671.000.426.718-.151-.235固定资产.951.4261.000.400.431-.280职工工资.191.718.4001.000-.356-.135货物周转.617-.151.431-.3561.000-.253消费价格-.273-.235-.280-.135-.2531.000商品零售-.264-.593-.359-.539.022.763工业产值.874.363.792.104.659-.125a.行列式=.000相关矩阵a商品零售工业产值相关国内生产-.264.874居民消费-.593.363固定资产-.359.792职工工资-.539.104货物周转.022.659消费价格.763-.125商品零售1.000-.192工业产值-.1921.000a.行列式=.000公因子方差初始提取国内生产1.000.945居民消费1.000.800固定资产1.000.902职工工资1.000.875货物周转1.000.857消费价格1.000.957商品零售1.000.929工业产值1.000.903提取方法:主成份分析。解释的总方差成份初始特征值提取平方和载入合计方差的%累积%合计方差的%累积%13.75546.93946.9393.75546.93946.93922.19727.45974.3982.19727.45974.39831.21515.18689.5841.21515.18689.5844.4025.03194.6155.2132.66097.2756.1381.72498.9997.065.81899.8178.015.183100.000提取方法:主成份分析。成份矩阵a成份123国内生产.885.384.121居民消费.607-.598.271固定资产.912.161.212职工工资.466-.722.368货物周转.486.738-.275消费价格-.509.252.797商品零售-.620.594.438工业产值.823.427.211提取方法:主成份。a.已提取了3个成份。从“解释的总方差”一表中可以得出相关系数矩阵的特征值为λ1=3.755,λ2=2.197,λ3=1.215,λ4=0.402,5=0.213,λ6=0.318,λ7=0.065,λ8=0.015前三个成分的特征值都大于1,并且累计贡献值达到了89.584%,所以选取了前三个因素作为主成分。将“成分矩阵”表中没一列值分别除以特征值的开方,就得出了每一个特征值对应的特征向量,由此可以得出第一,第二,第三主成分表达式(令各因素为X1,X2……X8)F1=0.4567*X1+0.4095*X2+0.8274*X3+0.735*X4+1.053*X5-1.37*X6-2.4318*X7+6.72*X8F2=0.1982*X2-0.4034*X2+0.1501*X3-1.1387*X4+2.0468*X5+0.6784*X6+2.33*X7+3.4864*X8F3=0.0624*X1+0.1828*X2+0.1923*X3+0.5804*X4-0.5959*X5+2.1455*X6+1.718*X7+1.7228*X8根据三个主成分表达式,通过SPSS的转换功能,就可以得出成分结果:省份F1F2F3北京13705.16-5881.957046.91天津10446.78-5197.365630.69河北15956.233467.834713.74山西9721-1372.144315.87内蒙7390.3-1650.263462.48辽宁19564.533621.656335.88吉林10015.51-1507.114506黑龙江14049.71160.945132.78上海21778.77-5587
本文标题:主成分分析实例
链接地址:https://www.777doc.com/doc-4895248 .html