您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 应用多元分析主成分分析作业
应用多元分析——主成分分析6.1试述主成分分析的基本思想。答:在处理多指标变量问题的过程中,由于多个变量之间往往存在着一定程度的相关性,人们可以通过线性组合的方式,从这些指标中尽可能快的提取信息。当第一个组合不能提取更多信息时,再考虑第二个线性组合继续这个快速提取的过程,如此继续下去,直到提取的信息与原指标差不多时为止,这就是主成分分析的基本思想。6.5试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的,而实际表明,这种差异有时很大。根据协方差矩阵进行主成分分析的,其结果受变量单位的影响。不同的变量往往有不同的单位,对同一变量单位的改变会产生不同的主成分,主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用R代替∑,在采用R代替∑后,可以看作是用标准化的数据做分析,而且在研究单位变量大都不统一的经济问题是,会使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。6.6已知X=(𝐗𝟏,𝐗𝟐,𝐗𝟑)’的协差阵为𝟏𝟏√𝟑/𝟐𝟑/𝟐√𝟑/𝟐𝟐𝟏/𝟒𝟓√𝟑/𝟒𝟑/𝟐𝟓√𝟑/𝟒𝟑𝟏/𝟒试进行主成分分析。解:令|∑−λE|=||11−λ√3232√32214−λ5√34325√34314−λ||=0计算得−64(λ−4)(λ−8)(λ−12)=0即特征值分别为𝜆1=12,𝜆2=8,𝜆3=4所以D(𝑌1)=12,D(𝑌2)=8,D(𝑌3)=4当𝜆1=12时,(∑−λE)=(−42√362√3−275√365√3−17)经过一系列的初等行变换可化为(10−20√3−1000)则特征向量为α1=(2√3,1,√3)’同理,当𝜆2=8时,α2=(−2,√3,3)’当𝜆3=4时,α3=(0,−√3,1)’易知α1,α2,α3相互正交,通过单位化向量可得T2=α1||α1||=(√32,14,√34)’,T2=α2||α2||=(−12,√34,34)’,T3=α3||α3||=(0,−√32,12)’而Y1=T1′X,Y2=T2′X,Y3=T3′X所以,带入数据可得第一主成分为Y1=√32X1+14X2+√34X3,D(𝐘1)=12第二主成分为Y2=−12X1+√34X2+34X3,D(𝐘2)=8第三主成分为Y3=−√32X2+12X3,D(𝐘3)=46.7设X=(𝐗𝟏,⋯,𝐗𝐩)’的协方差阵(p×𝐩)为𝚺=𝛔𝟐[𝟏𝛒⋯𝛒𝛒𝟏⋯𝛒⋮⋮⋱⋮𝛒𝛒⋯𝟏],0p1证明:𝛌𝟏=𝛔𝟐[𝟏−𝛒(𝟏−𝛒)]为最大特征根,其对应的主成分为𝐘𝟏=𝟏√𝛒∑𝐱𝐢𝐩𝐢=𝟏证明:令|Σ−λE|=||σ2−λρσ2⋯ρσ2ρσ2σ2−λ⋯ρσ2⋮⋮⋱⋮ρσ2ρσ2⋯σ2−λ||=||(p−1)ρσ2+σ2−λρσ2⋯ρσ2(p−1)ρσ2+σ2−λσ2−λ⋯ρσ2⋮⋮⋱⋮(p−1)ρσ2+σ2−λρσ2⋯σ2−λ||=||(p−1)ρσ2+σ2−λρσ2⋯ρσ20σ2(1−ρ)−λ⋯ρσ2⋮⋮⋱⋮0⋯0σ2(1−ρ)−λ||=0=[(p−1)ρσ2+σ2−λ][𝜆−(𝜎2(1−𝜌))(𝑝−1)]又0ρ1,则特征值分别为𝜆1=[1−(1−p)ρ]σ2,𝜆2=σ2(1−ρ)而λ1−λ2=pρ0则λ1=[1−(1−p)ρ]σ2为最大特征根当λ1=[1−(1−p)ρ]σ2时,|Σ−λ1E|=(σ2ρ(1−p)ρσ2⋯ρσ2ρσ2σ2ρ(1−p)⋯σ2ρ(1−p)⋮⋮⋱⋮ρσ2ρσ2⋯σ2ρ(1−p))=(01⋯000⋯0⋮⋮⋱⋮00⋯0)所以特征向量为α1=(1,1,…,1)’通过标准化可得T𝟏=(1√p,1√p,⋯1√p)’即证得,Y1=1√ρ∑xipi=16.8通过对各地区的六个指标进行主成分分析,然后对各地区城市设施水平进行综合评价和排序。解:将原始数据输入spss编辑窗口,将六个变量分别命名为𝑋1~𝑋6,在spss窗口选择Analyse→DataReduction→Factor菜单项,调出因子分析界面,并将六个变量移入Variable框中,其他均保持系统默认选项,单击ok按钮,执行因子分析过程,如下图所示。得到特征根和方差贡献率表(表一)和因子载荷阵(表二)TotalVarianceExplainedComponentInitialEigenvaluesExtractionSumsofSquaredLoadingsTotal%ofVarianceCumulative%Total%ofVarianceCumulative%12.15535.91735.9172.15535.91735.91721.56626.09362.0101.56626.09362.01031.23020.50782.5171.23020.50782.5174.61710.28092.7975.2584.29997.0966.1742.904100.000ExtractionMethod:PrincipalComponentAnalysis.表一ComponentMatrixaComponent123城市用水普及率(%).770.444-.349城市燃气普及率(%).857.113-.208每万人拥有公共交通车辆(标台).246.839.291人均城市道路面积(平方米).633-.396.359人均公园绿地面积(平方米).605-.642.275每万人拥有公共厕所(座)-.019.286.881ExtractionMethod:PrincipalComponentAnalysis.a.3componentsextracted.表二将表二中的因子载荷阵中的数据输入spss数据编辑窗口,分别命名为a1,a2,a3,如下图为了计算第一个特征向量,点击菜单中的Transform→Computer,调出Computervariable对话框,在对话框中输入等式:z1=a1/SQRT(2.155)点击ok按钮,即可在数据编辑窗口中得到以z1为变量名的第一特征向量,如下图再次调出Computervariable对话框,在对话框中输入等式:z2=a2/SQRT(1.566)点击ok按钮,即可在数据编辑窗口中得到以z2为变量名的第二特征向量再次调出Computervariable对话框,在对话框中输入等式:z3=a2/SQRT(1.230)点击ok按钮,即可在数据编辑窗口中得到以z3为变量名的第三特征向量如此得到了如下图所示的特征向量矩阵z1z2z3x10.5250.355-0.315x20.5840.090-0.188x30.1680.6700.262x40.431-0.3160.324x50.412-0.5130.248x6-0.0130.2290.794根据特征向量矩阵可以得到主成分的表达式Y1=0.525x1+0.584x2+0.168x3+0.431x4+0.412x5-0.013x6Y2=0.355x1+0.090x2+0.670x3-0.316x4-0.513x5+0.229x6Y3=-0.315x1-0.188x2+0.262x3+0.324x4+0.248x5+0.794x6分别计算出以上三项后,利用公式Y=𝜆1∑𝜆𝑖3𝑖=1Y1+𝜆2∑𝜆𝑖3𝑖=1Y2++𝜆3∑𝜆𝑖3𝑖=1Y3得到Y=0.435Y1+0.316Y2+0.248Y3数据标准化之后,得出综合排名得分表可以看出,青海的城市设施水平在所有地区当中最高,原始数据也显示出青海在所有地区中具有一定的优势,而从三个主成分得分来看,在贡献率第二高的主成分得分排名第二,贡献率第三高的主成分排名第一,在贡献率第一高的主成分排名也相对较前,具有一定优势。地区Y1Y2Y3综合得分排序北京0.7207531.891517-0.435060.8039227河北1.2014620.907708-1.193620.51352710天津2.196109-0.591850.9451511.0034995山西-0.4741-0.14192-0.5563-0.3894521内蒙古-1.46957-1.766562.072362-0.6835725辽宁0.1763960.182128-0.54827-0.0018216吉林-1.2958-0.327721.489109-0.2977320黑龙江-1.62560.0088482.9545280.02923715上海-0.457441.543355-2.10873-0.2348317江苏2.503607-0.545480.9967981.164842浙江1.6972950.5774130.6373551.0797524安徽0.324337-0.97264-0.3293-0.2482819福建1.110280.282592-0.783470.37800912江西0.728784-1.18532-0.73321-0.2398618山东3.031718-1.657550.0715840.8131066河南-2.53301-0.530990.256331-1.206829湖北0.2644670.0673-0.371790.04403514湖南-0.621970.043279-0.58076-0.4013122广东1.108504-0.63126-0.859530.06929113广西-0.09186-0.79453-1.03703-0.5489323海南-1.24483-1.50653-0.28193-1.0883928重庆-0.21704-1.38559-1.27101-0.8484927四川-1.28023-0.516020.231027-0.6630624贵州-2.930590.246286-1.05072-1.4587231云南-1.290780.064469-0.68787-0.7123326西藏-0.677613.5531131.2997651.1518163陕西0.6835430.792664-0.013840.5448059甘肃-2.23321-0.6412-0.46043-1.2892430青海0.489722.9926191.1135031.4363571宁夏1.612797-1.03761.5844260.767438新疆0.5938771.07944-0.349080.51319811
本文标题:应用多元分析主成分分析作业
链接地址:https://www.777doc.com/doc-2420250 .html