您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 主成分分析和因子分析在评价区域经济发展水平中的应用
!!塑!至箜!塑!塑垡笪堡型兰主成分分析和因子分析曼鱼塞翌窒在评价区域经济发展水平中的应用●贾万敬何建敏摘要:文章从主成分分析、因子分析的发展过程、基本原理.应用等方面出发来全面地介绍多元数据处理的主要方法。文章以江苏省各地市经济发展水平为例,根据江苏省各市2005卑的国民经济主要统计指标,利用SPSS软件赴理的结果来说明上述方法在评价江苏省各地市的经济发展水平中的应用。关键词:主成分分析;因子分析;区域经济一、引言我国是一个经济与社会发展水平.资源与环境禀赋情况在各区域间差异非常大的国家。自科学发展观提出以来,区域经济协调发展的研究得到了充分的重视。要制订出促进区域经济协调发展的有效政策,首先.必需对区域经济发展的水平做出合理的评价。从中找出形成区域经济发展水平差异的关键因素。主成分分析和因子分析是多元统计中十分常用的两种方法,本文将着重介绍这两种方法的基本原理、数学模型以便从根本上揭示出这两种方法的区别。本文还将介绍主成分分析和因子分析的发展历程和应用领域。结台江苏省区域经济发展的现状,选取反映2005年江苏省13个地级市经济发展水平的12个主要统计指标。运用因子分析方法对江苏省辑地级市的经济发展的基本状况进行综合评价。二、分析方法简介统计推断的理论工作大多数都是基于总体为多元正态的假定,然而在高于一维的情况下,要说明一组样本来自多元正态总体是非常困难的,而且多个变量使用的测量单位也可能各不相同或者变量闻的数值大小相差很大。因此,要对多元数据进行处理,通常将初始变量标准化。1.主成分分析。(1)主成分综台评价的产生和发展。主成分分析(PrincipleComponentAnalysis)的概念最早在1901年由皮尔逊(KarlPealton)首先引人.对非随机变量讨论,1933年数学家霍特林(Hotelling)把它推广到随机向量。JollifeI.T和J.EdwardJackson对主成分分析进行了较为系统地分析和阐述,而郭_i|91军教授系统地论述了综合评价的理论和方法,虽然目前还没有关于主成分综合评价方法的专著.但很多专家学者对其进行了探讨和研究。一些学者M不同的角度提出PICA的稳健性问题,对此进行了研究,并且提出了各自的改进算法。有学者提出丁独立主成分分析(IPCA)的概念,弓1人非线性PCA算法。也有学者从如何去除或减弱有限的样本集中少量“劣点”样本的影响从而获得准确主方向。常用的主成分分析是从样本协方差矩阵来计算的.而协方差矩阵对劣点值相当敏感,为了增强主成分分析的稳健性,对协方差进行算法改进,从而提高主成分分析的稳健性。主成分综合评价应用中也存在很大争议,有的学者就提出了究竟应选取多少个主成分来对样本进行排序的问题。一般来说,主要有两种观点:一是只用第一主成分,英国统计学家肯德尔认为:第一主成分能够最大限度地反映样本间的差异.是概括指标差异信息的晟佳线性函数。因此.只能用第一主成分对样本综合排序。我国也有部分学者持这种观点.南开大学盂生旺老师从几何投影角度阐明.在多指标综合评价中,只有第一主成分结合原始数据的信息最多,因而也就只能以第一主成分值作为综合评价值才合理。另一种观点则认为,不仅要充分重视第一主成分.而且也要顾及其它主成分在综台评价中所起的作用,否则.损失的信息较多,有时甚至回歪曲样本间的实际相对地位。提出的改进办法是:先按累积方差贡献率不低于某个棚值(比如85%)的原则确定前几个主成分,然后以每个主成分各自的贡献率为权数将选定主成分线性加权求和来综合评价样本的优劣。(2)主成分分析的原理。主成分分析是一种通过降维技术把多个变量把多个变量化为少数几个主成分的统计分析分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线形组台。当原来P个变量的总变差能够由少数几个线形组合来概括的话.那么这些线形组合中包含的信息与原来P个变量几乎一样多.可以用这些线形组合替代原来的P个变量,这样会是观测数据从高维降到低维,简化了数据。主成分就是P个变量Y。。Y:,…,L的一些特殊线形组合,这些线形组合把Y,,Y:,…,Y。构成的坐标系旋转产生新的坐标系,在新坐标系中提供了协差阵的简洁表示。以X.(i=1,2,…,p)表示标准化的原变量,z.(i_1,2,…,p)表示主成分,ci(江l,2,…,P;j=1.2,…,p)表示组合系数,主成分分析的模型为:ZFCIlXl+ClⅨ汁・|+ClXZr=%Xl+C冰2+…+C磷。一19—!垒窒翌窒!塑垡笪翌型堂!!!!!堡翌!塑zp=cplxl+c≯2+¨\u65291Xc^(3)主成分分析的应用。主成分分析一般不是目的,而足研究的某个巾间环节.通过这一处理来发现重要的变量和变量间的某种关系。在网于分析法中,通常用主成分分析法来确定公共网子。2因子分析。(1)呙子分析方法的产生和发展。因子分析(FactorAnalysis)方法最早是在1904年由斯皮尔曼(CharlesSpearman)和皮尔逊(KarlPearson)在一篇著名论文《对智力测验得分进行统计分析》中提出,之后被用于解决心理学和教育学方面的问题。由于这种方法计算量大,到了20世纪60年代得益于计算机的应用才有新的发展。R型因子分析认为变量中存在一些不可观测的共同因素同时对原始变量产生影响.需要通过一定的方法提取“重要”的公共因子;“重要性”取决于困子对变量的影响程度,用二者之间的相关系数(因子载荷)表示。根据变量与各因子的“紧密”程度,把原始变量归结到各因子中,通过这些“精炼”的因子认识复杂现象。因子分析的目的是用几个不可观测的隐变量来解释原始变量间的协方差关系。(2)因子分析的原理。因子分析是假定P个变量的变异主要是一些共同的因子引起的.希望用少数几个公共因子来解释变量中的主要变化。由于样本内含样品和指标的两维性,因子分析分为R型和Q型,前者足基于指标的分析,而后者是基于样品的分析。因子分析的数学模型(正交因子模型)为:xl=h…F+b12192+…+bIⅢF.+ElX2=b21Ft+b∞F2+…+kFm+是Xp--bp,F,+b口F2+¨\u8216X+bpmFm+岛当Ⅺ.x,,.。X。表示P个指标时该模型为1l型模型,当x,,x:,…,x。表示P个样品时该模型为Q型模型。式中:x=(x,mX…,X。)是可测P个指标构成的P维随机向量;F=(E,F2,….Fm)是不可观测的向量,F称为X的公共因子;b.,称为因于载荷,它是第i个变量在第J个公共因子上的负荷.矩阵B称为因子载荷矩阵;∈称为x的特殊因子.∈中包括r随机误差。因于分析可以分解为确定因子载荷、园子旋转及纠算因子得分三个步骤。系数阵B帅是初始因子载荷阵,因子载荷b.,的统计意义就足第i个变量与第i个公共因子之间的相关系数。估计B一有多种方法,如主成分分析法、主轴因子法、晟小二乘法、极大似然法、a因子提取法等。其l_}_l主成分法应用最为广泛,因子分析与主成分分析并没有原理上的实质联系.主要是外观的联系。因为用主成分法得到初始载荷阵B。f(、/Kle。,、/凡2e2,-一,、/x。c。),q是R的特征根凡。对应的单位特征向量,它也是主成分分析系数阵c’啪。第i个系数向量,所以B曲第i列系数向量与C’一第i行系数向量仅相差倍数Vx.。用主成分法确定因子载荷的方法比较简单,但是这种方法所得到的特殊因子£。,岛,…,毛之间并不相互独立,因此.用主成分法确定因子载荷不完全符合因子模型的假设前提,也就是说所得的因子载荷并不完全正确。但是当共同度较大时,特殊因子所引起的作用较小,因而特殊因子之间的相关性所带来的影响就几乎可以忽略。由于满足上述模型的系数阵B帅.不唯一,这成为因子载荷阵旋转的理论依据。一般情况下,初始因子载荷阵中各变量对因子的系数没有靠近两极数值…0’和…1’,说明各变量在每个因子上“分量”差不多。备因子并不“偏向”某些变量.这样很难提炼公共困子的意义,因此要旋转B咖。改变它的坐标系,使变量“偏向”不同的因子,并根据系数绝对值对变量归类袁12005年江苏省各市国民经济主要统计指标人均GDP高新技术第二产第j产第三产城镇固定地方财政规模以规模以上社会消费消费品∑CDP增长率产业产业产值业产值业产值资产投资总收入上工业工业利税品零售总零售总(元/人)(%)值(亿元)(亿元)(亿元)增长率(亿元)(亿元)增加值总额额(亿元)额增长(%)(亿元)(亿元)率(%)YlLY3YdY5Y6Y,Y3YqYloY】IY12南京355381521236.812151118131111644510.17961.68365.3910049916.3无锡5096415.11312.161695l06014.8890.81421.8l353.1384.77824.116|3徐州1369714.385.14612.05431.95L7.9435.23145.26397.36150.68396.0415.7常州3196915.1609.0579531450.3914.7534.7220.45603.42161.84444.0816.2苏州541651533085.172691.312563216.91233.76718.124637598.159050716.5南通1997915.4426.15823.99485.914.4370.69171.195“.53163.01536.4116.2连云港1000314.262.042015216l0914.92202856.2896.0932.81182.0815.6淮安1125514.346.93255.75188.2214。4232.4675.56160.8673.66198.6214.9盐城1293214.3126.73453.79325.5614.2264.2786.892722778.23316.9l15.6扬州2038915272.07518.09318.2214.3295.5511703388.7610238306.8915.7镇江2824115324.97512.01283.2916.6262.77118.42360.4497.71241.39150泰州1741715334-82479.8249613.92186911294323.39107.8233.8lt57宿迁756814,66.15163.25112.515.41245525.8356.8814.27—20一109.514.9!!!!:至笙!塑!型垡篁堡登堂!墨量塑堑命名,最常爿j的旋转方法是最大方差正交旋转。(3)因子分析的应用。近年来.随着现代高速电子计算机的出现,人们将因子分析的理论成功地应用于心理学、社会学、经济学、人口学、地质学,甚至在化学和物理学中也得到成功地运用.这使得因子分析的理论和方法更加丰富。三、实证研究本文选取2005年江封、省各地级市的12个国民经济主要统计指标(资料来源:江苏省统计局,2006),相关数据见袁1。利用SPSS统计软件对表1的数据进行处理,在因子分析的过程中使用主成分法提取公共因子。(注:Y,表示原始变量.x,表示标准化后的变量)表2因子旋转后的栽荷矩阵、特征值贡献率和累计贡献率验目的是确定所要求的数据是否取白多元正态分布的总体,若差异检验的F值显著,表示所取的数据来自正态分布总体.可以做进一步分析;KMO检验目的是分析观测变量之间的简单相关系数和偏相关系数的相对大小来确定该数据是否适台进行因子分析.取值变化在0~1之间,若KMO过小.说明变量之间的榴天小能被其他变量解释.进行网子分析不适台。通过SPSS软件计算得到以上数据的Bar|_lctt检验的F值等于0000.表明所取的数据来自正态分布的总体;KNO检验值为0.726。因此适合做因子分析。本文使用SPSSl30对数据进行因子分析,采用主成分法提取特征值大于1的主成分作为公共因子,得到方差最大正交旋转后的因子载荷矩阵、特征值、贡献率和累计贡变量(X:)第一主因子第二主因子献率。特征值大于1的前两个公因子的累计贡献率已达到人均GDP
本文标题:主成分分析和因子分析在评价区域经济发展水平中的应用
链接地址:https://www.777doc.com/doc-2767489 .html