您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > SPSS数据的主成分分析报告
zf主成分分析(PrincipalComponentsAnalysis)知识点什么是主成分和主成分分析?理解主成分分析的基本思想和几何意义?理解并掌握基于协方差矩阵或相关系数矩阵求解主成分?如何确定主成分个数?如何解释主成分?掌握运用SPSS软件求解主成分对软件输出结果进行正确分析2020/4/302zf蒋亮,罗汉《我国东西部城市经济实力比较的主成分分析》,《经济数学》,2003年3期田波平等《主成分分析在中国上市公司综合评价中的作用》,《数学的实践与认识》,2004年4期江冬明《主成份分析在证券市场个股评析中的应用》,《数理统计与管理》,2001年3期主成分分析在综合评价中的应用:2020/4/303zf陈耀辉,景睿《沪深股市市场收益率成因的主成份分析》,《南京航空航天大学学报》,2000年2期。主成分用于成因分析:2020/4/304zf王冬:《我国外汇储备增长因素主成分分析》,《北京工商大学学报(社会科学版)》,2006年4期。主成分回归分析:主成分用于判别分析等统计方法中……2020/4/305zf多个指标的问题:1、指标与指标可能存在相关关系信息重叠,分析偏误2、指标太多,增加问题的复杂性和分析难度如何避免?2020/4/306zf主成分分析的基本思想一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。在进行主成分分析后,竟以97.4%的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。2020/4/307zf更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:F1F2F3iitF11F201F3001i0.995-0.0410.057lΔi-0.0560.948-0.124-0.102lt-0.369-0.282-0.836-0.414-0.11212020/4/308zf主成分分析:将原来具有相关关系的多个指标简化为少数几个新的综合指标的多元统计方法。主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分等等。主成分与原始变量之间的关系:(1)主成分保留了原始变量绝大多数信息。(2)主成分的个数大大少于原始变量的数目。(3)各个主成分之间互不相关。(4)每个主成分都是原始变量的线性组合。2020/4/309zf主成分分析通常的做法:寻求原指标的线性组合Fi。ppppppppppXuXuXuFXuXuXuFXuXuXuF22112222121212121111AXXXXuuuuuuuuuFPpppppp21212222111211数学模型-主成分表达式2020/4/3010zf假设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2所确定的二维平面中,n个样本点所散布的情况如椭圆状。如图所示:几何解释-坐标旋转变换•2F••••••••••••••••••••••••••••••••••••1F1x2x平移、旋转坐标轴2020/4/3011zf•2x1x1F2F•••••••••••••••••••••••••••••••••••••平移、旋转坐标轴2020/4/3012zf•2x1x1F2F•••••••••••••••••••••••••••••••••••平移、旋转坐标轴•2020/4/3013zf由图可以看出这n个样本点无论是沿着xl轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl的方差和x2的方差定量地表示。显然,如果只考虑xl和x2中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。如果我们将xl轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。Fl轴方向上的离散程度最大,即Fl的方差最大。说明变量Fl代表了原始数据的绝大部分信息,即使不考虑变量F2也无损大局。2020/4/3014zf旋转变换的目的:将原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。主成分分析的几何意义:主成分分析的过程也就是坐标旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,新坐标系中各坐标轴的方向就是原始数据方差最大的方向。其优点:(1)可达到简化数据结构的目的。(2)新产生的综合变量Fl,F2具有不相关的性质,从而避免了信息重叠所带来的虚假性。2020/4/3015zf了解了主成分分析的基本思想、数学和几何意义后,问题的关键:1、如何求解主成分?2、如何确定主成分个数?3、如何解释主成分所包含的经济意义?2020/4/3016zf如何求解主成分??-(1)基于协方差矩阵求解主成分假设有n个样本,每个样本有p个观测变量。运用主成分分析构造以下p个主成分关于原始变量的线性组合模型:pppppppppxaxaxaFpxaxaxaFxaxaxaF22112222121121211121AXXXXaaaaaaaaaFPpppppp212122221112112020/4/3017zf假设p个原始变量的协方差阵为:PPPPPPX212222111211;0,,,,;,,2231132112212211且不全为对角线外的元素的方差分别代表对角线上的元素pppppxxx对角线外的元素不为0意味着:原始变量之间有相关关系2020/4/3018zf如何运用主成分分析将这些具有相关关系的变量转化为没有相关关系的新变量(主成分)呢??新变量(即主成分)之间没有相关关系,其协方差阵为对角矩阵:p001对角线上的元素λ1、λ2···λp分别为第一、二···第p个主成分方差;同时也是原始变量协方差阵的特征根主成分表达式的系数项即是λ1、λ2···λp的特征向量2020/4/3019zf1、主成分的协方差阵为对角矩阵;2、3、4、第j个主成分的方差贡献为:.,,2,1,21pjpjpiiFVar321),()()()()()(321321xpptrXVarXVarXVarXVar主成分包含了原始变量的所有信息协方差矩阵求解中主成分的性质该比率为第j个主成分方差与原始变量的总方差之比。2020/4/3020zfk个主成分的累积方差贡献率为:累积方差贡献率越接近1,表示k个主成分包含原始变量的信息越多。5.主成分载荷:6.主成分Fj与原始变量Xi相关系数的平方:•(1)可看作为第j个主成分可解释Xi多少比率的信息•(2)可看作为Xi在第j个主成分中的相对重要性iijijjiijijjiaaFx),(iijijFxaji2),(2.,2121pkpk2020/4/3021zf主成分的求解-(2)基于相关系数矩阵求解主成分假设p个原始变量的相关系数矩阵阵为:注意(1):相关系数矩阵可看作原始变量协方差阵的标准化形式,即:原始变量标准化的协方差矩阵。注意(2):运用主成分分析法时,若原始变量量纲不一致时,需对变量进行标准化处理基于协方差阵求解主成分;若不标准化则基于相关系数矩阵求解主成分。11121221112212222111211ppppppppppjjiijixxxxji),cov(),(对角线外元素不全为0:原始变量间有相关关系2020/4/3022zf转化形成的没有相关关系的新变量(即主成分)的协方差阵为对角矩阵:p001对角线上的元素λ1、λ2···λp分别为第一、二···第p个主成分方差;同时也是原始变量相关系数矩阵的特征根主成分表达式的系数项即是λ1、λ2···λp的特征向量2020/4/3023zf相关系数矩阵求解中主成分的性质1、主成分的协方差矩阵为对角阵.2.3、4、第k个主成分的方差贡献率为:前k个主成分的累积方差贡献率为:5、主成分载荷:6、主成分载荷的平方:**),(jijjiaFx*22),(jijFxajipk/)(**1**3*2*1*),(piithenFVarLetpXVarXVarXVarXVarpp)()()()(321**3*2*1pk/*在解释第j个主成分的意义上起着重要作用•(1)可看作为第j个主成分可解释Xi多少比率的信息(或:Xi的信息有多少可被第j个主成分解释);•(2)可看作为Xi在第j个主成分中的相对重要性。2020/4/3024zf主成分个数的确定累积方差贡献率(Cumulativevarianceexplainedbycomponents):通常要求累积方差贡献率达到85%以上来确定主成分个数。特征根(eigenvalue):根据特征根来确定;数据标准化情况下:碎石图(Screeplot):依据特征值的变化来确定,即特征值变化趋势图由陡坡变为平坦的转折点即为主成分选择的最佳个数。i111piiip2020/4/3025zf主成分的解释运用主成分载荷解释主成分:陈耀辉,景睿《沪深股市市场收益率成因的主成份分析》,《南京航空航天大学学报》,2000年2期。蒋亮,罗汉《我国东西部城市经济实力比较的主成分分析》,《经济数学》,2003年3期。运用主成分得分系数矩阵解释主成分:王冬《我国外汇储备增长因素主成分分析》,《北京工商大学学报》,2006年4期。田波平等《主成分分析在中国上市公司综合评价中的作用》,《数学的实践与认识》,2004年4期2020/4/3026zf基于相关系数矩阵的主成分分析。对美国纽约上市的有关化学产业的三支股票(AlliedChemical,duPont,UnionCarbide)和石油产业的2支股票(ExxonandTexaco)做了100周的收益率调查(1975年1月-1976年10月)。1)利用相关系数矩阵做主成分分析。2)决定要保留的主成分个数,并解释意义。主成分解释的案例分析2020/4/3027zf(1)相关系数矩阵:10.5770.5090.3870.4620.57710.5990.3890.3220.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.5231运用主成分分析法进行分析得到以下结果:2020/4/3028zf(2)相关系数矩阵的特征根:EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativePRIN12.856712.047550.5713420.57134PRIN20.809160.269490.1618330.73317PRIN30.539680.088180.1079350.84111PRIN40.451500.108550.0903000.93141PRIN50.34295.0.0685901.00000(3)特征根所对应的特征向量:Eigenvectors
本文标题:SPSS数据的主成分分析报告
链接地址:https://www.777doc.com/doc-5150489 .html