您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 第10章 主成份分析和因子分析
中央财经大学统计学院第10章主成分分析与因子分析主成分分析因子分析中央财经大学统计学院2学习目标1.主成分分析的基本思想2.主成分分析的软件实现和结果分析3.因子分析的基本思想4.因子分析的软件实现和结果分析中央财经大学统计学院主成分分析中央财经大学统计学院4主成分分析的原理多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。“主成分分析”、“因子分析”都可以用来对数据进行降维。中央财经大学统计学院5主成分分析的基本思想主成分分析(Principalcomponentsanalysis)是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当这些变量的第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个提取的过程,……,直到提取足够多的信息为止。这就是主成分分析的思想。中央财经大学统计学院6主成分分析的基本思想主成分分析适用于原有变量之间存在较高程度相关的情况。在主成分分析适用的场合,一般可以用较少的主成分得到较多的信息量,从而得到一个更低维的向量(即更少的变量)。通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。中央财经大学统计学院7例:斯通关于国民经济的研究一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息、外贸平衡等等。在进行主成分分析后,竟以97.4%的精度,用三个新变量就取代了原17个变量。中央财经大学统计学院8主成分分析的几何意义2x1x•2x••••••••••••••••••••••••••••••••••••如果仅考虑X1或X2中的任何一个分量,那么包含在另一分量中的信息将会损失,因此,直接舍弃x1或x2分量不是“降维”的有效办法。中央财经大学统计学院9主成分分析的几何意义1F2F平移、旋转坐标轴2x1x•2x•••••••••••••••••••••••••••••••••••••对坐标轴进行旋转,n个点在F1轴上的方差达到最大,即在此方向上包含了有关n个样品的最大量信息。•因此,欲将二维空间的点投影到某个一维方向上,则选择F1轴方向能使信息的损失最小。中央财经大学统计学院10主成分分析的几何意义第一主成分的效果与椭圆的形状有关。椭圆越扁平,n个点在F1轴上的方差就相对越大,在F2轴上的方差就相对越小,用第一主成分代替所有样品造成的信息损失就越小。中央财经大学统计学院11•2x1x1F2F•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••主成分分析的几何意义原始变量不相关时,主成分分析没有效果。中央财经大学统计学院12•2x1x1F2F••••••••••••••••••••••••••••••••••••主成分分析的几何意义原始变量相关程度越高,主成分分析效果越好。中央财经大学统计学院13主成分分析的数学模型ppppppppppxaxaxaFxaxaxaFxaxaxaF22112222121212121111方程满足下列条件:(1)(2)Fi与Fj不相关。(3)F1与Fp到方差依次递减。122221ipiiaaa中央财经大学统计学院14主成分分析的数学模型有p个x,相应可以计算出p个主成分。但一般只使用少数几个主成分就可以提取大部分信息。主成分分析的基本任务是计算系数矩阵a11…app。中央财经大学统计学院15主成分求解的步骤主成分可以按以下步骤计算得出:计算原始变量的相关系数矩阵R。计算相关系数矩阵R的特征值,并按从大到小的顺序排列,记为计算特征值对应的特征向量,即为主成分F1……Fp相应的系数。p21中央财经大学统计学院16主成分得分把原始变量的值代入主成分表达式中,可以计算出主成分得分。注意在计算主成分得分时需要先对原始变量进行标准化。得到的主成分得分后,可以把各个主成分看作新的变量代替原始变量,从而达到降维的目的。ppppppppppxaxaxaFxaxaxaFxaxaxaF22112222121212121111中央财经大学统计学院17主成分的贡献率对于第k个主成分,其对方差的贡献率为前k个主成分贡献率的累计值称为累计贡献率。piik1中央财经大学统计学院18主成分个数的确定通常有两种方式:1、根据大于1的特征值的个数确定主成分的个数;2、根据主成分的累计贡献率确定主成分的个数,使累计贡献率85%或者其他值。最常见的情况是主成分的个数为2-3个。(一般会同时考虑以上因素和实际问题的背景信息。)中央财经大学统计学院19主成分分析的应用主成分回归。即把各主成分作为新自变量代替原来自变量x做回归分析。还可以进一步还原得到Y与x的回归方程(可以避免多重共线性的问题)。用于综合评价。按照单个的主成分(例如第一主成分)可以对个体进行排序。按照几个主成分得分的加权平均值对个体进行排序也是一种评价方法。一般用各个主成分的方差贡献率加权。由于加权得分缺少实际意义,这种方法理论上有争议。中央财经大学统计学院20主成分分析在SPSS中的实现SPSS没有直接提供主成分分析的功能,需要借助于“因子分析”的模块实现。用SPSS进行主成分分析有几个操作环节需要特别注意。下面我们以讲义中应聘的例子加以说明。应聘者相关指标(15):简历格式、外观、学术能力、兴趣爱好、自信心、洞察力、诚信度、销售能力、工作经验、工作魄力、志向抱负、理解能力、潜力、求职渴望度、适应力中央财经大学统计学院21主成分分析在SPSS中的实现1、在SPSS中打开数据文件(或者录入数据)。中央财经大学统计学院22主成分分析在SPSS中的实现2、选择“分析”“降维”“因子分析”。AnalyzeDataReductionFactor3、把除了“编号”以外的变量选入“变量”框;4、单击“描述”按钮,在弹出的对话框中选中“系数”,以输出相关系数。其余选项使用默认值。单击“确定”。SPSS结果分析(部分)相关系数表相关系数表中有较大的相关系数,主成分分析可能有效。自信心洞察力诚信度推销能力工作经验简历格式.092.228-.107.271.548外貌.431.371.354.490.141研究能力.001.077-.030.055.266兴趣爱好.302.483.645.362.141自信心1.000.808.410.800.015洞察力.8081.000.356.818.147诚信度.410.3561.000.240-.156推销能力.800.818.2401.000.255工作经验.015.147-.156.2551.000工作魄力.704.698.280.815.337志向抱负.842.758.215.860.195理解能力.721.883.386.782.299潜能.672.777.416.754.348求职渴望度.482.527.448.563.215适应力.250.416.003.558.693特征值(部分)和贡献率前4个特征值为7.51,2.05,1.46,1.20。默认提取4个主成分,累计贡献率为81.49%。因子载荷矩阵这个表是因子分析的因子载荷矩阵,不是特征向量矩阵[aij]。要得到特征向量,需要将各列除以对应特征值的平方根。第1列除以根号7.5,第二列除以根号2.05,等等。特征向量这是根据SPSS的结果在Excel计算出的特征向量[aij]。根据这个表可以写出4个主成分的表达式。成份1234简历格式0.1620.4290.315-0.094外貌0.213-0.035-0.0230.262研究能力0.0400.237-0.4300.636兴趣爱好0.225-0.1300.4660.345自信心0.290-0.249-0.241-0.173洞察力0.315-0.131-0.150-0.071诚信度0.158-0.4050.2840.416推销能力0.324-0.029-0.186-0.198工作经验0.1340.5530.0830.068工作魄力0.3150.046-0.080-0.156志向抱负0.318-0.068-0.209-0.199理解能力0.331-0.023-0.1170.075潜能0.3330.022-0.0730.188求职渴望度0.259-0.0820.467-0.201适应力0.2360.4210.089-0.020中央财经大学统计学院27主成分表达式F1=0.162简历格式*+0.213外貌*+0.040学习能力*+……+0.236适应力*F2=……F3=…………式中带星号的变量表示标准化后的变量可以把标准化后的各个变量带入方程可以计算出主成分得分。中央财经大学统计学院28用SPSS计算的主成分得分1、把原始变量标准化;按照主成分的计算公式可以计算出主成分得分。注:SAS、S-plus、R等软件可以直接给出主成分的系数表和主成分得分。中央财经大学统计学院29主成分分析案例2100个学生的六门成绩(数学、物理、化学、语文、历史、英语)见STUDENT.SAV。根据数据进行主成分分析。中央财经大学统计学院30SPSS结果分析有比较高的相关系数,可以使用主成分分析方法。中央财经大学统计学院31特征值和贡献率前2个主成分的贡献率为81.42%。中央财经大学统计学院32成分矩阵和特征向量成分矩阵各列除以相应的特征值可以得出特征向量。第1主成分第2主成分数学-0.41700.3313物理-0.34880.4986化学-0.34910.4818语文0.46190.2877历史0.42690.4090英语0.43250.3996特征向量除以根号3.735除以根号1.133中央财经大学统计学院33主成分得分com1,com2为用公式计算出的主成分得分。对两个主成分变量进行分析(替代6门课程变量)中央财经大学统计学院因子分析中央财经大学统计学院35因子分析因子分析(factoranalysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。中央财经大学统计学院36一个例子例如,在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。中央财经大学统计学院37因子分析的例子这三个公共因子可以表示为:iiiiiiFFFx33221124,,1i称是不可观测的潜在因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分,称为特殊因子。321FFF、、i中央财经大学统计学院38因子分析与主成分分析的区别主成分分析分析与因子分析不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。主成分分析:原始变量的线性组合表示新的综合变量,
本文标题:第10章 主成份分析和因子分析
链接地址:https://www.777doc.com/doc-4802245 .html