您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 张文彤SPSS统计分析基础教程数据9-11课
统计软件系列课堂人大经济论坛—培训中心出品()SPSS系列培训之:信息浓缩技术--主成分分析、因子分析@文彤老师统计软件系列课堂人大经济论坛—培训中心出品()概述解决变量间多重共线性(datareduction)有太多的变量,希望能够消减变量,用一个新的、更小的由原始变量集组合成的新变量集作进一步分析新变量集能够更有利于简化和解释问题探讨变量内在联系和结构(structuredetection)观测变量之间的存在相互依赖关系由量表所反映出的受访者对卫生服务的真实满意度@文彤老师2SPSS统计分析系列培训统计软件系列课堂人大经济论坛—培训中心出品()概述本讲课程中涉及的方法其实质均为数据化简、信息浓缩,即将分散在多个变量中的同类信息集中、提纯,从而便于分析、解释和利用目的为浓缩信息目的为探讨内在结构正因如此,这些信息浓缩方法、特别是其中的因子分析方法,往往成为更复杂的多元分析方法的基石SPSS统计分析系列培训@文彤老师3统计软件系列课堂人大经济论坛—培训中心出品()主成分分析只是一种中间手段,其背景是研究中经常会遇到多指标的问题,这些指标间往往存在一定的相关,直接纳入分析不仅复杂,变量间难以取舍,而且可能因多元共线性而无法得出正确结论主成分分析的目的就是通过线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标,便于进一步分析尽可能保留原始变量的信息,且彼此不相关SPSS统计分析系列培训@文彤老师4统计软件系列课堂人大经济论坛—培训中心出品()自变量23.63.43.23.02.82.62.42.22.0自变量1605040SPSS统计分析系列培训@文彤老师5统计软件系列课堂人大经济论坛—培训中心出品()x1x2Y1Y2x1x2X1与x2相关Y1与Y2不相关2019年11月15日@文彤老师6统计软件系列课堂人大经济论坛—培训中心出品()主成分分析在主成分分析中,提取出的每个主成分都是原来多个指标的线性组合如有两个原始变量x1和x2,则一共可提取出两个主成分如下:z1=b11x1+b21x2z2=b12x1+b22x2SPSS统计分析系列培训@文彤老师7统计软件系列课堂人大经济论坛—培训中心出品()主成分分析原则上如果有n个变量,则最多可以提取出n个主成分,但如果将它们全部提取出来就失去了该方法简化数据的实际意义。多数情况下提取出前2~3个主成分已包含了90%以上的信息,其他的可以忽略不计。在进行主成分回归时,提取出的主成分能包含主要信息即可,不一定非要有准确的实际含义。SPSS统计分析系列培训@文彤老师8统计软件系列课堂人大经济论坛—培训中心出品()主成分分析方法用途主成分评价:当进行多指标的综合评价时,应用主成分方法将多指标中的信息集中为若干个主成分,然后加权求和,得到综合评价指数。主成分回归:通过对存在共线性的自变量进行主成分分析,从而在提取多数信息的同时解决共线性问题。SPSS统计分析系列培训@文彤老师9统计软件系列课堂人大经济论坛—培训中心出品()案例:各省经济发展情况综合评价现希望根据全国30个省市自治区经济发展基本情况的八项指标对其进行分析和排序。具体指标有:GDP、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值,数据文件见factor1.sav。SPSS统计分析系列培训@文彤老师10统计软件系列课堂人大经济论坛—培训中心出品()因子分析是一种多变量化简技术。目的是分解原始变量,从中归纳出潜在的“类别”,相关性较强的指标归为一类,不同类间变量的相关性较低。每一类变量代表了一个“共同因子”,即一种内在结构,因子分析就是要寻找该结构。探索性因子分析证实性因子分析@文彤老师11SPSS统计分析系列培训统计软件系列课堂人大经济论坛—培训中心出品()因子分析比如在市场调查中收集了食品的五项指标:味道、价格、风味、是否快餐食品、能量。经过因子分析后发现结果如下:x1=0.02z1+0.99z2+ε1x2=0.94z1-0.01z2+ε2x3=0.13z1+0.98z2+ε3x4=0.84z1+0.42z2+ε4x5=0.97z1-0.02z2+ε5SPSS统计分析系列培训@文彤老师12统计软件系列课堂人大经济论坛—培训中心出品()因子分析第一公因子主要影响价格、是否快餐食品和能量,代表“价廉”第二公因子主要影响味道和风味,代表“味美”ε代表特殊因子,只对当前变量有影响,表示该变量中独特的,不能被公因子所解释的特征@文彤老师13SPSS统计分析系列培训统计软件系列课堂人大经济论坛—培训中心出品()用途研究设计阶段/问卷效果评估阶段评价问卷的结构效度统计分析阶段解决变量间多重共线性寻找变量间潜在结构内在结构证实@文彤老师14SPSS统计分析系列培训统计软件系列课堂人大经济论坛—培训中心出品()适用条件样本量样本量与变量数的比例应在5:1以上总样本量不得少于100,而且原则上越大越好各变量间必须有相关性KMO统计量:0.9最佳,0.7尚可,0.6很差,0.5以下放弃Bartlett’s球形检验这些条件均是为了保证能够寻找出内在结构@文彤老师15SPSS统计分析系列培训统计软件系列课堂人大经济论坛—培训中心出品()分析步骤判断是否需要进行因子分析,数据是否符合要求进行分析,按一定标准确定提取的因子数目如果进行的是主成分分析,则将主成分存为新变量用于继续分析,步骤到此结束如果进行的是因子分析,则考察因子的可解释性,并在必要时进行因子旋转,以寻求最佳解释方式如有必要,可计算出因子得分等中间指标供进一步分析使用@文彤老师16SPSS统计分析系列培训统计软件系列课堂人大经济论坛—培训中心出品()因子分析公因子数量的确定主成分的累积贡献率:80~85%以上特征根:大于1综合判断因子分析时更重要的是因子的可解释性必要时可保留小于1的因子碎石图可以帮助确定因子数量@文彤老师17SPSS统计分析系列培训统计软件系列课堂人大经济论坛—培训中心出品()有关概念因子负荷即表达式中各因子的系数值,用于反映因子和各个变量间的密切程度,其实质是两者间的相关系数公因子方差比(Communalities)指的是提取公因子后,各变量中信息分别被提取出的比例,或者说原变量的信息量(方差)中由公因子决定的比例SPSS统计分析系列培训@文彤老师18统计软件系列课堂人大经济论坛—培训中心出品()有关概念特征根(Eigenvalue)可以被看成是主成分影响力度的指标,代表引入该因子/主成分后可以解释平均多少原始变量的信息。正因如此,一般对特征根大于1的因子才加以注意SPSS统计分析系列培训@文彤老师19统计软件系列课堂人大经济论坛—培训中心出品()分析实例案例:对各省经济数据的进一步分析奥林匹克资料:olymp88.sav因子旋转因子负荷的排序和禁止输出因子计算公式的生成SPSS统计分析系列培训@文彤老师20统计软件系列课堂人大经济论坛—培训中心出品()SPSS系列培训之:对应分析统计软件系列课堂人大经济论坛—培训中心出品()对应分析问题的提出分析分类变量间关系时,卡方检验只能给出总体有无关联的结论,但不能进行精细分析,在变量类别极多时于事无补Logistic模型在多分类时过于笨拙解决方案精细建模:对数线性模型直观展示:对应分析SPSS统计分析系列培训@文彤老师22统计软件系列课堂人大经济论坛—培训中心出品()对应分析特点是多维图示分析技术之一,结果直观、简单与因子分析有关分类资料的典型相关分析用于展示两个/多个分类变量各类间的关系高收入、黑人、男性倾向于反对开战研究较多分类变量间关系时较佳各个变量的类别较多时较佳均为四类以上@文彤老师23SPSS统计分析系列培训统计软件系列课堂人大经济论坛—培训中心出品()对应分析实质就是对列联表中的数据信息进行浓缩,然后以易于阅读的图形方式呈现出来以默认的卡方测量方式为例,首先以列联表为分析基础,计算基于H0假设的标化单元格残差SPSS统计分析系列培训@文彤老师理论频数观察频数-理论频数标准化残差=24统计软件系列课堂人大经济论坛—培训中心出品()对应分析实质将每行看成是一条记录,基于列变量相关系数阵进行因子分析,计算出列变量各类的负荷值将每列看成是一条记录,基于行变量相关系数阵进行因子分析,计算出行变量各类的负荷值局限性不能进行变量间相关关系的检验仍然只是一种统计描述方法解决方案的所需维度需要研究者决定对极端值敏感对于小样本不推荐使用@文彤老师25SPSS统计分析系列培训统计软件系列课堂人大经济论坛—培训中心出品()对应分析实际应用(保险业)我们某个险种的用户是谁?另外还有什么特征的人群也倾向于成为我们的用户?什么特征的人群还没有找到满意的险种,或者说现有险种还有哪种人群未能覆盖?我们提供的险种系列是否全面,有无哪些险种过于重叠,是否还有种类空白需要填补?@文彤老师26SPSS统计分析系列培训统计软件系列课堂人大经济论坛—培训中心出品()研究者收集了苏格兰北部Caithness郡5387名小学生眼睛与头发颜色的数据,见下表,其中眼睛有深、棕、蓝、浅四种颜色,头发有金、红、棕、深、黑五种颜色。研究者希望知道头发和眼睛的颜色间存在何种关联,即某种头发颜色的人起眼睛更倾向于何种颜色?表15.1头发颜色与眼睛颜色的交叉表头发颜色金色红色棕色深色黑色合计眼深色9848403681851315睛棕色34384909412261774颜蓝色326382411103718色浅色68811658418841580合计14552862137139111853872019年11月15日@文彤老师27统计软件系列课堂人大经济论坛—培训中心出品()2019年11月15日@文彤老师28SPSS统计分析系列培训@文彤老师28统计软件系列课堂人大经济论坛—培训中心出品()对应分析图的阅读每个维度可能代表了一种特征实际上就是一个提取出的主成分,但由于分类变量的信息较少,可能找不到合理的解释1.考察同一变量的区分度:如果同一变量不同类别在某个方向上靠得较近,则说明这些类别在该维度上区别不大。2.考察不同变量的类别联系:一般而言,落在从图形原点(0,0)处出发相同方位上大致相同区域内的不同变量的分类点彼此有联系。散点间距离越近,说明关联倾向越明显;散点离原点越远,也说明关联倾向越明显。SPSS统计分析系列培训@文彤老师29统计软件系列课堂人大经济论坛—培训中心出品()结果的正确解释错误的解释:金色头发的儿童中蓝色、浅色眼睛者居多正确的解释:相对于平均水平而言,金色头发的儿童中蓝色、浅色眼睛的比例要高一些,也就是高于其他颜色头发的儿童-1.0-0.50.00.51.01.52.0Dimension1-1.0-0.50.00.51.0Dimensi
本文标题:张文彤SPSS统计分析基础教程数据9-11课
链接地址:https://www.777doc.com/doc-1814595 .html