您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 多元统计分析及spss实现
多元统计分析及spss实现数理部任铭多元统计分析方法从研究问题的角度可以分为不同的类,相应有具体解决问题的方法。问题内容方法数据或结构性化简尽可能简单地表示所研究的现象,但不损失很多有用的信息,并希望这种表示能够很容易的解释。多元回归分析、聚类分析、主成分分析、因子分析、相应分析、多维标度法、可视化分析分类和组合基于所测量到的一些特征,给出好的分组方法,对相似的对象或变量分组。判别分析、聚类分析、主成分分析、可视化分析变量之间的相关关系变量之间是否存在相关关系,相关关系又是怎样体现。多元回归、典型相关、主成分分析、因子分析、相应分析、多维标度法、可视化分析预测与决策通过统计模型或最优准则,对未来进行预见或判断。多元回归、判别分析、聚类分析、可视化分析假设的提出及检验检验由多元总体参数表示的某种统计假设,能够证实某种假设条件的合理性。多元总体参数估计、假设检验多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。本讲重点介绍常用的统计方法。这些方法包括聚类分析、主成分分析、因子分析、判别分析、对应分析、典型相关分析、方差分析、回归分析等。典型统计赛题:葡萄酒评价(2012年A题)葡萄酒评价(2012年A题)内容提纲1、数据处理2、描述性统计3、聚类分析4、主成分分析5、因子分析6、判别分析7、方差分析8、回归分析一、数据处理SPSS界面介绍建立数据文件制图一、数据处理——SPSS界面介绍数据编辑窗口一、数据处理——SPSS界面介绍结果编辑窗口一、数据处理——建立数据文件定义变量数据录入数据文件的保存数据编辑调用其它数据文件一、数据处理——建立数据文件:定义变量单击数据编辑窗口左下方的“VariableView”标签或双击题头(Var),进入变量定义窗口。可定义:变量名(Name)变量类型(Type)变量长度(Width)小数点位数(Decimal)变量标签(Label)变量值标签(Values)缺失值的定义方式(Missing)变量的显示宽度(Columns)变量显示的对齐方式(Align)变量的测量尺度(Measure)一、数据处理——建立数据文件:定义变量定义变量名(Name)时,应注意:(1)变量名可为汉字或英文,英文的第一个字符必须为字母,后面可跟任意字母、数字、句点或@、#、_、$等;(2)变量名不能以句点结尾;(3)定义时应避免最后一个字符为下划线“_”(因为某些过程运行时自动创建的变量名的最后一个字符有可能为下划线);(4)变量的长度一般不能超过8个字符;(5)每个变量名必须保证是唯一的,不区分大小写。常用的变量类型(Type)包括:数值型、字符串型、日期格式变量等。一、数据处理——建立数据文件:数据录入直接录入调入数据:excel、记事本等一、数据处理——建立数据文件:保存选择“File”菜单的“Save”命令,可直接保存为SPSS默认的数据文件格式(*.sav)。选择“File”菜单的“SaveAs”命令,弹出“SaveDataAs”对话框,可选择保存为Excel(*.xls)等文件格式。一、数据处理——建立数据文件:数据编辑(1)数据的排序:数据→排序个案…数据→排列变量…(2)数据的转置:数据→转置…分割文件、重组、选择个案等一、数据处理——制图主要通过“Graph”菜单中的选项来创建图形二、描述性统计例2.1:数据2.1给出了员工代码、性别、起始薪金、当前薪金等信息:1.利用频率计算当前薪金的描述性统计量,并绘制带正态检验的直方图;2.利用探索性分析不同性别员工当前薪金情况;3.用比率分析比较不同性别员工的薪金增长率是否有较大差异;4.用P-P图和Q-Q图检验当前薪金是否符合正态分布二、描述性统计1.利用频率计算当前薪金的描述性统计量,并绘制带正态检验的直方图二、描述性统计1.利用频率计算当前薪金的描述性统计量,并绘制带正态检验的直方图二、描述性统计2.利用探索性分析不同性别员工当前薪金情况单击“分割文件”按钮,将“性别”指定为分组方式,选中“比较组”,单击“确定”分析→描述统计→描述,将“当前薪金”指定为变量,单击“选项”按钮,选中所需统计量,单击“继续”,单击“确定”分析→描述统计→探索,将“当前薪金”指定为因变量,将“性别”指定为因子,单击“绘制”,选定“直方图”,单击“继续”,单击“确定”二、描述性统计2.利用探索性分析不同性别员工当前薪金情况p值小于0.05,通过正态性检验,即认为当前薪金分布服从正态分布二、描述性统计3.用比率分析比较不同性别员工的薪金增长率是否有较大差异分析→描述统计→比率,将“当前薪金”指定为分子,将“起始薪金”指定为分母,将“性别”指定为组变量,单击“统计量”,选中:均值、置信区间、AAD、PRD、COD,单击“继续”,单击“确定”二、描述性统计3.用比率分析比较不同性别员工的薪金增长率是否有较大差异二、描述性统计4.用P-P图和Q-Q图检验当前薪金是否符合正态分布Q-Q图是一种散点图,对应于正态分布的QQ图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图.要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值.用QQ图还可获得样本偏度和峰度的粗略信息.P-P图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。通过P-P图可以检验数据是否符合指定的分布。当数据符合指定分布时,P-P图中各点近似呈一条直线。如果P-P图中各点不呈直线,但有一定规律,可以对变量数据进行转换,使转换后的数据更接近指定分布。P-P图和Q-Q图的用途完全相同,只是检验方法存在差异聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理;R型聚类是对变量进行分类处理。三、聚类分析——聚类分析的概念及分类在聚类之前,要首先分析样品(变量)间的相似性。样品相似性度量(距离):即两个样品间相似程度就可用p维空间中的两点距离公式来度量。变量相似性度量(夹角余弦、相关系数)相对于数据的大小,我们更关心变量的方向及相关性三、聚类分析——相似性度量三、聚类分析——相似性度量几种距离1、闵式距离11()()nqqijikjkkdqxx绝对距离(q=1)欧氏距离(q=2)切比雪夫距离(q=∞)欧氏距离是常用的距离,但在解决多元数据的分析问题时,欧氏距离就显示出了它的不足之处。一是它没有考虑到总体的变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,既使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的。为了克服这方面的不足,可用“马氏距离”的概念。2、马氏距离21(,)()'()ijijijijdXXXXXΣX马氏距离又称为广义欧氏距离。显然,马氏距离与上述各种距离的主要不同就是它考虑了观测变量之间的相关性。如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。马氏距离还考虑了观测变量之间的变异性,不再受各指标量纲的影响。将原始数据作线性变换后,马氏距离不变。三、聚类分析——相似性度量三、聚类分析——相似性度量3.距离选择的原则一般说来,同一批数据采用不同的距离公式,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的距离公式的侧重点和实际意义都有不同。因此我们在进行聚类分析时,应注意距离公式的选择。通常选择距离公式应注意遵循以下的基本原则:(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。变量相似性度量1、夹角余弦cosijijijxxxx2、相关系数12211()()()()pikijkjkijppikijkjkkxxxxrxxxx三、聚类分析——相似性度量无论是夹角余弦还是相关系数,它们的绝对值都小于1,作为变量近似性的度量工具,我们把它们统记为cij。当∣cij∣=1时,说明变量Xi与Xj完全相似;当∣cij∣近似于1时,说明变量Xi与Xj非常密切;当∣cij∣=0时,说明变量Xi与Xj完全不一样;当∣cij∣近似于0时,说明变量Xi与Xj差别很大。据此,我们把比较相似的变量聚为一类,把不太相似的变量归到不同的类内。在实际聚类过程中,为了计算方便,我们把变量间相似性的度量公式作一个变换为dij=1∣cij∣或者dij2=1cij2来表示变量间的距离远近,小则先聚成一类,这比较符合人们的一般思维习惯。三、聚类分析——相似性度量A)系统聚类法B)K均值聚类法三、聚类分析——常见聚类方法A)系统聚类法系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。系统聚类过程是:假设总共有n个样品(或变量),第一步将每个样品(或变量)独自聚成一类,共有n类;第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n1类;第三步将“距离”最近的两个类进一步聚成一类,共聚成n2类;……,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。为了直观地反映以上的系统聚类过程,可以把整个分类系统画成一张谱系图。所以有时系统聚类也称为谱系分析。三、聚类分析——常见聚类方法系统聚类法与聚类步骤流程图初始分类:;,,2211nnxGxGxGnk若与距离最小,合并为一类iGjG1nkmkno输出分类结果yesB)K均值聚类系统聚类法需要计算出不同样品或变量的距离,还要在聚类的每一步都要计算“类间距离”,相应的计算量自然比较大;特别是当样本的容量很大时,需要占据非常大的计算机内存空间,这给应用带来一定的困难。而K—均值法是一种快速聚类法,采用该方法得到的结果比较简单易懂,对计算机的性能要求不高,因此应用也比较广泛。K均值法是麦奎因(MacQueen,1967)提出的,这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法至少包括以下三个步骤:1.将所有的样品分成K个初始类;2.通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标;3.重复步骤2,直到所有的样品都不能再分配时为止。三、聚类分析——常见聚类方法K-均值聚类法步骤流程图寻找k个凝聚点:12,,,iiikxxx若则;得1(,)min(,)limlijjkdxxdxx0lmxG00012,,,kGGG计算各类的重心:12,,,kxxx若则;得1(,)min(,)lmljjkdxxdxxklGx12,,,kGGG计算各类的重心:12,,,kxxx重心改变输出分类结果yesnoMatlab聚类分析工具箱:cluster三、聚类分析——Matlab聚类分析工具箱三、聚类分析——SPSS实现例3.1:(数据3.1)已知全国31个省市的城市小康水平衡量指标值,现要分析各省市城市水平情况及相似程度,采用聚类分析法将31个省市分为3类,并用判别分析法分析城市水平划分所依据的主要变量,并验证聚类分析所划分类别是否合理。三、聚类分析——SPSS实现三、聚类分析——SPSS实现三、聚类分析——SPSS实现四、主成分分析——主要目的
本文标题:多元统计分析及spss实现
链接地址:https://www.777doc.com/doc-3958891 .html