您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > spss统计分析_三大检验_回归诊断_因子分析(PPT52页)
T检验1.1比较均值/ANOVA1.2单样本T检验1.3两独立样本T检验1.4配对样本T检验1.1比较均值、ANOVA•均值和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。•这里我们考察身高的性别中的均值比较.点击分析(A),再点击比较均值(M),选择均值(M).如下图所示选择需要分析的对象,这里我们把身高作为因变量,性别作为自变量.如下图所示.在步骤3中,我们可以根据自己的需要,选择要得到的相关数值,点击选项,把统计量中自己需要的统计量点击到单元格统计量中,也可以在第一层的统计量中选择Anova表和eta(A)和线性相关检验,我们这里只选择前者.如图所示.根据男性和女性两种性别观察其身高均值情况单因素方差分析,原假设H0:总体中男性和女性在身高无显著差异,即所有总体的均值都相等。由于sig=0.110大于0.05,就接受H0,认为两组身高无显著差异。1.2单样本T检验•单样本T检验,主要用于检验单个变量的均值与指定的检验值之间是否存在显著性差异,•再者,样本均值与总体均值之间的差异显著性检验,也属于单样本T检验.•以耐电压值的平均值与500之间的差异显著性的检验问题为例.点击分析(A),选择比较均值(M),点击单样本T检验(S),如图所示将耐电压值放到检验变量(T)中,我们在这里将检验值设为500,如图所示点击选项(O),我们会发现置信区间百分比(C)的默认值为0.95,我们这里选择默认值通过结果我们可以看出:单个样本统计量包括检验的总体均值(304.68),标准差(224.18)以及t统计量(-3.896)等.本例的双侧Sig值为0.0000.05,因此认为在0.05的显著性水平下,拒绝虚无假设,接受对立假设,即耐电压值与500存在显著性差异。1.3独立样本t检验•两独立样本t检验的目的是利用来自两个总体的独立样本,推断两个总体的均值是否存在显著差异。•首先进行婚姻状况(已婚、未婚)两个总体方差同质性检验。•原假设(检验假设):H0:已婚、未婚两个总体方差具有同质性1)利用F检验判断两总体的方差是否相等;利用t检验判断两总体均值是否存在显著差异。•考察F检验,由0.865大于0.05,接受原假设,即在0.05显著水平下,样本数据显示,已婚、未婚两个总体方差具有同质性,满足均值检验的前提要求。•考察T检验,原假设H0:已婚、未婚两个总体在家庭收入上无显著差异。•由于SIG值0.566大于0.05,接受原假设,即在0.05显著水平上,样本数据显示,婚姻状况两个总体在家庭收入上无显著差异。1.4配对样本T检验•两配对样本t检验的目的是利用来自两个总体的配对样本,推断两个总体的均值是否存在显著差异。•和独立样本不同的是这两个整体是有联系的。•其检验思路就是做差值,转化为单样本t检验,最后转化为差值序列,通过看总体均值是否与0有显著差异做检验。找到分析-比较均值-配对样本T检验,将其单击打开。需要从原变量中选择成对变量进行配对。如下图所示,根据成对的变量自定义进行选择配对。单击选项,打开的是置信区间百分比,默认的是95%,缺失值的处理方法用第一种第一个表格是数据的基本描述。第二个是数据前后变化的相关系数,那个概率P值是相关系数的概率值,概率大于显著性水平0.05,则说明数据变化前后没有显著的线性变化,线性相关程度较弱。第三个表格是数据相减后与0的比较,通过概率值为0,小于显著性水平0.05,则拒绝原假设,相减的差值与0有较大差别,则表明数据变化前后有显著的变化。卡方检验(非参数检验)•卡方检验是用来判断样本是否来自一种总体的检验方法。就是根据样本的频率来推断总体的分布是否具有显著差异。•1.1变量独立性•1.2总体同质性1.1变量独立性(两种特征是否在总体分布独立)•先看到的第一个表格就是交叉表,婚姻状况为行、住房满意为列变量独立性检验:原假设H0:婚姻状况与住房满意度相互独立(总体中婚姻状况与住房满意度无显著影响)由于SIG值均大于0.05,故接受原假设,即在0.05显著水平上,婚姻状况与住房满意度无显著影响影响关系。1.2总体同质性检验•原假设:H0:婚姻状况总体在住房满意度上无显著差异。H1:婚姻状况总体在住房满意度上存在显著差异。•根据左表,由0.268、0.296、0.268均大于0.05,故接受原假设,即在0.05显著水平下婚姻状况在住房满意度上无显著差异。F检验•F检验在方差分析中的应用•F检验在回归模型显著性中的应用F检验在方差分析中的应用方差分析:通过分析单个或多个因素是否在不同水平样本下的均值存在显著性差异。单因素方差分析:用来研究一个因素的不同水平是否对观测变量产生了显著影响,即检验由单一因素影响的一个(或几个相互独立的)因变量在因素各水平分组的均值之间的差异是否均有统计意义。•首先剖析观察变量的方差。•SST(总离差平方和)=SSA(组间)+SSE(组内)•SSA占比较大即观察变量的变动主要是由因素的不同水平引起的,可有因素的变动来解释。•利用假设检验推断因素的不同水平是否对观测变量产生显著影响。•原假设H0是因素不同水平对观察变量不存在显著影响,采用的检验统计量是F统计量。不同的地区可能是导致广告销售额不同。本例中,地区是因素,其中有18个不同水平,广告销售额是因变量(观测变量)•这里的单因素方差分析主要研究在地区这一单一因素下,不同地区来源的广告销售额测度平均值是否相同,即进行如下假设检验。•H0:不同地区对广告销售额均值无显著性影响•H1:不同地区对广告销售额均值存在显著性影响实例结果及分析•方差齐性检验:Levene统计量等于2.881,由于P值0.078大于0.05,故认为数据的方差是相同的,满足方差分析的前提条件单因素方差分析表:第一列是方差来源,包括组间离差平方和、组内和总数;第二列势离差平方和;第三列是自由度df;第四列均方,是第二三列之比;第五列是F值32.66(组间均方与组内均方之比);第六列是F值对应的概率P值,其值等于0.000。由于概率P值小于0.05,故拒绝原假设,接受对立假设,认为不同地区对销售额测度平均值存在显著性影响。F检验在回归模型显著性中的应用实例分析:人均可支配收入和人均消费性支出•利用回归分析来分析人均可支配收入和人均消费性支出的关系。•建立回归模型:人均消费性支出=f(人均可支配收入)•首先绘制两组变量的散点,图形显示呈线性关系,可建立一元线性回归模型:expenditure=b0+b1*incomei+ei模型汇总即对方程拟合情况的描述,R方就是自变量所能解释的方差在总方差中所占的百分比,值越大说明模型的效果越好。案例计算的回归模型中R方等于0.994,模型拟合效果较好。•方差分析表是对回归模型进行方差分析的检验结果,主要用于分析整体模型的显著性。可以看到方差分析结果中F统计量等于4123,概率p,0.000小于显著性水平0.05,所以该模型是有统计学意义的,人均可支配收入与人均消费性支出之间的线性关系是显著的。回归系数表列出来本案例进行的医院回归模型常数项、回归系数的估计值和检验的结果。可见b0=158.512,b1=0.756,故回归方程如下:年人均消费性支出=158.512+0.756*年人均可支配收入,即人均可支配收入每增加一个单位,年人均消费性支出增加0.756个单位。因子分析:主成分分析的内在原理和过程•方法概述:因子分析法就是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。•基本思想:对原始的数据进行分类归并,将相关比较密切的变量分别归类,归出多个综合指标,这些综合指标互不相关,即它们所综合的信息互相不重叠。这些综合指标就称为因子或公共因子,就能相对容易地以较少的几个因子反映原资料的大部分信息。•因子分析法的核心是对若干综合指标进行因子分析并提取公共因子,再以每个因子的方差贡献率作为权数与该因子的得分乘数之和构造得分函数。因子分析的计算过程•1.将原始数据标准化,以消除变量间在数量级和量纲上的不同。•2.求标准化数据的相关矩阵•3.求相关矩阵的特征值和特征向量•4.计算方差贡献率与累计方差贡献率•5.确定因子:设F1,F2,...,Fp个因子,其中前m个因子包含的数据信息总量,即其累计贡献率,不低于85%时,可取前m个因子来反映原评价指标。•6.因子旋转:若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。•7.用原指标的线性组合来求各因子得分•8.综合得分:通常以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。实例分析:全国各地区不同所有制单位平均收入排名•下图是全国各地区不同所有制单位平均收入情况,具体包括国有经济单位、集体经济单位、联营经济单位等7个部分。利用主成分分析探讨各地区按所有制类别分类的排名。•进行因子分析前,可以计算相关系数矩阵、巴特李特球度检验和KMO检验等方法来检验候选数据是否适合采用因子分析。实例操作略,直接看实例结果及分析•描述性统计表显示了国有经济单位、集体经济单位等七个指标的描述统计量。因子分析共同度显示了所有变量的共同度数据。第二列是初始解,对原有七个变量如采用主成分分析法提取所有特征根,那么原有变量的所有方差都可被解释,变量的共同度均为1,原有变量标准化后的方差为1。。•因子个数小于原有变量的个数才是因子分析,所以不能提取全部。•第三列列出来按指定条件提取特征根时的共同度。•所有变量的绝大部分信息可被因子解释,变量信息丢失较少,因此本次因子提取的总体效果理想•上图为因子分析的总方差解释,是相关系数矩阵的特征值、方差贡献率及累计方差贡献率的计算结果。•第一列是因子编号,后三列组成一组。第一组数据项描述了初始因子解的情况。可以看到,第一个因子的特征根值为5.502,解释了原有7个变量总方差的78%;前三个因子的累计方差贡献率为92.141%,说明前三个公因子基本包含了全部变量的主要信息,因此选择前三个因子为主因子即可。•同时,被提取的载荷平方和旋转和的平方载荷数据组列出了因子提取后和旋转后的因子方差解释情况。•因子碎石图:横坐标为因子数目,纵坐标为特征值。可以看到,第一个因子的特征值很高,对解释原有变量的贡献最大;第三个以后的因子特征根都较小,说明他们对解释原有变量的贡献很小。该表显示了旋转钱的因子载荷矩阵,是因子分析的核心内容。通过过载荷系数大小可以分析不同公共因子所反映的主要指标的区别。少部分指标解释能力较差,采用因子旋转方法使得因子载荷系数向0和1两极分化,是大的载荷更大,小的更小。•旋转后的各个因子的含义更加突出。每个公因子都有反映几个方面的变动情况。•第一个公因子反映交大载荷的有外商、国有、港澳台、股份制、集体经济单位;第二个有联营经济单位;第三个则是其他经济单位。•该表列出来采用回归法估计得因子得分系数。根据表中的内容可写出因子得分系数。•在利用原数据文件增加的三个变量,乘以对应的方差贡献率权重,加总得到综合评价得分。回归分析:五条假设,系数解读•零均值假定:随机误差项ε均值为0(异方差)•等方差假定:εi方差同为σ2且σ为常数•正态性假定:随机误差项ε服从均值为0,方差为σ2的正态分布•独立性假定:随机误差项ε不存在序列相关(自相关)。•非共线性假定:解释变量间互不相关,且随机误差项ε与解释变量间也不相关(多重共线)。回归分析的步骤•(1)观察变量间是否有线性趋势(作散点图或线性相关分析)•(2)考察因变量的正态性•(3)作直线回归•(4)回归模型显著性和变量的显著性检验•(5)残差分析(独立性检验、正态性检验、方差齐性检验)•(6)异常值与共线性诊断线性趋势:自变量与因变量之间呈线性关系,可以以年人均可支配收入作为Y轴,人均使用面积和教育支出作为X轴,通过绘制散点图来加以判断是不是满足此要求。1.是否存在异方差先看pp图再看ks检验•1.由pp图,残差图具有一定规律,分布在对角线左右,初步判断模型的误差项符合高斯马尔科夫前提关于误差项的分布。(h0:
本文标题:spss统计分析_三大检验_回归诊断_因子分析(PPT52页)
链接地址:https://www.777doc.com/doc-696768 .html