您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > SPSS系列培训高级课程注意事项
1SPSS系列培训:高级课程注意事项变量测量尺度多变量统计分析法分类图关于统计分析的常见误解软件的自动化功能可以代为选择适当模型大部分情况都应当以P值为准加以取舍最符合统计学标准/原则的候选模型是最佳模型专业知识永远都在统计分析结果之上复杂的统计模型其效果要优于简单模型一般而言,模型总是越简洁越好方差分析模型入门@文彤老师模型表达式入门假设现在希望描述某个人群的月收入状况,那么根据统计学知识,均数能够表示集中趋势,标准差能够表示离散趋势,则任何一位受访者i的月收入Xi该如何表达?显然,这里的的εi应当服从正态分布,其均数为0,标准差为相应总体标准差在只有样本信息时,样本均数和标准差就是上述参数的最佳估计值模型表达式入门现在希望比较三种职业的月收入有无差异,这三类职业分别是医生、律师和软件工程师如果我们仍然希望能够对每一个个体的数据加以表达,应当如何做?模型表达式入门:单因素方差分析将上面三个式子可以合并如下:为了进一步分析的方便,一般都会寻找一个均数的参照水平,将其余组的平均水平与之相比显然,这样的组合会有许多种,因此模型在实际分析的时候往往会加上一些限制条件,比如假设参照水平是最后一个组的均数,这被称为拟合的约束条件模型表达式入门由于在常见的研究中,我们更关心各组均数的差别,对于标准差的差别则比较忽视,因此在最初的方差分析模型中,往往将不同组的εij假设为服从相同的正态分布(就是说相同)注意:在后来发展的混合效应模型和多水平模型中,各组间离散程度的差异也进入了研究视野,此时模型不一定会加入此限制模型表达式入门2如果职业1和职业2的平均收入不相等,则应当有α1≠α2H0:α1=α2如果三种职业的平均收入无差异,则应当有α1=α2=α3=0,此时如果采用适当的参照水平,就有H0:αi=0,H1:至少有一个αi≠0案例:胶合板磨损深度的比较现希望比较四种胶合板的耐磨性,分别从这四个品牌的胶合板中抽取了5个样品,在相同的转速下磨损相同时间,测量其被磨损的深度(mm),现希望对此进行分析,数据见veneer.sav方差齐性检验模型参数估计值与设计矩阵两两比较方法LSD法:实际上就是t检验的变形,只是在变异和自由度的计算上利用了整个样本信息,因此仍然存在放大一类错误的问题Scheffe法:当各组人数不相等,或者想进行复杂的比较时,用此法较为稳妥。但它相对比较保守两两比较方法S-N-K法:是运用最广泛的一种两两比较方法。它采用StudentRange分布进行所有各组均值间的配对比较。该方法保证在H0真正成立时总的α水准等于实际设定值,即控制了一类错误方差不齐时的两两比较方法:一般认为是Games-Howell法稍好一些,但最好直接使用非参数检验方法两两比较方法的选择多因素方差分析模型目的:在同时考虑若干个控制因素的情况下,分别分析它们的改变是否造成观察变量的显著变动模型表达式入门如果只研究职业的影响如果只研究性别的影响同时考虑职业和性别对收入的影响方差分析模型常用术语因素(Factor)因素是可能对因变量有影响的变量,一般来说,因素会有不止一个水平,而分析的目的就是考察或比较各个水平对因变量的影响是否相同。水平(Level)因素的不同取值等级称作水平,例如性别有男、女两个水平。方差分析模型常用术语3单元(Cell)单元亦称试验单位(ExperimentalUnit),指各因素的水平之间的每种组合。指各因素各个水平的组合,例如在研究性别(二水平)、血型(四水平)对成年人身高的影响时,该设计最多可以有2*4=8个单元。注意在一些特殊的试验设计中,可能有的单元在样本中并不会出现,如拉丁方设计。方差分析模型常用术语元素(Element)指用于测量因变量值的观察单位,比如研究职业与收入间的关系,月收入是从每一位受访者处得到,则每位受访者就是试验的元素一个单元格内可以有多个元素,也可以只有一个,甚至于没有元素。这主要在一些特殊的设计方案中出现,如正交设计方差分析模型常用术语均衡(Balance)如果在一个实验设计中任一因素各水平在所有单元格中出现的次数相同,且每个单元格内的元素数均相同,则该试验是均衡的,否则,就被称为不均衡。不均衡的实验设计在分析时较为复杂,需要对方差分析模型作特别设置才能得到正确的分析结果。方差分析模型常用术语固定因素(FixedFactor)指的是该因素在样本中所有可能的水平都出现了。从样本的分析结果中就可以得知所有水平的状况,无需进行外推。绝大多数情况下,研究者所真正关心的因素都是固定因素。性别:只有两种疗法:只有三种方差分析模型常用术语随机因素(RandomFactor)该因素所有可能的取值在样本中没有都出现,目前在样本中的这些水平是从总体中随机抽样而来,如果我们重复本研究,则可能得到的因素水平会和现在完全不同!这时,研究者显然希望得到的是一个能够“泛化”,即对所有可能出现的水平均适用的结果。这不可避免的存在误差,需要估计误差的大小,因此被称为随机因素。方差分析模型常用术语协变量(Covariates)指对因变量可能有影响,需要在分析时对其作用加以控制的连续性变量实际上,可以简单的把因素和协变量分别理解为分类自变量和连续性自变量当模型中存在协变量时,一般是通过找出它与因变量的回归关系来控制其影响方差分析模型常用术语交互作用(Interaction)如果一个因素的效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互作用。当存在交互作用时,单纯研究某个因素的作用是没有意义的,必须分另一个因素的不同水平研究该因素的作用大小。效应的检验方法4无论模型结构多复杂,假设检验都是基于变异分解的原理进行的,都是F检验。根据变异分解式,可以将总的样本离均差平方和分解成各个部分,随后各个离均差平方和除以自由度可得到均方,进而将各效应的均方和误差均方相比较,就得到了F统计量方差分析模型的检验层次对总模型进行检验对模型中各交互效应、主效应进行检验交互项有统计学意义:分解为各种水平的组合情况进行检验交互项无统计学意义:进行主效应各水平的两两比较方差分析模型的适用条件从模型表达式出发得到的提示各样本的独立性:只有各样本为相互独立的随机样本,才能保证变异的可加性(可分解性)正态性:即个单元格内的所有观察值系从正态总体中抽样得出方差齐:各个单元格中的数据离散程度均相同,即各单元格方差齐方差分析模型的适用条件实际运用在多因素方差分析中,由于个因素水平组合下来每个单元格内的样本量可能非常少,这样直接进行正态性、方差齐检验的话检验效能很低,实际上没什么用因此真正常见的做法是进行建模后的残差分析案例:超市规模、货架位置与销量的关系现希望现希望考察对超市中销售的某种商品而言,是否其销售额会受到货架上摆放位置的影响,除此以外,超市的规模是否也会有所作用?甚或两者间还会存在交互作用?Berenson和Levine(1992)着手研究了此问题,他们按照超市的大小(三水平)、摆放位置(四水平)各随机选取了两个点,记录其同一周内该货物的销量。案例:超市规模、货架位置与销量的关系方差齐性检验问题边际均数和轮廓图残差分布图案例:广告宣传效果的比较现希望研究四种广告的宣传效果有无差异,具体的广告类型为:店内展示、发放传单、推销员展示、广播广告。在本地区共有几百个销售网点可供选择,出于经费方面的考虑,在其中随机选择了18个网点进入研究,各网点均在规定长度的时间段内使用某种广告宣传方式,并记录该时间段内的具体销售额。为减小误差,每种广告方式在每个网点均重复测量两次。数据见ranavona.sav。5SPSS系列培训之:方差分析模型进阶多元方差分析模型重复测量方差分析模型模型入门重复测量指的是一个因变量被重复测量好几次,比如说研究某种药物的疗效,在患者用药后两周、四周、六周、八周时分别测量相应疗效指标,这种情况就是重复测量。同一个体的不同次测量间往往存在相关性,此时用单因素模型来分析,就会得出错误结论,需要按照一定标准对结论进行校正。重复测量模型所考虑的主要问题分组因素是否有作用由于在对研究对象的重复观测中,每一次观测都反映了组间因素的作用,可以考虑将各次测量点的信息完全综合起来,以得到一个更为客观和准确的检验结果具体的做法就是通过计算同一测量对象各时间点测量结果的均数及其标准差,用它来描述因变量在不同时间点的总体平均水平及变异程度,从而将多个观察结果综合成了一个因变量,随后就可以按照标准的方差分析思路进行分析重复测量模型所考虑的主要问题随着重复测量的进行,(时间)是否有作用计算相邻两个时间点的差值,共k-1个,然后进行这些差值的总体向量是否为0向量的多元方差分析SPSS系列培训之:相关分析与线性回归模型相关分析任意多个变量都可以考虑相关问题任意测量尺度的变量都可以测量相关强度常用术语直线相关两变量呈线性共同增大呈线性一增一减曲线相关两变量存在相关趋势并非线性,而是呈各种可能的曲线趋势正相关与负相关完全相关相关分析Bivariate过程进行两个/多个变量间的参数/非参数相关分析如果是多个变量,则给出两两相关的分析结果Partial过程6对其他变量进行控制输出控制其他变量影响后的相关系数相关分析Distances过程对同一变量内部各观察单位间的数值或各个不同变量间进行相似性或不相似性(距离)分析前者可用于检测观测值的接近程度后者则常用于考察各变量的内在联系和结构一般不单独使用,而是作为MDS的预分析过程典型相关分析相关分析Bivariate过程案例:考察信心指数值和年龄的相关性散点图非参数相关系数相关分析Partial过程在控制家庭收入QS9对总信心指数影响的前提下,考察总信心指数值和年龄的相关性。相关分析和回归分析的关系回归分析概述研究一个连续性变量(因变量)的取值随着其它变量(自变量)的数值变化而变化的趋势通过回归方程解释两变量之间的关系显的更为精确,可以计算出自变量改变一个单位时因变量平均改变的单位数量,这是相关分析无法做到的除了描述两变量的关系以外,通过回归方程还可以进行预测和控制,这在实际工作中尤为重要回归分析概述回归分析假定自变量对因变量的影响强度是始终保持不变的,如公式所示:对于因变量的预测值可以被分解成两部分:常量(constant):x取值为零时y的平均估计量,可以被看成是一个基线水平回归部分:它刻画因变量Y的取值中,由因变量Y与自变量X的线性关系所决定的部分,即可以由X直接估计的部分回归分析概述Ŷ:y的估计值(所估计的平均水平),表示给定自变量的取值时,根据公式算得的y的估计值a:常数项,表示自变量取值均为0时因变量的平均水平,即回归直线在y轴上的截距多数情况下没有实际意义,研究者也不关心7b:回归系数,在多变量回归中也称偏回归系数。自变量x改变一个单位,y估计值的改变量。即回归直线的斜率回归分析概述估计值和每一个实测值之间的差被称为残差。它刻画了因变量y除了自变量x以外的其它所有未进入该模型,或未知但可能与y有关的随机和非随机因素共同引起的变异,即不能由x直接估计的部分。为了方程可以得到估计,我们往往假定i服从正态分布N(0,σ2)。案例:销量影响因素分析某专门面向年轻人制作肖像的公司计划在国内再开设几家分店,收集了目前已开设的分店的销售数据(Y,万元)及分店所在城市的16岁以下人数(X1,万人)、人均可支配收入(X2,元),数据见reg.sav。试进行统计分析。实际上拟合的模型如下:模型适用条件线性趋势独立性正态性方差齐性如果只是探讨自变量与因变量间的关系,则后两个条件可以适当放宽样本量根据经验,记录数应当在希望分析的自变量数的20倍以上为宜实质上样本量和模型的决定系数有关,可通过迭代的方法进行计算常用指标偏回归系数相应的自变量上升一个单位时,因变量取值的变动情况,即自变量对因变量的影响程度。标化偏回归系数:量纲问题决定系数相应的相关系数的平方,用R2表示,它反映因变量y的全部变异中能够通过回归关系被自变量解释的比例。线性回归模型简介分析步骤做出散点图,观察变量间的趋势线性回归模型简介分析步骤考察数据的分布,进行必要的预处理。即分析变量
本文标题:SPSS系列培训高级课程注意事项
链接地址:https://www.777doc.com/doc-2860044 .html