您好,欢迎访问三七文档
第九章混合线性模型MixedLinearModel层次结构的资料•例如在市场研究的抽样调查中,受访者会来自不同的城市,这就形成了一个层次结构,高层为城市,低层为受访者。显然,同一城市内的受访者在各方面的特征应当更加相似。•又如在几个随机选择的中心或组进行的临床试验,中心间的医疗水平不同,在相同中心的病人也往往比从一般总体中随机抽取的个体趋向于更相似。•换言之,所谓层次是指基本的观察单位聚集在更高层次的不同单位中,如同一城市的受访者特征间具有相关性,同一中心的病人数据具有相关性等。•传统模型没有对这些问题进行考虑,在数据组内聚集性较强时可能会得出错误结论。离散趋势的分析•在传统的统计分析方法中,对集中趋势(均数)的分析方法已经发展到了比较完善的地步,但对于离散趋势的分析则还处于正在起步的阶段。•即我们可以准确的推断是哪些因素对应变量的均数有影响,却无法分析是哪些因素对应变量的变异程度有影响。这一问题现在越来越受到重视,已成为统计理论的一个重要发展方向。混合效应模型•混合效应模型是八十年代初针对资料的层次结构而发展起来的一类模型,它充分考虑到了数据聚集性的问题,可以在数据存在聚集性的时候对影响因素进行正确的估计和假设检验。•不仅如此,它还可以对变异的影响因素加以分析,即哪些因素导致了数据间聚集性的出现,哪些又会导致个体间变异的增大。•由于该模型成功解决了长期困扰统计学界的数据聚集性问题,二十年来得到了飞速的发展。各大权威统计软件纷纷开始提供这一分析方法,SPSS11.0版中也新增了这模块,借助SPSS简洁的操作界面,无疑将使得多水平模型的操作性大为改观,真正做到“飞入寻常百姓家”。1模型简介初级学校项目(JuniorSchoolProject,JSP)•JSP.sav是“初级学校项目”(JuniorSchoolProject,JSP)的一部分,它共包含了伦敦65所初级学校中共4059名学生的数据,文件中包括了如下变量:•School:学生所在学校的代码,取值为1~65。•Student:每个学生在学校内的ID号。•Nomexam:学牛在16岁时的考试成绩,己进行了标准正态变换。•Standlrt:学生在11岁时的考试成绩,已进行了标准正态变换。•Gender:学生的性别。•Schgend:学校的类型,1为男女混合,2为男校,3为女校。•Avslrt:各个学校学生11岁考试成绩的平均数,已进行了标准正态变换。1.1模型入门•以11岁的成绩为自变量建立针对16岁时成绩的回归方程,在考虑到学校间差异的影响时,一般线性模型建立的回归模型如下:•yij=α+β1standlrtij+∑βjschoolj+εij•β1代表了11岁成绩的影响,后面的βj则表示了第j个学校的效应,εij为第j个学校第i个学生的随机误差,被假定为服从均数为0的正态分布。•请大家注意,在混合效应模型中,下标的使用顺序和一般线性模型恰恰相反!以前我们说yij代表了第i所学校第j个学生的数值,现在则为第j所学校第i个学生的数值,即i代表了最小的观察单位(学生),j代表高一级的观察单位(学校),如果有更高层次(如城市),则会以k来代表,以此类推。为统一起见,我们在本章中却会这样定义模型。•单独一所学校时的情况•yi=α+β1standlrti+εi•其中下标i代表第i个学生。在单独考虑这一所学校时,该模型是非常完善的,但当同时考虑多所学校时问题就出现了。显然,各个学校的教学水平是有差异的,也就是说同一所学校学生的成绩之间实际上并不独立,好学校的学生成绩会普遍好一些,差学校的成绩会普遍差一些。•几所学校的模型•yij=(α0+μ0j)+β1standlrtij+εij•yij代表了第j所学校第i个学生16岁成绩的大小。其中的μ0j就表示了不同学校间截距的变异。如果样本中学校个数m不多,且研究者的兴趣就在样本中的这几所学校,则可以将学校看成是一个固定因素,用一组m-1个哑变量表示,拟合m+1个参数来进行分析,此时μ0j就是对应于那m-1个哑变量的参数,该模型实际上就是刚才列出的最常用的模型公式:•yij=α+β1standlrtij+∑βjschoolj+εij•如果我们不仅只关注这几所学校,而是关注更广泛的学校总体,那么就需要估计在学校总体中截距的变异有多大,此时实际上是将原来的α真正当作一个随机变量来看待,令其为α=α0+μ0j,这样,通过检验μ0j是否为0(具体方法为检验其方差是否大于0),我们就可以得知这种截距的变异在学校总体中是真的存在,还是仅仅因为抽样导致的假象而已。此时模型需要同时估计随机项μ0j的大小,就成为了一个真正的混合效应模型。•下面我们来观察更多的数据,图3.3是前10所学校各自的回归线,从中我们可以看到除了截距以外,各回归线的斜率间也不尽相同。也就是说,成绩在学校间的聚集性除了表现为成绩的平均水平不同外,还表现在不同学校中成绩的离散度上!斜率高的学校其16岁成绩离散度较高,斜率低的则成绩比较集中。同上,模型将被继续扩展如下:•yij=(α0+μ0j)+(β1+μ1j)standlrtij+εij•同理,通过检验随机项μ1j是否等于0,我们就可以得知是否各个学校的成绩离散度不同。更一般的,模型中的随机项常常被写在一起,如下所示:•yij=(α0+β1standlrtij)+(μ0j+μ1jstandlrtij+εij)•上式中的两部分分别被称为固定部分和随机部分,可见和普通的线型模型相比,混合线性模型主要是对原先的随机误差进行了更加精细的分解。但正因如此,该模型就可以正确估计并分析数据在高水平单位内聚集的问题,同时可以为研究者提供更加丰富的信息。1.2混合效应模型的用途•1.对固定效应参数进行更准确的估计–由于在模型的设置上就考虑到了数据的聚集性问题,并采用了相应的迭代方法加以拟合,混合效应模型可以获得回归系数的有效估计,并且可以提供正确的标准误,从而假设检验的结果也更加准确。–一般来说,它比传统方法更“保守”,后者的标准误是通过简单地忽略聚集的存在而获得,往往并不准确。这一问题在聚集性较强的时候更为明显。•2.对变异的影响因素加以研究–传统模型对离散趋势的估计、推断及影响因素研究几乎是无能为力的,而这正是多水平模型的特长。–通过对模型的精细设置,研究者可以探讨数据的变异究竟是否在高层次中存在聚集性,而这种变异间的差异又是由哪些变量的不同所导致的,从而可为控制某些数据的离散度提供线索。•3.重复测量资料的分析及规律探讨–传统模型也可以对重复测量资料加以分析,但是,一般而言,这些方法需要数据是平衡的,即要求每一个体有相同次数的重复测量值。但在实践上,测量次数常是不规则的,有的个体有很多测量值,而有的可能只有一个,此时传统模型的估计可能有误。–而混合效应模型通过将这种数据看成为一般的两水平结构(单次测量为低水平,个体为高水平),从而轻车熟路的应用标准的多水平模型技术处理任何测量模式的数据,并提供无偏的参数估计。–另一方面,如果重复测量的是生长数据类型的资料,则在多水平分析框架中,每一个体可以具有它们自身的生长曲线,从而可以在更精细的程度上探讨生长发育的一般规律及个体变动情况。2Linear过程【预定义对话框】•1.Subjects框:选入可披认为相互独立的观察单位的指示变量。•2.Repeated框:用于选入重复测量的指示变量。•3.RepeatedCovariancetype下拉列表:用于定义残差的协方差结构。可选的有等尺度、一阶自回归、成份对称、Huynh-Feldt球形阵、无结构、方差成份六种,一般选择默认的方差成份即可。【主对话框】•主对话框和一般线性模型的非常相似,实际上就是直接的扩展。应变量框、因素框、协变量框都是相同的,注意这里不再区分固定因素和随机因素,这是因为随机效应需要在Random自对话框中被详细定义。下方增加了一个ResidualWeight框,用于选入残差权重变量,类似于以前的WLSWeight框。【Statistics子对话框】•1.SummaryStatistics复选框组:可给出常用的描述统计量和纪录处理情况汇总,后者包括所有因素、重复测量变量、重复测量个体、随机效应排序的频数。•2.ModelStatistics复选框组:可列出下列统计指标。•3.Confidenceinterval框:用于设定可信区间的范围,默认为95%。【Estimation子对话框】•1.Method单选框组:选择拟合时所采用的迭代方法•2.Iteratioins框组:设定允许的最大迭代次数•3.Log-likelihoodConvergence框组:设定迭代时的对数似然值收敛标准•4.ParameterConvergence框组:设定迭代时的参数估计值收敛标准•5.HessianConvergence框组:设定迭代时的Hessian阵收敛标准•6.Maximumscoringsteps框:设定最多在多少次迭代中使用Fisher得分算法•7.Singularitytolerance下拉列表:设定检验奇异值的标准【Fixedeffects子对话框】•1.FixedEffects框组:用于对模型中的固定效应部分进行精确设定•2.Includeintercept:用于选择是否在模型固定效应中包括截距•3.Sumofsquares下拉列表框:用于选择方差分析模型进行变异分解的方法【Randomeffects子对话框】•1.Previous/Next按钮组;在该对话框中可以同时设置多个随机效应模型•2.Covariance下拉列表:对于随机效应的任何一个水平都可以单独进行协方差矩阵的估计•3.RandomEffects框组:内容和FixedEffects子对话框中的FixedEffects框组非常相似•4.SubjectGroupings框组:左侧候选变量为在预定义框中选入的个体指示变量或重复测量指示变量【Save子对话框】•1.FixedPredictedValues:将固定效应的预测值存为新变量•2.PredictedValues:存储模型预测值。•3.Residuals:存储预测值与实际值之差。3混合线性模型分析实例初中项目JSP.sav•混合线性模型中可以只纳入常数项–nomexamij=(α0)+(μ0j+εij)–通过检验随机项μ0j是否等于0,我们就可以得知是否成绩在学校内存在聚集性。•对11岁成绩的影响进行分析–nomexamij=(α0+β1standlrt)+(μ0j+μ1jstandlrt+εij)•在固定部分引入更多解释变量–nomexamij=(α0+β1standlrt+β2gender+∑β3schgend+β4avelrt)+(μ0j+μ1jstandlrtij+εij)3.1家庭聚集性数据Mixed.sav•1.个体为低水平单位,家庭为高水平单位。•2.身高为应变量,性别为自变量,研究目的为考察性别对身高有无影响.•3.根据VarianceComponents过程的结果,家庭所导致的变异和随机变异差不太多,因此聚集可能并不明显。•据此,可以使用混合线性模型分析,在随机部分中指定常数项以分析家庭有无聚集性。3.2重复测量数据Anxiety2.sav•与重复测量方差分析所用的数据不同,长型数据Anxiety.sav•指定Trial为重复测量次数指示变量,并限制其各次重复测量间的变异大小相同。•在随机部分中加入对个体变异的分析•各次重复测量间的变异大小相同的限定是为了得到和前面相同的分析结果,但这样做实际上使得重复测量变量的指定失去了意义。可以指定各次测量间独立且方差不同,从而得到四次测量单独的方差估计。3.3嵌套设计数据nested.sav•在Univairate过程中无法使用对话框直接分析,而混合线性模型的对话框可直接设定变量嵌套。•由于该数据实质上不涉及随机效应的分解,因而只需对固定部分加以设置。
本文标题:SPSS第9章
链接地址:https://www.777doc.com/doc-4901710 .html