您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第12讲-增长曲线模型
第12讲增长曲线模型王孟成Email:wmcheng2006@126.comBlog:增长曲线模型在心理学、教育学和社会学等社会科学领域,以及在医学和自然科学领域对事物发展进程的研究也常是研究者关注的焦点。例如,在教育学领域,教育学者对学生阅读能力随年级增加而增长的情况。在心理学领域,发展心理学家对人格特质随年龄增长而变化的趋势的研究。在医学领域,研究者观查癌细胞增殖变化的时间进程。MLMvs.LGCM对于此类问题,不同学科发展出不同的方法。在心理学领域,研究者在结构方程模型框架内发展出潜在增长曲线模型(LatentGrowthCurveModels,LGCM;Kaplan,2000)或潜在曲线模型(LatentCurveModel,LCM;e.g.,Meredith&Tisak,1990;Bollen&Curran,2006)。统计和生物统计学领域发展了随机系数模型(e.g.,Laird&Ware,1982)。教育学领域则提出了多水平模型(MultilevelModeling,MLM;e.g.,Bryk&Raudenbush,1987;Goldstein,2003)或分层线性模型(HierarchicalLinearModeling,HLM)。尽管这些方法在形式上有所差异,但在统计原理上则大同小异。LGCM和MLM相比各有优点和长处,在有些条件下两者等同(e.g.,Curran,2003;MacCallum,Kim,Malarkey,&Kiecolt-Glaser,1997;Raudenbush,2001),但LGCM在功能上要灵活一些,而且在多数结构方程建模软件上均可实现(e.g.,AMOS,LISREL,MPLUS,EQS)。用于多水平建模的软件也有很多,常用的有HLM(Raudenbush,,Bryk,&Cheong,2008),MLwiN(Rasbash,Steele,Browne,&Goldstein,2009),SPSS也新增了多水平模块。多水平模型对个体成长轨迹的描述个体成长轨迹重复测量数据的表达通过重复测量数据可以为每个个体建立回归方程:𝑦𝑖𝑡=𝛼𝑖𝑡+𝛽𝑖𝑡𝜆𝑖𝑡+𝜀𝑖𝑡其中i=1,2,...,N,表示个体,N为样本量;t=1,2,...,T,表示测量时间点,T为总次数。yit表示个体i在时间点t时的得分,αi为个体i轨迹的截距;βi为个体i成长轨迹的斜率,λt表示时间点t时的值;εit为个体i在时间点t时的残差项。个体间和个体内差异个体间和个体内部(不同时间段间的差异)均存在差异,表现在初始值和成长轨迹或斜率上。如果个体间不存在初始值的差异,那么所有的个体只有一个共同的起点;如果个体间不存在斜率的差异,那么所有个体只有一条成长轨迹线。多数情况下,个体在初始值和成长轨迹或斜率上存在差异,通过如下两个方程描述这种差异:𝛼𝑖=𝜇𝛼+𝜁𝛼𝑖𝛽𝑖=𝜇𝛽+𝜁𝛽𝑖αi和βi意思同上,μα和μβ分别表示全部个体截距和斜率的均值即总均值,由于每个个体具有相同的μα和μβ,因此也称固定系数;ζαi和ζβi分别表示个体截距和斜率与对应的总均值间的差异,每个个体均有一个特定的值,所以也称作随机系数。组合方程将上式合并后组成联合方程:𝑦𝑖𝑡=𝜇𝛼+𝜆𝑡𝜇𝛽+𝜁𝛼𝑖+𝜆𝑡𝜁𝛽𝑖+𝜀𝑖𝑡上述模型需要满足如下假设条件:所有误差或残差服从均值为0,方差为σ2的正态分布,且误差间,误差与斜率和截距间不相关。如果将重复测量看作水平1的数据,个体作为水平2数据,即不同时间点的测量嵌套于个体,上述模型变成多水平模型(此处为两水平模型)。在多水平模型框架内解释个体增长更加直观和易理解,下面介绍SEM如何处理个体成长数据。LGCM描述个体成长图10-2无条件LGCM示例通过四次重复测量的观测指标定义两个潜变量,分别代表潜截距因子α和潜斜率因子β。α和β各存在均值和方差两个参数,LGCM就是通过这两个参数描述组间和组内差异的。具体来说,截距因子的均值(相当于μα)描述平均的初始状态,截距因子的方差(相当于ζαi)表示个体在特定时间点间的差异程度或离散程度,其值越大说明个体间初始差异越明显。斜率因子的均值表示时间点间的平均增长率(相当于μβ),而斜率因子的方差(相当于ζβi)反应个体间增长率差异的大小,方差越大表明个体间发展轨迹差异越明显。重复测量在截距因子上的负荷固定为1,表示每次测量时的截距不变,在斜率因子上的负荷表示时间效应(Meredith&Tisak,1990),可以设定具体的值,也可以允许自由估计,不同的设定表示不同的时间函数或成长类型。例如,上述四次测量分别为第一次,6个月,12个月和24个月时的测量,可以将四次时间设定为等距的间隔t1=0,t2=6,t3=12和t4=24或t1=0,t2=1,t3=2和t4=4,表示时间函数为线性即线性成长模型。α和β之间的双箭头表示两个因子间的相关,用于说明个体变化的截距和变化斜率间的关系大小。正相关表明较高的初始值对应正向增长斜率;负相关表明,较高的初始值对应负向增长斜率。潜增长模型与多水平模型的比较多水平模型设计之初就是用于处理嵌套结构的数据,比如,学生嵌套班级。嵌套数据本身具有其特殊性,低水平的数据嵌套于高水平,同水平的数据之间存在某种关联而非完全独立,来自相同班级的学生具有更多的共同性。重复测量数据也存在嵌套的特点,即单个时间点的测量嵌套于个体,不同时间点的测量存在相关,用多水平模型处理重复测量数据是其分内之事。多水平模型与LGCM相比更容易设置和较少存在参数估计问题(Bauer,2003;Curran2003)。多水平模型作为传统回归模型的扩展仍然保留了传统回归的不足(Bauer,2003)。第一,MLM没有考虑测量误差。其次,不能直接检验中介效应。第三,不能对整个模型进行检验。这些不足恰好是SEM的强项。LGCM的优点还表现在,将模型灵活的扩展,包含前因和后果变量;包含类别潜变量分析群体异质性(即增长混合模型,GrowthMixtureModeling,GMM);进行多水平增长模型分析。当然,LGCM也存在一些不足之处,主要表现在嵌套数据或非独立数据违反了SEM参数估计的前提假设,即局部独立性假设。SEM主要通过将水平1的时间作为固定值纳入因子负荷矩阵以此来估计参数,而在多水平模型中时间作为预测变量(自变量)来处理的(Curran,2003)。非线性LCGM二次函数增长模型示意图通过为斜率因子设定不同的时间参数来实现,即线性增长因子的负荷设定成等距的时间参数,二次函数增长因子的负荷设定成二次函数型时间参数(即线性时间值的平方)。线性增长因子的负荷设定为t1=0,t2=1,t3=2和t4=4;二次函数增长因子的负荷设定为t1=0,t2=1,t3=4和t4=9。依次类推,可以按照相似的方式设置三次函数增长模型或更高次的增长模型(Bollen&Curran,2006)。2次增长模式的表达式𝑦𝑖𝑡=𝛼𝑖+𝛽1𝑖𝜆𝑡+𝛽2𝑖𝜆𝑡2𝑡+𝜀𝑖𝑡λ2t为时间值的平方,β2i为曲线增长的斜率,其他符号同线性增长模型。个体间和个体内部在初始值和成长轨迹或斜率上的差异通过如下方程来表达:𝛼𝑖=𝜇𝛼+𝜁𝛼𝑖𝛽1𝑖=𝜇𝛽1+𝜁𝛽1𝑖𝛽2𝑖=𝜇𝛽2+𝜁𝛽2𝑖将上述公式合并:𝑦𝑖𝑡=𝜇𝛼+𝜇𝛽𝜆𝑡+𝜇𝛽2𝜆𝑡2+𝜁𝛼𝑖+𝜆𝑡𝜁𝛽1𝑖+𝜆𝑡2𝜁𝛽2𝑖+𝜀𝑖𝑡第一个括号内的为固定效应系数,所有个体均等同,第二个括号内为随机效应系数,反应个体间的差异。时间参数自由估计模型有时候根据测量时间为模型设定的时间参数并不能很好的刻画增长模式,Meredith和Tisak(1984,1990)提出在估计增长因子时将第一个和第二次的负荷分别设定为0和1,随后的时间负荷允许模型从数据直接估计以确定增长类型。这种做法带着探索的味道,让数据本身决定增长模式。Y1Y2Y3Y41111e1e2e3e4截距斜率111101**包含协变量的LGCM通常,LGCM包含的协变量可以分为两类:时间变化的和时间不变的协变量。常见的时间不变的协变量有性别、种族等,这些信息在这个重复测量过程中测量一次即可获得;时间变化的协变量如年龄。将协变量作为时间变化还是不变的协变量处理,应该从理论假说和实际操作两个方面来考虑。比如,某项研究准备考察外向性人格特质对大学新生入学适应过程的影响。研究者从新生入学时开始,每个月测量一次,连续测量6次。将外向性特质作为时间变化的协变量处理,还是作为时间不变的协变量处理呢?在理论上人格特质假定是相对稳定的,在相对较短的时间内是不变的(如数年)。间隔的时间为1个月,而且整个研究周期也相对较短,所以将其作为时间不变的协变量处理时合适的。但如果测量的时间间隔很长而且追踪的周期也很长,比如每隔3年进行一个测量,连续追踪30年,则应该考虑将人格特质做时间变化的协变量处理,因为在时间太长的跨度内即使假设相对稳定的人格特质也是会发生变化的。时间不变的LGCM带有时间不变协变量的LGCM时间变化协变量的LGCM包含时间变化协变量的LGCM路径图时间变化和不变协变量的LGCM同时包含时间变化和时间不变协变量的LGCM路径图多变量增长曲线模型高阶或多指标LGCM高阶LGCM路径图Mplus设置增长式测量式截距模型MODEL:i|y1-y4;MODEL:iBYy1-y4;[y1-y4@0i];线性增长模型MODEL:is|y1@0y2@1y3@2y4@3;MODEL:iBYy1-y4@1;sByy1@0y2@1y3@2y4@3;[y1-y4@0is];二次增长模型MODEL:isq|y1@0y2@1y3@2y4@3;MODEL:iBYy1-y4@1;sByy1@0y2@1y3@2y4@3;qbyy1@0y2@1y3@4y4@9;[y1-y4@0isq];需要注意,测量式定义截距因子测量模型时需要设定测量指标的截距为0。因为这里需要估计因子的潜均值,所以采用固定负荷为1,截距为0的方式(对比基础篇的第9章)。符号“|“左侧的为增长因子,右侧的为测量时间变量,变量的时间分值通过”@“设定,如果变量的发展趋势是线性的,时间分值直接的间隔是等距的,如果是非线性发展,间隔为非线性。例如,含有4次测量的线性增长模型,第1至第4次测量的时间分值分别设为0,1,2,3。如果是二次增长模型,各时间分值设为0,1,4,9,即是线性增长时的平方。如果采用增长式设定,Mplus包含如下默认设置:①所有指标截距@0,②增长因子均值自由估计,③增长因子协方差自由估计,④指标测量误差彼此不相关。数据示例中国健康与营养调查(ChinaHealthandNutritionSurvey,CHNS)是由美国北卡罗来纳大学和中国疾控中心联合进行的调查。调查从1989年开始,1991、1993、1997、2000、2004、2006、2009、2011年分别进行了追踪调查。该数据已经开放至2009年,可从项目官网下载。CHNS数据样本覆盖大陆9个省份,包含了4400户口26000人。调查内容除了健康营养方面的相目,也涵盖了家庭社会经济等方面的信息,并区分了社区卷(数据需特别申请)和家庭卷。这里选取1989年40-50岁组人群作为分析的对象,关注的问题是这个队列(cohort)平均血压((收缩压+2舒张压)/3)随年龄变化的轨迹。CHNS数据中该队列共有865人,从1989-2006年共7轮数据。由于失访等各种原因,排除掉变量缺省的情况,有效的“人-年数据”(person-yeardata)共4,508个。T89T91T93T
本文标题:第12讲-增长曲线模型
链接地址:https://www.777doc.com/doc-6476652 .html