您好,欢迎访问三七文档
协方差分析第一节协方差分析的意义和功用方差分析(六)下列数据是研究镉作业工人暴露于烟尘的年数与肺活量的关系。按暴露年数将工人分为两组:甲组暴露≥10年,乙组暴露10年。两组工人年龄未经控制。问该两组暴露于镉作业工人平均肺活量是否相同?镉作业工人接触烟尘年数与肺活量的关系研究甲组(暴露≥10年)乙组(暴露10年)x1(年龄)y1(肺活量,L)x2(年龄)y2(肺活量,L)494.62404.29414.52513.71454.02503.09522.70474.31612.70653.03582.73593.67434.91394.73384.58424.12434.89434.62374.30503.70503.50454.20484.06514.51464.66583.88384.64385.09未经年龄校正时不同暴露年限的平均肺活量有差异(P=0.005)不同暴露年限的平均年龄也有差异P=0.01问题:不同暴露年限的平均肺活量有差异吗?方差不齐用校正t检验如何分析?•假设1:肺活量与暴露无关而与年龄有关?•假设2:肺活量与暴露、年龄均有关?•假设3:肺活量仅与暴露有关而与年龄无关?•假设4:肺活量与暴露、年龄均无关????研究因素(变量):暴露年限控制因素(变量):年龄结局变量:肺活量ˆ7.1630.069(y年龄)ˆ6.5430.048(y年龄)在不同的暴露水平上肺活量与年龄均呈线性关系!在不同的暴露水平上肺活量与年龄均呈线性关系!直接比较不同暴露年限的平均肺活量显然不合理如何分析比较:控制(或消除)年龄对肺活量的线性影响后,再比较不同暴露年限的平均肺活量!方法:协方差分析(线性回归+方差分析)消除了年龄对肺活量的线性影响后,不同暴露年限的平均肺活量无统计学上的差异一、协方差分析的意义协方差是两个变量的协变异数,用COV(x,y)表示。对于一个具有N对(x,y)的有限总体,x与y的协方差定义为双变量离均差乘积和的平均数,即:1(,)()()xyCOVxyxyN对于具有n对观测值的样本,x与y的样本协方差COV(x,y)定义为双变量离均差乘积和与自由度的商,即:1(,)()()1COVxyxxyyn样本协方差亦称为均积,简记为MP,是总体协方差的估计值。方差是用来度量单个变量“自身变异”大小的总体参数,方差越大,该变量的变异越大;协方差是用来度量两个变量之间“协同变异”大小的总体参数,即二个变量相互影响大小的参数,协方差的绝对值越大,二个变量相互影响越大。对于仅涉及单个变量的试验资料,由于其总变异仅为“自身变异”(如单因素完全随机设计试验资料,“自身变异”是指由处理和随机误差所引起的变异),因而可以用方差分析法进行分析;对于涉及两个变量的试验资料,由于每个变量的总变异既包含了“自身变异”又包含了“协同变异”(是指由另一个变量所引起的变异),须采用协方差分析法来进行分析,才能得到正确结论。二、协方差分析的功用(一)对试验进行统计控制要提高试验结果的正确性,必须严格控制试验条件的均匀性,使各处理处于尽可能一致的试验条件下,这一做法在统计上叫做试验控制。但试验控制有时不一定能实施。例如,研究棉花的蕾铃脱落率要求各处理的单株有相同蕾铃数,研究不同肥料对梨树的单株产量的影响要求各株梨树起始干周完全相同等,都不易达到。在这些情况下,要消除起始条件不等对试验结果的影响,提高试验结果分析的正确性,就应采用协方差分析。如果那些不能很好地进行试验控制的因素是可量测的,且又和试验结果之间存在直线回归关系,就可利用这种直线回归关系将各处理的观测值都矫正到初始条件相同时的结果,使得处理间的比较能在相同基础上进行,而得出正确结论。这一做法在统计上称为统计控制。这时所进行的协方差分析是将回归分析和方差分析结合起来的一种统计分析方法,这种协方差分析称为回归模型的协方差分析。(二)估计协方差分量方差分析中根据均方MS与期望均方EMS间的关系,可获得不同变异来源的方差分量估计值;在协方差分析中,根据均积MP与期望均积EMP间的关系,可获得不同变异来源的协方差分量估计值。这种协方差分析称为相关模型的协方差分析。第二节单因素完全随机设计试验资料的协方差分析【例10·1】为研究A1、A2、A3、A44种不同肥料(k=4)对梨树单株产量的影响,选择40株梨树作试验,把40株梨树完全随机分为4组,每组包含10株梨树(n=10),每组施用1种肥料。各株梨树的起始干周(x,cm)和单株产量(y,kg)列于表10—1,试检验4种肥料的单株产量是否有显著差异。肥料变量观测值总和平均A13630262326302019201624624.68980748085687368805875575.5A22827272425232018172022922.96481736777676465595767467.4A32833262223202223181723223.25562585866556071554858858.8A43223272327282024191724024.05258646254545544515154554.594723.675表10—1梨树4种肥料比较试验的起始干周(x,cm)与单株产量(y,kg)试验用4种肥料分别施10株梨树,各组的单株产量y既包含了不同肥料所引起的“自身变异”,也包含了不同的起始干周x所引起的“协同变异”,因此应采用协方差分析法将“协同变异”从y的总变异中剔除,获得y的“自身变异”,然后才能正确地检验4种肥料平均单株产量是否有显著差异。表10—1中观测值不仅具有肥料效应和随机误差,而且还受到起始干周的影响。故单因素完全随机设计试验资料观测值的数据结构式为:()(1,2,,;1,2,,)ijyieijxijyxikjn(一)试验资料的数学模型其中μx和μy和分别是x和y的总体平均数;为第i个处理效应(固定效应);为各组依总体的回归系数的加权平均数(假定成立),为由于偏离μx所引起的y的变异部分;为随机误差、相互独立、且都服从N(0,σ2)。ie(1,2,,)eiik12eeek()eijxxijxij(10-3)式就是单因素完全随机设计试验资料协方差分析的数学模型。由(10-3)式移项可得若将yij用样本统计量来表示,则有:()ijiyexeijijyx()ijeijxyiijyx()()()ijmieijmijijimemeijijijeijmmiijmmieijyxieijyytbxxeytybxbxeybxxyteyxtbe其中,、、、、分别是、、、、的估计值若令或,则(10-4)式或(10-7)式说明,在观测值中剔除处理效应后,即误差项,进行与的线性回归分析,可求出的估计值be;若令或,则(10-5)式或(10-8)式说明,在对观测值进行回归矫正后,对进行方差分析就排出了xij不一致对yij的影响。ijijiYyijijiYytijYijxe()ijijeijxyyxijy)(mijeijijxxbyy(二)计算变量x和y的各项自由度、平方和与乘积和表10-2、表10-1资料的自由度、平方和与乘积和变异来源dfSSxSSySP肥料间317.8752610.973.85肥料内(误差)36878.91951.0646.8总变异39896.7754561.9720.65()()119472562(246755229674232588240545)1010473.850iitiixySPxynnk()()9472562(368930801751)104720.650TxySPxynk乘积和计算如下总乘积和肥料间乘积和720.65073.850646.800eTtSPSPSP误差乘积和表10-3、起始干周x和单株产量y的方差分析表变异来源dfx变量y变量临界F值SSMSFSSMSF肥料间317.8755.9840.2442610.9870.316.059**F0.05=2.86F0.01=4.38肥料内(误差)36878.924.4141951.054.194总变异39896.7754561.9(三)对x和y作方差分析F检验结果表明,4种肥料的供试梨树起始干周差异不显著,单株产量差异极显著。这里对y进行的F检验是在没有考虑x的影响下进行的,若x与y之间没有显著的回归关系,即x对y没有显著影响,上面对y进行的F检验结果可以接受;若x与y之间有显著的回归关系,即x对y有显著影响,则需对y矫正后再进行的F检验,才能获得正确结论。(四)计算回归系数并进行显著性检验回归系数由误差项的统计数计算。be=0.7359表示起始干周改变1cm,单株产量将平均改变0.7359kg。对be进行显著性检验如下:646.8000.7359878.900eeexSPbSS022:0,:0646.8475.993878.911951.000475.9931475.007(1)14(101)135475.993/1475.000/35eAeeeRexeRereyeRereRerHHSPSSSSdfSSSSSSdfknSSFSSdf无效假设回归平方和回归自由度离回归平方和离回归自由度备择假设=0.01(1,35)11.297.42F系。有极显著的直线回归关与即:故接受xyHeA;0(五)对矫正后的单株产量作方差分析22720.6504561.9003982.784896.775TTTyRyTyTxSPSSSSSSSSSS矫正单株产量的总平方和与自由度,即总离回归平方和与自由度,记为SST’、dfT’:1、求矫正后的单株产量的各项平方和及自由度38139RyTyTdfdfdf矫正单株产量的误差平方和与自由度,即误差离回归平方和与自由度,记为SSe’、dfe’1475.007eerSSSS35eerdfdf矫正单株产量处理间平方和与自由度,记为SSt’、dft’3982.7841475.0072507.7771413eTeeTeSSSSSSdfdfdfk2、对矫正单株产量进行方差分析表10-4矫正单株产量的方差分析表变异来源dfSSMSF值肥料间32507.777835.92619.835**肥料内(误差)351475.00742.143总变异383982.784F=19.835>F0.01(3,35),p<0.01,不同肥料的矫正单株产量间存在极显著的差异,须进一步进行多重比较。3、根据线性回归关系计算各肥料的矫正平均单株产量矫正平均单株产量计算公式如下:其中:为第i处理矫正单株平均产量;为第i处理实际单株平均产量;为第i处理实际平均起始干周;为全试验的平均数;为误差回归系数。()iieiyybxxiyiyixxeb111()75.50.7359(24.623.675)74.819eyybxx222()67.40.7359(22.923.675)67.970eyybxx333()55.80.7359(23.223.675)56.150eyybxx444()54.50.7359(24.023.675)54.261eyybxx4、各肥料矫正单株平均产量间的多重比较(1)t检验法2,()2[]ijijijeyyijyyeexyytdfdfSxxSMSnSS其中例如,检验A1与A2矫正单株平均产量间的差异显著性:查t值表,t0.05(35)=2.030,t<t0.0(35),p>0.05,表明肥料A1与A2矫正单株平均产量间的差异不显著。其余的每
本文标题:协方差分析02
链接地址:https://www.777doc.com/doc-3555620 .html