您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 概率论与数理统计(茆诗松)第二版课后第八章习题参考解答
1第八章方差分析与回归分析本章前三节研究方差分析,讨论多个正态总体的比较,后两节研究回归分析.讨论两个变量之间的相关关系.§8.1方差分析8.1.1问题的提出上一章讨论了单个或两个正态总体的假设检验,这里讨论多个正态总体的均值比较问题.通常为了研究某一因素对某项指标的影响情况,将该因素在多种情形下进行抽样检验,作出比较.一般将该因素称为一个因子,所检验的每种情形称为水平.在每个水平下需要考察的指标都分别构成一个总体,比较它们的总体均值是否相等.对每一个总体都分别抽取一个样本,样本容量称为重复数.如果只对一个因子中的多个水平进行比较,称为单因子方差分析,对多个因子的水平进行比较,称为多因子方差分析.本章只进行单因子方差分析.例在饲料养鸡增肥的研究中,现有三种饲料配方:A1,A2,A3,为比较三种饲料的效果,特选24只相似的雏鸡随机均分为三组,每组各喂一种饲料,60天后观察它们的重量.实验结果如下表所示:饲料鸡重/gA110731009106010011002101210091028A21107109299011091090107411221001A310931029108010211022103210291048在此例中,就是要考察饲料对鸡增重的影响,需要比较三种饲料对鸡增肥的作用是否相同.这里,饲料就是一个因子,三种饲料配方就是该因子的三个水平,每种饲料喂养的雏鸡60天后的重量分别构成一个总体,这里共有3个总体,每一个总体抽取样本的重复数都是8,比较这3个总体的均值是否相等.8.1.2单因子方差分析的统计模型设因子A有r个水平A1,A2,…,Ar,在每个水平下需要考察的指标都构成一个总体,即有r个总体,分别记为Y1,Y2,…,Yr,对每一个总体都分别抽取一个样本,首先考虑重复数相等的情形,设重复数都是m,总体Yi的样本Yi1,Yi2,…,Yim,i=1,2,…,r.作出以下假定:(1)每一个总体都服从正态分布,即riNYiii,,2,1),,(~2L=σµ;(2)各个总体的方差都相等,即22221rσσσ===L,都记为σ2;(3)各个总体及抽取的样本相互独立,即Yij相互独立,i=1,2,…,r,j=1,2,…,m.需要比较它们的总体均值是否相等,即检验的原假设与备择假设为H0:µ1=µ2=…=µrvsH1:µ1,µ2,…,µr不全相等,如果H0成立,就可以认为这r个水平下的总体均值相同,称为因子A不显著;反之,如果H0不成立,就称为因子A显著.在水平Ai下的样品Yij与该水平下的总体均值µi之差εij=Yij−µi为随机误差.由于Yij~N(µi,σ2),因此随机误差εij~N(0,σ2).对所有r个水平下的总体均值求平均,即∑==+++=riirrr1211)(1µµµµµL称为总均值.每个水平Ai下的总体均值µi与总均值µ之差ai=µi−µ称为该水平Ai下主效应.显然所有主效应ai之和等于0,即01=∑=riia,2检验所有水平下的总体均值是否相等,也就是检验所有主效应ai是否全等于0.这样单因子方差分析在重复数相等的情形下,统计模型为⎪⎪⎩⎪⎪⎨⎧===++=∑=).,0(;0;,,2,1,,,2,1,21σεεµNamjriaYijriiijiij相互独立,且都服从LL检验的原假设与备择假设为H0:a1=a2=…=ar=0vsH1:a1,a2,…,ar不全等于0.8.1.3平方和分解一.试验数据对于r个总体下的试验数据Yij,i=1,2,…,r,j=1,2,…,m,记Ti表示第i个总体下试验数据总和,⋅iY表示第i个总体下样本均值,n=rm表示总的样本容量,T表示总的试验数据总和,Y表示总的样本均值,即∑==mjijiYT1,∑=⋅==mjijiiYmmTY11,i=1,2,…,r,∑∑∑=====rimjijriiYTT111,∑∑∑=⋅=====riirimjijYrYrmTnY111111,用⋅iY作为µi的点估计,Y作为µ的点估计.又记⋅iε表示第i个总体下随机误差平均值,ε表示总的随机误差平均值,即∑=⋅=mjijim11εε,i=1,2,…,r,∑∑∑=⋅====riirimjijrn11111εεε.显然有⋅⋅+=iiiYεµ,εµ+=Y.在单因子方差分析中通常将试验数据及基本计算结果写成表格形式因子水平试验数据和和的平方平方和A1Y11Y12…Y1mT121T∑21jYA2Y21Y22…Y2mT222T∑22jY┆┆┆┆┆┆┆┆ArYr1Yr2…YrmTr2rT∑2rjYΣT∑=riiT12∑∑==rimjijY1123二.组内偏差与组间偏差数据Yij与样本总均值Y之差YYij−称为样本总偏差,可以分成两部分之和:)()(YYYYYYiiijij−+−=−⋅⋅,其中⋅⋅⋅−=+−+=−iijiiijiiijYYεεεµεµ)()(是第i个总体内数据与该总体内样本均值的偏差,称为组内偏差,反映第i个总体内的随机误差;εεεµεµ−+=+−+=−⋅⋅⋅iiiiiaYY)()(是第i个总体内样本均值与总样本均值的偏差,称为组间偏差,反映第i个总体的主效应.三.偏差平方和及其自由度在统计学中,对于k个独立数据Y1,Y2,…,Yk,平均值∑==kiiYkY11,称Yi与Y之差为偏差,所有偏差的平方和∑=−=kiiYYQ12)(称为这k个数据的偏差平方和,反映这k个数据的分散程度.由于所有偏差之和0)(11=−=−∑∑==YkYYYkiikii,即这k个偏差由k个独立数据受到一个约束条件形成,可以证明它们与k−1个独立(随机)变量可以相互线性表示,称之为等价于k−1个独立(随机)变量.一般地,若k个独立数据受到r个不相关的约束条件,则它们等价于k−r个独立(随机)变量.在统计学中,把形成平方和的变量所等价的独立变量个数,称为该平方和的自由度,通常记为f.如上述偏差平方和Q的自由度为k−1,即fQ=k−1.由于平方和的大小与变量个数(或自由度)有关,为了对偏差进行比较,通常考虑偏差平方和与其自由度之商,称为均方和,记为MS,反映一组数据的平均分散程度,如样本方差∑=−−=niiXXnS122)(11就是样本数据偏差的均方和.四.总平方和分解公式总偏差平方和记为ST或SST,其自由度记为fT,有∑∑==−=rimjijTYYS112)(,fT=rm−1=n−1;组内偏差平方和记为Se或SSE,其自由度记为fe,有∑∑==⋅−=rimjiijeYYS112)(,fe=r(m−1)=n−r;组间偏差平方和记为SA或SSA,其自由度记为fA,有∑∑∑=⋅==⋅−=−=riirimjiAYYmYYS12112)()(,fA=r−1.4组内偏差平方和反映所有总体内的随机误差,组间偏差平方和反映所有总体的主效应.定理总偏差平方和ST可以分解为组内偏差平方和Se与组间偏差平方和SA之和,其自由度也可作相应的分解,即ST=Se+SA,fT=fe+fA,称之为平方和分解公式.证:∑∑∑∑==⋅⋅==−+−=−=rimjiiijrimjijTYYYYYYS112112)]()[()(∑∑∑∑∑∑==⋅⋅==⋅==⋅−−+−+−=rimjiiijrimjirimjiijYYYYYYYY11112112))((2)()(AeAeriiAerimjiijiAeSSSSYYSSYYYYSS+=++=×−++=−−++=∑∑∑=⋅==⋅⋅0]0)[(2])()[(2111,且显然有fT=n−1=(n−r)+(r−1)=fe+fA.8.1.4检验方法由于组内偏差平方和反映所有总体内的随机误差,组间偏差平方和反映所有总体的主效应,通过比较组内偏差平方和与组间偏差平方和检验因子的显著性.下面将证明在假设所有主效应都等于0成立的条件下,它们的均方和之商服从F分布.定理在单因子方差分析模型中,组内偏差平方和Se与组间偏差平方和SA满足(1)E(Se)=(n−r)σ2,且)(~22rnSe−χσ;(2)∑=+−=riiAamrS122)1()E(σ,且当H0:a1=a2=…=ar=0成立时,)1(~22−rSAχσ;(3)Se与SA相互独立.证:根据第五章的定理结论知:设X1,X2,…,Xn相互独立且都服从正态分布N(µ,σ2),记∑==niiXnX11,∑=−=niiXXS120)(,则X与S0相互独立,且)1(~220−nSχσ.(1)∑∑==⋅−=rimjiijeYYS112)(,Yi1,Yi2,…,Yim相互独立且都服从正态分布N(µi,σ2),∑=⋅=miijiYmY11,则∑=⋅−mjiijYY12)(与⋅iY相互独立,且)1(~)(12122−−∑=⋅mYYmjiijχσ,因在不同水平下的样本都相互独立,则∑∑==⋅−rimjiijYY112)(与⋅⋅⋅rYYY,,,21L也相互独立,且根据独立χ2变量的可加性知)(~)(121122rrmYYrimjiij−−∑∑==⋅χσ,故)(~)(1211222rnYYSrimjiije−−=∑∑==⋅χσσ,即得E(Se)=(n−r)σ2;5(2)∑∑∑∑∑=⋅=⋅==⋅=⋅−+−+=−+=−=riiiriiriiriiiriiAammamamYYmS112121212)(2)()()(εεεεεε,因εij(i=1,2,…,r,j=1,2,…,m)相互独立且都服从正态分布N(0,σ2),有∑=⋅=mjijim11εε(i=1,2,…,r)相互独立且都服从正态分布),0(2mNσ,∑=⋅=riir11εε,则0)E()E()E(=−=−⋅⋅εεεεii且)1(~)(2212−−∑=⋅rmriiχσεε,即mrrii212)1()(Eσεε−=⎥⎦⎤⎢⎣⎡−∑=⋅,故21211212)1()E(2)(E)E(σεεεε−+=−+⎥⎦⎤⎢⎣⎡−+=∑∑∑∑==⋅=⋅=ramammamSriiriiiriiriiA,当H0:a1=a2=…=ar=0成立时,∑∑=⋅=⋅−=−=riiriiAmYYmS1212)()(εε,故)1(~)(22122−−=∑=⋅rmSriiAχσεεσ;(3)因∑∑==⋅−=rimjiijeYYS112)(与⋅⋅⋅rYYY,,,21L相互独立,有Se与∑=⋅=riiYrY11相互独立,且∑=⋅−=riiAYYmS12)(,故Se与SA相互独立.由于)(~22rnSe−χσ,当H0:a1=a2=…=ar=0成立时,)1(~22−rSAχσ,且Se与SA相互独立,则根据F分布的定义可知:当H0成立时,有),1(~)()1(22rnrFMSMSfSfSrnSrSFeAeeAAeA−−==−−=σσ.由于∑=+−=riiAamrS122)1()E(σ,则F越大,即SA越大时,越有可能发生ai≠0,则检验的拒绝域为右侧.步骤:假设H0:a1=a2=…=ar=0vsH1:a1,a2,…,ar不全等于0,统计量),1(~rnrFMSMSfSfSFeAeeAA−−==,显著水平α,右侧拒绝域W={f≥f1−α(r−1,n−r)},计算f,并作出判断.这是F检验法.6通常列成方差分析表:来源平方和自由度均方和F比因子SAfA=r−1MSA=SA/fAF=MSA/MSe误差Sefe=n−rMSe=Se/fA总和STfT=n−1为了计算方便,可给出三个偏差平方和的计算公式.对于一组数据X1,X2,…,Xn,记∑==niiXnX11,则有2112212121)(⎟⎟⎠⎞⎜⎜⎝⎛−=−=−∑∑∑∑====niiniiniiniiXnXXnXXX,记∑==mjijiYT1,∑∑∑=====rimjijriiYTT111,可得2112211112211211211)(TnYYnYYnYYYSrimjijrimjijrimjijrimjijrimjijT−=⎟⎟⎠⎞⎜⎜⎝⎛−=−=−=∑∑∑∑∑∑∑∑∑∑==========,212211121212121111)(TnTmYnmrYmmYrYmYYmSriirimjijrimjijriiriiA−=⎟⎟⎠⎞⎜⎜⎝⎛−⎟⎟⎠⎞⎜⎜⎝⎛=⎥⎦⎤
本文标题:概率论与数理统计(茆诗松)第二版课后第八章习题参考解答
链接地址:https://www.777doc.com/doc-7125123 .html