您好,欢迎访问三七文档
当前位置:首页 > 高等教育 > 理学 > 重庆工商大学数学建模算法讲义第11章 方差分析
-213-第十一章方差分析我们已经作过两个总体均值的假设检验,如两台机床生产的零件尺寸是否相等,病人和正常人的某个生理指标是否一样。如果把这类问题推广一下,要检验两个以上总体的均值彼此是否相等,仍然用以前介绍的方法是很难做到的。而你在实际生产和生活中可以举出许多这样的问题:从用几种不同工艺制成的灯泡中,各抽取了若干个测量其寿命,要推断这几种工艺制成的灯泡寿命是否有显著差异;用几种化肥和几个小麦品种在若干块试验田里种植小麦,要推断不同的化肥和品种对产量有无显著影响。可以看到,为了使生产过程稳定,达到优质、高产,需要对影响产品质量的因素进行分析,找出有显著影响的那些因素,除了从机理方面进行研究外,常常要作许多试验,对结果作分析、比较,寻求规律。用数理统计分析试验结果、鉴别各因素对结果影响程度的方法称为方差分析(AnalysisOfVariance),记作ANOVA。人们关心的试验结果称为指标,试验中需要考察、可以控制的条件称为因素或因子,因素所处的状态称为水平。上面提到的灯泡寿命问题是单因素试验,小麦产量问题是双因素试验。处理这些试验结果的统计方法就称为单因素方差分析和双因素方差分析。§1单因素方差分析只考虑一个因素A对所关心的指标的影响,A取几个水平,在每个水平上作若干个试验,试验过程中除A外其它影响指标的因素都保持不变(只有随机因素存在),我们的任务是从试验结果推断,因素A对指标有无显著影响,即当A取不同水平时指标有无显著差别。A取某个水平下的指标视为随机变量,判断A取不同水平时指标有无显著差别,相当于检验若干总体的均值是否相等。1.1数学模型设A取r个水平rAAA,,,21L,在水平iA下总体ix服从正态分布),(2σμiN,ri,,1L=,这里2,σμi未知,iμ可以互不相同,但假定ix有相同的方差。又设在每个水平iA下作了in次独立试验,即从中抽取容量为in的样本,记作iijnjx,,1,L=,ijx服从),(2σμiN,injri,,1,,,1LL==且相互独立。将这些数据列成表1(单因素试验数据表)的形式。表1单因素试验数据表1A11x12x…11nx2A21x22x…22nx……………rA1rx2rx…rrnx将第i行称为第i组数据。判断A的r个水平对指标有无显著影响,相当于要作以下的假设检验rHμμμ===L210:;rHμμμ,,,:211L不全相等由于ijx的取值既受不同水平iA的影响,又受iA固定下随机因素的影响,所以将它分解为ijiijxεμ+=,ri,,1L=,inj,,1L=(1)-214-其中),0(~2σεNij,且相互独立。记∑==riiinn11μμ,∑==riinn1,μμα−=ii,ri,,1L=(2)μ是总均值,iα是水平iA对指标的效应。由(1)、(2)模型可表为⎪⎪⎩⎪⎪⎨⎧===++=∑=iijriiijiijnjriNx,,1,,,1),,0(~021LLσεαεαμ(3)原假设为(以后略去备选假设)0:210====rHαααL(4)1.2统计分析记∑=•=injijiixnx11,∑∑===rinjijixnx111(5)•ix是第i组数据的组平均值,x是总平均值。考察全体数据对x的偏差平方和∑∑==−=rinjijTixxS112)((6)经分解可得∑∑∑==•=•−+−=rinjiijriiiTixxxxnS11212)()(记∑=•−=riiiAxxnS12)((7)∑∑==•−=rinjiijEixxS112)((8)则EATSSS+=(9)AS是各组均值对总方差的偏差平方和,称为组间平方和;ES是各组内的数据对均值偏差平方和的总和。AS反映A不同水平间的差异,ES则表示在同一水平下随机误差的大小。注意到∑=•−injiijxx12)(是总体),(2σμiN的样本方差的1−in倍,于是有)1(~)(2122−−∑=•injiijnxxiχσ由2χ分布的可加性知-215-⎟⎠⎞⎜⎝⎛−∑=riiEnS122)1(~χσ即)(~22rnSE−χσ且有2)(σrnESE−=(10)对AS作进一步分析可得∑=+−=riiiAnrES122)1(ασ(11)当0H成立时2)1(σ−=rESA(12)可知若0H成立,AS只反映随机波动,而若0H不成立,那它就还反映了A的不同水平的效应iα。单从数值上看,当0H成立时,由(10)、(12)对于一次试验应有1)/()1/(≈−−rnSrSEA而当0H不成立时这个比值将远大于1。当0H成立时,该比值服从自由度11−=rn,)(2rnn−=的F分布,即),1(~)/()1/(rnrFrnSrSFEA−−−−=(13)为检验0H,给定显著性水平α,记F分布的α−1分位数为))(,1(1rnrF−−−α,检验规则为))(,1(1rnrFF−−−α时接受0H,否则拒绝。以上对TEASSS,,的分析相当于对组间、组内等方差的分析,所以这种假设检验方法称方差分析。1.3方差分析表将试验数据按上述分析、计算的结果排成表2的形式,称为单因素方差分析表(Matlab中给出的方差分析表)。表2单因素方差分析表方差来源平方和自由度均方rp−1分位数概率因素AAS1−r1−=rSSAA),1(1rnrFrp−−−rp误差ESrn−rnSSEE−=总和TS1−n昀后一列给出大于F值的概率rp,))(,1(11rnrFFrp−−−−α相当于αrp。-216-方差分析一般用的显著性水平是:取01.0=α,拒绝0H,称因素A的影响(或A各水平的差异)非常显著;取01.0=α,不拒绝0H,但取05.0=α,拒绝0H,称因素A的影响显著;取05.0=α,不拒绝0H,称因素A无显著影响。1.4Matlab实现Matlab统计工具箱中单因素方差分析的命令是anoval。若各组数据个数相等,称为均衡数据。若各组数据个数不等,称非均衡数据。(1)均衡数据处理均衡数据的用法为:p=anoval(x)返回值p是一个概率,当pα时接受0H,x为rm×的数据矩阵,x的每一列是一个水平的数据(这里各个水平上的样本容量mni=)。另外,还输出一个方差表和一个Box图。例1为考察5名工人的劳动生产率是否相同,记录了每人4天的产量,并算出其平均值,如表3。你能从这些数据推断出他们的生产率有无显著差别吗?表3工人天1A2A3A4A5A1256254250248236224233027728025232802902303052204298295302289252平均产量269292.25264.75280.5240解编写程序如下:x=[256254250248236242330277280252280290230305220298295302289252];p=anova1(x)求得05.01109.0==αp,故接受0H,即5名工人的生产率没有显著差异。方差表对应于上面的单因素方差分析表的4~1列,262.2=F是)15,4(F分布的p−1分位数,可以验证fcdf(2.262,4,15)=0.8891=1-pBox图反映了各组数据的特征。注:接受0H,是将5名工人的生产率作为一个整体进行假设检验的结果,并不表明取其中2个工人的生产率作两总体的均值检验时,也一定接受均值相等的假设。实际上,读者可以用ttest2对本题作520:μμ=H的检验,看看会得到什么结果。(2)非均衡数据处理非均衡数据的用法为:p=anova1(x,group)x为向量,从第1组到第r组数据依次排列;group为与x同长度的向量,标志x中数据的组别(在与x第i组数据相对应的位置处输入整数),,2,1(riiL=)。-217-例2用4种工艺生产灯泡,从各种工艺制成的灯泡中各抽出了若干个测量其寿命,结果如下表,试推断这几种工艺制成的灯泡寿命是否有显著差异。表4工艺1A2A3A4A序号116201580146015002167016001540155031700164016201610417501720168051800解编写程序如下:x=[1620158014601500167016001540155017001640162016101750172016801800];x=[x(1:4),x(16),x(5:8),x(9:11),x(12:15)];g=[ones(1,5),2*ones(1,4),3*ones(1,3),4*ones(1,4)];p=anova1(x,g)求得0.01p=0.03310.05,所以几种工艺制成的灯泡寿命有显著差异。1.5多重比较在灯泡寿命问题中,为了确定哪几种工艺制成的灯泡寿命有显著差异,我们先算出各组数据的均值:工艺1A2A3A4A均值1708163515401585虽然1A的均值昀大,但要判断它与其它几种有显著差异,还需做多重比较。一般多重比较要对所有r个总体作两两对比,分析相互间的差异。根据问题的具体情况可以减少对比次数。对于上述问题,Matlab多重比较的程序为x=[1620158014601500167016001540155017001640162016101750172016801800];x=[x(1:4),x(16),x(5:8),x(9:11),x(12:15)];g=[ones(1,5),2*ones(1,4),3*ones(1,3),4*ones(1,4)];[p,t,st]=anova1(x,g)[c,m,h,nms]=multcompare(st);[nmsnum2cell(m)]§2双因素方差分析如果要考虑两个因素BA,对指标的影响,BA,各划分几个水平,对每一个水平组合作若干次试验,对所得数据进行方差分析,检验两因素是否分别对指标有显著影响,或者还要进一步检验两因素是否对指标有显著的交互影响。2.1数学模型设A取r个水平rAAA,,,21L,B取s个水平sBBB,,,21L,在水平组合),(jiBA-218-下总体ijx服从正态分布),(2σμijN,ri,,1L=,sj,,1L=。又设在水平组合),(jiBA下作了t个试验,所得结果记作ijkx,ijkx服从),(2σμijN,ri,,1L=,sj,,1L=,tk,,1L=,且相互独立。将这些数据列成表5的形式。表5双因素试验数据表1B2B…sB1Atxx11111Ltxx12121L…stsxx111L2Atxx21211Ltxx22221L…stsxx212LMMMMMrAtrrxx111Ltrrxx221L…rstrsxxL1将ijkx分解为ijkijijkxεμ+=,ri,,1L=,sj,,1L=,tk,,1L=(14)其中),0(~2σεNijk,且相互独立。记∑∑===risjijrs111μμ,∑=•=sjijis11μμ,μμα−=•ii∑=•=riijjr11μμ,μμβ−=•jj,jiijijβαμμγ−−−=(15)μ是总均值,iα是水平iA对指标的效应,jβ是水平jB对指标的效应,ijγ是水平iA与jB对指标的交互效应。模型表为⎪⎪⎩⎪⎪⎨⎧=======++++=∑∑∑∑====tksjriNxijkrisjrisjijijjiijkijjiijk,,1,,,1,,,1),,0(~0,0,021111LLLσεγγβαεγβαμ(16)原假设为),,1(0:01riHiL==α(17)),,1(0:02sjHjL==β(18)),,1;,,1(0:03sjriHijLL===γ(19)2.2无交互影响的双因素方差分析如果根据经验或某种分析能够事先判定两因素之间没有交互影响,每组试验就不必重复,即可令1=t,过程大为简化。假设0=ijγ,于是jiijβαμμ++=,ri,,1L=,sj,,1L=此时,模型(16)可写成-219-⎪⎪⎩⎪⎪⎨⎧====+++=∑∑==sjriNxijrisjjiijjiij,,1,,,1),,0(~0,0211LLσεβαεβαμ(20)对这个模型我们所要检验的假设为式(17)和式(18)。下面采用与单因素方差分析模型类似的方法
本文标题:重庆工商大学数学建模算法讲义第11章 方差分析
链接地址:https://www.777doc.com/doc-10667356 .html