您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 多重均值比较与方差分析前提假设的检验
2020/5/131学习目标掌握单因素方差分析的方法及应用;初步了解多重均值比较方法的应用;2020/5/132失业保险案例:为什么要进行方差分析?为了减小失业保险支出、促进就业,政府试图为失业者提供再就业奖励:如果失业者可以在限定的时间内重新就业,他将可以获得一定数额的奖金。政策会有效吗?2020/5/133试验数据不同奖金水平失业者的再就业时间(天)无奖金低奖金中奖金高奖金928696781001089275859390768888778789897973907571839478828280727568787981722020/5/134要研究的问题总体1,μ1(奖金=1)总体2,μ2(奖金=2)总体3,μ3(奖金=3)样本1样本2样本3样本4总体4,μ4(奖金=4)211,sx222,sx233,sx244,sx01234:??H2020/5/135各个总体的均值相等吗?Xf(X)1234Xf(X)31242020/5/136失业保险案例:实验结果……1=无奖金2=低奖金3=中奖金4=高奖金。根据实验结果,可以认为各总体的平均失业时间相同吗?4321奖金水平110100908070失业时间2020/5/137研究方法:两样本的t检验?如果采用t检验法对多个总体均值进行差异显著性检验,会出现如下问题:全部检验过程烦琐,做法不经济无统一的总体方差估计,检验的精度降低犯第一类错误的概率增大,检验的可靠性降低2020/5/138思考7岁儿童的平均身高为102,现测得某班12名7岁儿童身高分别为:97、99、103、100、104、97、105、110、99、98、103、99请问该班儿童身高与平均水平是否存在差异?2020/5/139方差分析可以用来比较多个均值方差分析(Analysisofvariance,ANOVA)的主要目的是通过对方差的比较来同时检验多个均值之间差异的显著性。可以看作t检验的扩展,只比较两个均值时与t检验等价。20世纪20年代由英国统计学家费喧(R.A.Fisher)最早提出的,开始应用于生物和农业田间试验,以后在许多学科中得到了广泛应用。2020/5/1310ANOVA(analysisofvariance)由于方差分析法是通过比较有关方差的大小而得到结论的,所以在统计中,常常把运用方差分析法的活动称为方差分析。方差分析的内容很广泛,既涉及到实验设计的模式,又关乎数据分析模型中因素效应的性质。本章在完全随机试验设计下,讨论固定效应模型方差分析的基本原理与方法,重点介绍单因素方差分析。2020/5/1311方差分析中的基本假设(1)在各个总体中因变量都服从正态分布;(2)在各个总体中因变量的方差都相等;(3)各个观测值之间是相互独立的。2020/5/1312同一试验条件下的数据变异-----随机因素影响不同试验条件下,试验数据变异-----随机因素和可能存在的系统性因素即试验因素共同影响试验数据变异原因(误差来源)分析2020/5/1313实验数据误差类型随机误差因素的同一水平(总体)下,样本各观察值之间的差异比如,同一奖金水平下不同不同人的失业时间是不同的这种差异可以看成是随机因素影响的结果,称为随机误差系统误差因素的不同水平(不同总体)下,各观察值之间的差异比如,不同奖金水平之间的失业时间之间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由于奖金本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差2020/5/1314方差分析的实质与分析目的方差分析的实质:观测值变异原因的数量分析。方差分析的目的:系统中是否存在显著性影响因素2020/5/1315单因素方差分析模型(1)单因素方差分析:模型中有一个自变量(因素)和一个因变量。在失业保险实验中,假设张三在高奖金组,则张三的失业时间=高奖金组的平均失业时间+随机因素带来的影响=总平均失业时间+高奖金组平均值与总平均值之差+随机因素带来的影响ijiijiijX2020/5/1316单因素方差分析模型(2)()()()()11,2,,;1,2,,0ijiijkiiijxikjnmaeaes=ìï=++==ïïïïï=íïïïïïïîå2可加性假定约束条件相互独立,且均服从N0,独立性、正态性、方差齐性假定2020/5/1317总变差(离差平方和)的分解数据的误差用离差平方和(sumofsquares)描述。组内离差平方和(withingroups)因素的同一水平(同一个总体)下样本数据的变异比如,同一奖金水平下失业时间的差异组内离差平方和只包含随机误差组间离差平方和(betweengroups)因素的不同水平(不同总体)下各样本之间的变异比如,四个奖金水平之间失业时间的差异组间离差平方和既包括随机误差,也包括系统误差2020/5/1318总变差(离差平方和)分解的图示组间变异总变异组内变异2020/5/1319SST=SSA+SSE总变差211()knijijSSTxx因素A及随机因素导致的变差随机因素导致的变差组间离差平方和组内离差平方和21()kiiSSAnxx211()knijiijSSExx2020/5/1320离差平方和的自由度与均方三个平方和的自由度分别是SST的自由度为nk-1,nk为全部观察值的个数SSA的自由度为k-1,其中k为因素水平的个数SSE的自由度为nk-k各离差平方和的大小与观察值的多少有关,为了消除观察值多少对离差平方和大小的影响,需要将其平均,这就是均方,也称为方差。均方的计算方法是用离差平方和除以相应的自由度。2020/5/1321组间离差平方和组内离差平方和21()kiiSSAnxx211()knijiijSSExx组间方差1SSAMSAk组内方差SSEMSEnkk受因素A和随机因素的影响只受随机因素的影响2020/5/1322F比值如果因素A的不同水平对结果没有影响,那么在组间方差中只包含有随机误差,两个方差的比值会接近1如果不同水平对结果有影响,组间方差就会大于组内方差,组间方差与组内方差的比值就会大于1当这个比值大到某种程度时,就可以说不同水平之间存在显著差异,或者说因素A对结果有显著影响。组间方差1SSAMSAk组内方差SSEMSEnkkF=2020/5/13230.00.20.40.60.81.01.21.401234Ff(F)F比的分布10,10215,1215,52122121122/22/12121121)(222)(FFFfF分布曲线2020/5/1324F分布与拒绝域如果均值相等,F=MSA/MSE1F分布显著水平下的临界点F(k-1,nk-k)0拒绝H0不能拒绝H0F2020/5/1325方差分析的基本思想将k个水平(处理)的观测值作为一个整体看待,利用方差的可分解性,把观测值总变异的离差平方和及自由度分解为相应于不同变异来源的离差平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差估计值的适当比值,即F比值,并以此比值的大小来判断各样本所属总体平均数是否相等。目的是检查所讨论因素是否作为系统性因素来影响试验结果。2020/5/1326思考题有三台机器生产规格相同的铝合金薄板,为检验三台机器生产薄板的厚度是否相同,随机从每台机器生产的薄板中各抽取了5个样品,测得结果如下:机器1:0.236,0.238,0.248,0.245,0.243机器2:0.257,0.253,0.255,0.254,0.261机器3:0.258,0.264,0.259,0.267,0.262问:三台机器生产薄板的厚度是否有显著差异?2020/5/1327思考:有无差异?某化肥生产商需要检验三种新产品的效果,在同一地区选取3块同样大小的农田进行试验,甲农田中使用甲化肥,在乙农田使用乙化肥,在丙地使用丙化肥,得到6次试验的结果如表2所示,试在0.05的显著性水平下分析甲乙丙化肥的肥效是否存在差异?、甲504649524848、乙495047474649、丙5150494650502020/5/1328方差分析检验的步骤1.检验数据是否符合方差分析的假设条件。2.提出零假设和备择假设:零假设:各总体的均值之间没有显著差异,即备择假设:至少有两个均值不相等,即012kH:112H:,,,k不全相等2020/5/1329方差分析的步骤3.根据样本计算F统计量的值。方差分析表变差来源离差平方和SS自由度df均方MSF值组间SSAk-1MSAMSA/MSE组内SSEnk-kMSE总变异SSTnk-12020/5/1330方差分析的步骤4.确定决策规则并根据实际值与临界值的比较,或者p-值与α的比较得出检验结论。在零假设成立时组间方差与组内方差的比值服从服从自由度为(k-1,nk-k)的F分布00.10.20.30.40.50.60.700.511.522.533.544.555.56临界值拒绝域p-值α实际值F检验的临界值和拒绝域2020/5/1331失业保险的例子(1)在失业保险实验中,设显著性水平α=0.05,试分析奖金水平对失业时间的影响是否显著。不同奖金水平失业者的再就业时间(天)无奖金低奖金中奖金高奖金928696781001089275859390768888778789897973907571839478828280727568787981722020/5/1332失业保险的例子(2)1、根据前面的分析,数据符合方差分析的假设条件。2、提出零假设和备择假设:H0:μ1=μ2=μ3=μ4,H1:μ1、μ2、μ3、μ4不全相等。2020/5/1333失业保险的例子(3)3、计算F统计量的实际值。手工计算可以按照方差分析表的内容逐步计算。由于计算量大,实际应用中一般要借助于统计软件。下面是Excel计算的方差分析表。变差来源SS自由度MSFp-值F临界值组间624.973208.323.040.04332.90组内2195.333268.60总变差2820.31352020/5/1334失业保险的例子(4)4、样本的F值为3.04。由于因此我们应拒绝零假设,从而得出奖金水平对再就业时间有显著影响的结论。类似的,由于,可以得出同样的结论。9.204.305.0FF05.00433.0值p00.10.20.30.40.50.60.700.511.522.533.544.555.562.90.04330.053.042020/5/1335例2热带雨林(1)各水平下的样本容量不同时单因素方差分析的方法也完全适用,只是公式的形式稍有不同,在使用软件进行分析时几乎看不出这种差别。一份研究伐木业对热带雨林影响的统计研究报告指出,“环保主义者对于林木采伐、开垦和焚烧导致的热带雨林的破坏几近绝望”。这项研究比较了类似地块上树木的数量,这些地块有的从未采伐过,有的1年前采伐过,有的8年前采伐过。根据数据,采伐对树木数量有显著影响吗?显著性水平α=0.05。2020/5/1336例2热带雨林(2)1、正态性检验:直方图从未采伐过1年前采伐过8年前采伐过2712182212429152221915192018331819161722201412241412272281719198年前采伐过1年前采伐过从未采伐过采伐类型40.0030.0020.0010.000.00数量40.0030.0020.0010.000.00数量40.0030.0020.0010.000.00数量6543210Frequency2020/5/1337例2热带雨林(3)同方差性检验:最大值与最小值之比等于33.19/4.8
本文标题:多重均值比较与方差分析前提假设的检验
链接地址:https://www.777doc.com/doc-5315237 .html