您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > MBA统计学09方差分析
统计学─从数据到结论第九章方差分析试验设计问题一个养蟹户要遇到许多影响生产的因素或因子(factor),如水温,饲料,水质等。要想稳定高产,就要进行各种因素的不同水平(level)的搭配(组合)试验。这里的“水平”就是一个因素可能取的值。如有三种饲料,那饲料因素就有三个水平。而如果水温有四种水平,则水温和饲料就有12种可能的搭配。试验设计问题试验设计模型可以说就是回归模型的一种。试验设计问题本身有很大一部分是如何设计试验,使得人们有可能用最少的资源得到最好的结果。这里,我们不打算详细讨论如何设计试验,而把主要精力放在试验设计数据的方差分析和建立线性模型上。方差分析方差分析(analysisofvariance,ANOVA)是分析各个自变量对因变量影响的一种方法。这里的自变量就是定性变量的因子及可能出现的称为协变量(covariate)的定量变量。分析结果是由一个方差分析表表示的。方差分析原理为:把因变量的值随着自变量的不同取值而得到的变化进行分解,使得每一个自变量都有一份贡献,最后剩下无法用已知的原因解释的则看成随机误差的贡献。然后用各自变量的贡献和随机误差的贡献进行比较(F检验),以判断该自变量的不同水平是否对因变量的变化有显著贡献。输出就是F-值和检验的一些p-值。下面看一个例子。单因素方差分析回顾饲料比较数据,n=19头猪,用p=4种饲料喂养一段时间后的重量增加问题:四种饲料是否不同?饲料ABCD133.8151.2193.4225.8125.3149.0185.3224.6143.1162.7182.8220.4128.9143.8188.5212.3135.7153.5198.6SPSS中的数据形式饲料例子(继续):饲料(fodder)为自变量(单因子),重量增加(weight)为因变量(一个数量变量)(SPSS计算机数据形式有所不同)饲料ABCD133.8151.2193.4225.8125.3149.0185.3224.6143.1162.7182.8220.4128.9143.8188.5212.3135.7153.5198.6均值A=133.36均值B=152.04均值C=189.72均值D=220.78对数据的描述性输出(SPSS)(ANOVA-CONTRASTS/POSTHOC-LSD,T2/OPTION-DES.,HOMO./MEANPLOT)DescriptivesWEIGHTNMeanStd.DeviationStd.Error95%ConfidenceIntervalforMeanMinimumMaximumLowerBoundUpperBoundA5133.366.807943.04460124.9068141.8132125.3143.1B5152.046.957233.11137143.4015160.6785143.8162.7C5189.726.350352.83996181.8350197.6050182.8198.6D4220.786.105943.05297211.0591230.4909212.3225.8Total19171.5234.311377.87157154.9730188.0481125.3225.84555N=fodderDCBAWEIGHT2402202001801601401201008四种饲料的箱图四种饲料的均值图fodderDCBAMeanofWEIGHT240220200180160140120模型中的假定:涉及的检验:H0:m1=…=mp212,,...,(,),1,...,iiiiniyyyNipm线性模型:,1,...,,1,...,ijiijiyipjnm公式:总平方和=组间平方和+组内平方和22111()()inppiijiiiijSSTSSBSSEnyyyy其中,SST有自由度n-1,SSB有自由度p-1,SSE有自由度n-p,在正态分布的假设下,如果各组增重均值相等(零假设),则有自由度为p-1和n-p的F分布./(1)/()MSBSSBpFMSESSEnpANOVAWEIGHT由SPSS可以得到方差分析表:SumofSquaresDfMeanSquareFSig.BetweenGroups20538.69836846.233157.467.000WithinGroups652.1591543.477Total21190.85818该表说明各饲料之间有显著不同.(比较一元总体的)ANOVAWEIGHT(重量)方差分析表的说明:SumofSquares(平方和)Df自由度MeanSquare(均方)FSig.BetweenGroups(处理)SSBP-1MSB=SSB/(p-1)F=MSB/MSEP(FFa)WithinGroups(误差)SSEn-pMSE=SSE/(n-p)Total(总和)SSTn-1这里n为观测值数目p为水平数,Fa满足P(FFa)=a.这是自由度为p-1和n-p的F-分布的概率TestofHomogeneityofVariances(Arobusttest)这是SPSS输出之一,明白即可,不用记住LeveneStatisticdf1df2Sig..024315.995F0.05(3,15)面积=0.05F(3,15)分布密度图SPSS操作CompareMeans→OneWayANOVA:fodder(饲料)→FactorWeight(重量)→DependentListOptions:DescriptiveHomogeneityofVarianceMeanPlot销售数据(sales.txt)研究这个数目的主要目的是看销售额(因变量)是否受到促销方式、售后服务和奖金这三个自变量的影响(头两个是定性变量,亦称为因子,分别有3个和2个水平;而定量变量奖金是协变量)以及怎样的影响。9.1方差分析(只考虑主效应,不考虑交互效应及协变量)首先假定因变量受到的仅有主效应(maineffect)而没有交互效应(interaction)和协变量的影响。主效应就是每个自变量对因变量的单独影响,而交互效应是当两个或更多的自变量的某些水平同时出现时除了主效应之外的附加影响。9.1方差分析(只考虑主效应,不考虑交互效应及协变量)拿我们例子来说,当单独考虑时,假定主动促销比被动促销可以多产生8万元效益,而有售后服务比没有售后服务多产生9万元效益。那么在没有交互作用时,同时采取主动促销和售后服务会产生8+9=17万元的效益(称为可加的)。但如果存在交互效应,那么同时采取主动促销和售后服务会产生一个附加的效应即交互效应(可能是正面的,也可能是负面的),这时的总效应就不是17万元了。如只考虑主效应。用y表示销售额,ai表示促销(下标表示不同水平),bj表示售后服务;则相应的只有主效应的线性模型为:,1,2,3,1,2,1,2,3,4:)ijkijijkijkijijkyijkyabmab(或有常数项时为•这里的下标i代表促销的水平,下标j代表是否有售后服务,下标k代表每种ij组合中的第k个观测;最后一项ijk为随机误差。9.1方差分析(只考虑主效应,不考虑交互效应及协变量)公式:总平方和=组间平方和+组内平方和222....1111()()()pqpqijijijijijSSTSSASSBSSEqyypyyyyyy其中,SSA有自由度p-1,SSB有自由度q-1,SSE有自由度(p-1)(q-1),在正态分布的假设下,如果各组增重均值相等(零假设),则分别有自由度为p-1和(p-1)(q-1)及自由度为q-1和(p-1)(q-1)的F分布./(1)/(1);/(1)(1)/(1)(1)ABMSASSApMSBSSBqFFMSESSEpqMSESSEpqTestsofBetween-SubjectsEffectsDependentVariable:SALES21469.667a45367.417257.224.000579.2502289.62513.880.000532.0421532.04225.497.000417.3332020.86721887.00024SourceModelPROMOTSERVICEErrorTotalTypeIIISumofSquaresdfMeanSquareFSig.RSquared=.981(AdjustedRSquared=.977)a.•用我们数据拟合这个模型,SPSS输出为•促销(promot)的F检验统计量(其自由度来自promot和error的自由度:2,20)取值为13.880,p-值为0.000(更精确些是0.0001658).而售后服务的F检验统计量为25.497,p-值为0.000(更精确些是0.00006135).R2为0.981.•这里的估计只有相对意义。一定要放在模型中,或者考虑同一因子水平之间的差,比如a1-a3、a2-a3、b1-b2等等。ParameterEstimatesDependentVariable:SALES28.4581.86515.260.00024.56832.34832.7081.86517.539.00028.81836.59840.3331.86521.628.00036.44344.223-9.4171.865-5.049.000-13.307-5.5270a.....Parameter[PROMOT=.00][PROMOT=1.00][PROMOT=2.00][SERVICE=.00][SERVICE=1.00]BStd.ErrortSig.LowerBoundUpperBound95%ConfidenceIntervalThisparameterissettozerobecauseitisredundant.a.•对于这个模型,参数估计为•这个模型还可以有截距,这时的SPSS默认约束是固定a3=b2=0;而目前的没有截距的a1,a2,a3的估计实际上等于截距的估计加上有截距时的a1,a2,a3的估计。•由于约束条件不一样,所以各种软件的各种选项的估计不尽相同,但相对大小是不会变的。ParameterEstimatesDependentVariable:SALES28.4581.86515.260.00024.56832.34832.7081.86517.539.00028.81836.59840.3331.86521.628.00036.44344.223-9.4171.865-5.049.000-13.307-5.5270a.....Parameter[PROMOT=.00][PROMOT=1.00][PROMOT=2.00][SERVICE=.00][SERVICE=1.00]BStd.ErrortSig.LowerBoundUpperBound95%ConfidenceIntervalThisparameterissettozerobecauseitisredundant.a.•没有交互作用的模型可以从下面点图中直观看出。图10.1中下面两条折线分别连接了有及没有售后服务时三种促销状况的销售均值。由于模型选择为无交互作用,所以这两条线是平行的。从该图可以看出,两个因子效应综合效应是简单的加法。EstimatedMarginalMeansofSALESPROMOT2.001.00.00EstimatedMarginalMeans5040302010SERVICE.001.00SPSS实现(只有因子主效应的方差分析)拿sales.sav为例,在SPSS中选Analyze-GeneralLinearModel-Univariate进入主对话框;然后把sales选入DependentVariable,把promot和service选入FixedFactors;然后点击Mod
本文标题:MBA统计学09方差分析
链接地址:https://www.777doc.com/doc-661700 .html