您好,欢迎访问三七文档
方差分析方差分析第一节方差分析的基本问题第二节单因素方差分析第三节双因素方差分析方差分析(Analysisofvariance,ANOVA)又叫变量分析,是英国著名统计学家R.A.Fisher于20世纪提出的。它是用以检验两个或多个均数间差异的假设检验方法。它是一类特定情况下的统计假设检验,或者说是平均数差异显著性检验的一种引伸。为纪念Fisher,以F命名,故方差分析又称F检验(F-test)方差分析的基本功能对多组样本平均数差异的显著性进行检验本章重点二、数学模型一、方差分析的基本思想、目的和用途三、平方和与自由度的分解四、统计假设的显著性检验五、多重比较六、ANOVA过程的应用观测指标(experimentalindex):为衡量观测结果的好坏和处理效应的高低,实际中具体测定的性状或观测的项目称为试验指标。常用的试验指标例如有:身高、体重、日增重、酶活性、DNA含量等等。影响因素(experimentalfactor):观测中所研究的影响观测指标的定性变量称之为因素。当考察的因素只有一个时,称为单因素试验;若同时研究两个或两个以上因素的影响时,则称为两因素或多因素试验。因素水平(leveloffactor):因素所处的某种特定状态或数量等级称为因素水平,简称水平。如研究3个品种奶牛产奶量的高低,这3个品种就是这个试验因素的3个水平。试验单位(experimentalunit):在实验中能接受不同试验处理的独立的试验载体叫试验单位。一只小白鼠,一条鱼,一定面积的小麦等都可以作为实验单位。重复(repetition):在实验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复;一处理实施的试验单位数称为处理的重复数。例如,用某种饲料喂4头猪,就说这个处理(饲料)有4个重复。试验处理(treatment):事先设计好的实施在实验单位上的具体项目就叫试验处理。如进行饲料的比较试验时,实施在试验单位上的具体项目就是具体喂哪一种饲料。观测值不同的原因因素效应(treatmenteffect):水平不同引起试验误差:试验过程中偶然性因素的干扰和测量误差所致。方差:又叫均方,是标准差的平方,是表示变异的量。在一个因素不同状态下的试验中,可以得出一系列不同的观测值。方差分析的基本思想总变异因素效应试验误差方差分析的目的确定各种原因在总变异中所占的重要程度。因素效应试验误差相差不大,说明试验处理对指标影响不大。相差较大,即因素效应比试验误差大得多,说明试验处理影响是很大的,不可忽视。方差分析的用途1.用于多个样本平均数的比较2.分析多个因素间的交互作用3.回归方程的假设检验4.方差的同质性检验1.用于多个样本平均数的比较2.分析多个因素间的交互作用第一节方差分析的基本问题一、方差分析问题的提出问题:为了探索简便易行的发展大学生心血管系统机能水平的方法,在某年级各项身体发育水平基本相同,同年龄女生中抽取36人随机分为三组,用三种不同的方法进行训练,三个月后,测得哈佛台阶指数如表1,试分析三种不同的训练方法对女大学生心血管系统的影响有无显著性差异。表1N(12,)N),(22N(23,)编号1A2A3A176.5343.1261.31260.0542.5460.00┆┆┆┆1256.2442.4067.26x60.1556.1969.05分析根据研究目的,这里有三个正态总体),(21N,),(22N,),(23aN。三组数据分别为来自三个总体的样本,问题是推断21,和3之间有无显著差异。由321,,xxx不相等,不能直接得出321,,不尽相等的结论,原因是:造成321,,xxx不相等可能有两个方面因素:一是321,,不等,二是321,但由于抽样误差,造成321,,xxx之间有差异。现在的任务是通过样本推断321,,之间有无显著性差异。方差分析的直观思想1.如果321,,之间没有差异,则三个样本之间的差异(以组间方差衡量)由抽样误差带来,实质上由各组内个体之间的差异造成,组内个体之间的差异的大小,以组内方差来衡量。这时,组间方差间MS与组内方差内MS相近。方差分析的直观思想2.如果321,,有差异,则组间差异不仅有个体差异的影响还要受到总体差异的影响,这时组间方差间MS比组内方差内MS大得多,据此,可以按假设检验的方法来处理3210:H。如果组内方差组间方差不是太大,则接受原假设;若比值很大则否定原假设。具体定量检验需要了解比值的分布并且要给出间MS和内MS的计算表达式。方差分析的基本思想根据变异的来源,将全部观察值总的离差平方和及自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某些特定因素的作用加以解释。通过比较不同来源变异的方差(也叫均方MS),借助F分布做出统计推断,从而判断某因素对观察指标有无影响。因素因素又称因子,是在实验中或在抽样时发生变化的“量”,通常用A、B、C、…表示。方差分析的目的就是分析因子对实验或抽样的结果有无显著影响。如果在实验中变化的因素只有一个,这时的方差分析称为单因素方差分析;在实验中变化的因素不只一个时,就称多因素方差分析。双因素方差分析是多因素方差分析的最简单情形。水平因子在实验中的不同状态称作水平。如果因子A有a个不同状态,就称它有a个水平。我们都针对因素的不同水平或水平的组合,进行实验或抽取样本,以便了解因子的影响。在A的不同水平上对Y的取值进行独立测试,并假定其独立同分布于某个正态分布,进一步可假定各总体具有相同的方差,因素A的各水平的影响只体现在各总体均值的差异上。交互影响当方差分析的影响因子不唯一时,必须注意这些因子间的相互影响。如果因子间存在相互影响,我们称之为“交互影响”;如果因子间是相互独立的,则称为无交互影响。交互影响有时也称为交互作用,是对实验结果产生作用的一个新因素,分析过程中,有必要将它的影响作用也单独分离开来。方差分析的原理(一)方差的分解。样本数据波动有两个来源:一个是随机波动,一个是因子影响。样本数据的波动,可通过离差平方和来反映,这个离差平方和可分解为组间方差与组内方差两部分。组间方差反映出不同的因子对样本波动的影响;组内方差则是不考虑组间方差的纯随机影响。方差分解离差平方和的分解是进入方差分析的“切入点”,这种方差的构成形式为分析现象变化提供了重要的信息。如果组间方差明显高于组内方差,说明样本数据波动的主要来源是组间方差,因子是引起波动的主要原因,可以认为因子对实验的结果存在显著的影响;反之,如果波动的主要部分来自组内方差,则因子的影响就不明显,没有充足理由认为因子对实验或抽样结果有显著作用。方差分解(二)均方差与自由度因素或因素间“交互作用”对观测结果的影响是否显著,关键要看组间方差与组内方差的比较结果。当然,产生方差的独立变量的个数对方差大小也有影响,独立变量个数越多,方差就有可能越大;独立变量个数越少,方差就有可能越小。均方差与自由度为了消除独立变量个数对方差大小的影响,用方差除以独立变量个数,得到“均方差(MeanSquare)”,作为不同来源方差比较的基础。引起方差的独立变量的个数,称作“自由度”。检验统计量检验因子影响是否显著的统计量是一个F统计量:F统计量越大,越说明组间方差是主要方差来源,因子影响越显著;F越小,越说明随机方差是主要的方差来源,因子的影响越不显著。组内均方差组间均方差F3.1.1单因素方差分析模型考虑一般情况iiijnjNy,...,2,1),(~2,),(21N),(22N┄),(2aN12┄a11y21y┄1ay12y22y┄2ay┆┆┄┆11ny22ny┄kany.1y.2y┄.ay.11111iaiiainjijynnynyi29用线性模型来描述每一观测值:εij-随机误差(3.1)要求εij是相互独立的,且服从正态分布N(0,σ2)数学模型),...,2,1,,...,2,1(ainjyiijiijiiiaiiaiiinnnn个水平的影响:第,总平均:令,111aiiiijiijijnNainjy12i0),,0(~),...,2,1,,...,2,1(1.3且相互独立,可以改写成)2.3(3.1.2因素作用显著性的检验检验假设或者考虑数据的总变化量不全相等),...2,1(:...:1210aiHHia0:0...:1210iaHH至少某个ainjijTiyySS121)(总平方和分解总离差平方和(组间方差)因素A的平方和aiiiAyynSS12.)((组内方差)误差平方和EATSSSSSSainjijTiyySS121)(ainjiijEiyySS121.)(自由度的确定是由于A的波动引起的方差,但是,这里所有的变量并不独立,它们满足一个约束条件,真正独立的变量只有n-1个,自由度是n-1。是因子在不同水平上的均值变化而产生的方差。但是,a个均值并不是独立的,它们满足一个约束条件,因此自由度是a-1。是由在各因素水平上的围绕均值波动产生,它们满足的约束条件一共a个,失去了a个自由度,所以SSE的自由度是n-a。自由度满足如下关系:n-1=(a-1)+(n-a)TSSASSESS统计性质无论成立与否,总是的一个无偏估计;为真时,为的一个无偏估计。启发我们通过比较和来构造统计量检验假设。0H)/(anSSE220H)1/(aSSAASSESS检验统计量检验统计量是:当为真时,EAEAMSMSanSSaSSF)/()1/(0H),1(~anaFFF值越大,越说明总的方差波动中,组间方差是主要部分,有利于拒绝原假设接受备选假设;反之,F值越小,越说明随机方差是主要的方差来源,有利于接受原假设,有充分证据说明待检验的因素对总体波动有显著影响。因此,检验的拒绝域安排在右侧。Fα接受域拒绝域检验P值当为真时,F的值应在1的周围波动;反之,F的值有增大的趋势。检验p值为为由观测数据求得的统计量F的观测值。0H)(0fFPpHf例1测定东北、内蒙古、河北、安徽、贵州5个地区黄鼬冬季针毛的长度,每个地区随机抽取4个样本,测定的结果如表,试比较各地区黄鼬针毛长度差异显著性。地区东北内蒙古河北安徽贵州合计132.029.225.223.322.3232.827.426.125.122.5331.226.325.825.122.9430.426.726.725.523.7126.4109.6104.199.091.4530.531.6027.4026.0324.7522.8526.533997.443007.992709.982453.162089.6414258.21x2xx40(1)首先计算出,及,并列于表中。x2x(2)计算出离均差平方和与自由度:7.186TSS71.173ASS41ATESSSSSS=186.7-173.71=12.99Tdf20-1=191adfA=5×(4-1)=15Edf(3)计算均方差:43.43471.173AAAdfSSMS866.01599.12EEEdfSSMS=5-1=442(4)进行F检验:15.50866.043.43EAMSMSF查F值表,得=3.06,=4.89,故FF0.01,说明5个地区黄鼬冬季针毛长度差异极显著。)15,4(05.0F)15,4(01.0F43结果做成方差分析表:不同地区黄鼬冬季针毛长度方差分析表变异来源SSdfs2FF0.05F0.01地区间地区内173.7112.9941543.430.8750.15**3.064.89总变异186.7019为了确定各个地区之间的差异是否显著,需要进行多重比较。例2投诉问题问题:消费者与供应厂商间经常出现纠纷。纠
本文标题:方差分析PPT课件
链接地址:https://www.777doc.com/doc-6960884 .html