您好,欢迎访问三七文档
7-1第7章方差分析摘要:多组资料均数比较一般采用方差分析的方法,SAS中方差分析的功能非常全面,能实现方差分析功能的过程有ANOVA过程和GLM过程。对于两个平均数的假设测验,一般采用t测验来完成,对于多个平均数的假设测验,若采用t测验两两进行,不仅非常麻烦,而且容易犯第一类错误。方差或称均方,即标准差的平方,它是一个表示变异程度的量。在一项试验或调查中往往存在着许多种影响生物性状变异的因素,这些因素有较重要的,也有较次要的。方差分析就是将总变异分裂为各个因素的相应变异,作出其数量估计,从而发现各个因素在变异中所占的重要程度;而且除了可控制因素所引起的变异后,其剩余变异又可提供试验误差的准确而无偏的估计,作为统计假设测验的依据。当试验结果受到多个因素的影响,而且也受到每个因素的各水平的影响时,为从数量上反映各因素以及各因素诸水平对试验结果的影响,可使用方差分析的方法。SAS系统用于进行方差分析的过程主要有ANOVA过程和GLM过程,对于均衡数据的分析一般采用ANOVA过程,对于非均衡数据的分析一般采用GLM过程。方差分析和协方差分析在SAS系统中由SAS/STAT模块来完成,其中我们常用的有ANOVA过程和GLM过程。前者运算速度较快,但功能较为有限;后者运算速度较慢,但功能强大,我们做协方差分析时就要用到GLM过程。本章将首先介绍方差分析所用数据集的建立技巧,然后重点介绍这两个程序步。§7.1方差分析概述一、方差分析的应用场合、基本思想和前提条件1.应用场合当影响因素是定性变量(一般称为分组变量或原因变量),观测结果是定量变量(一般称为结果变量或反应变量),常用的数据处理方法是对均数或均值向量进行假设检验。若只有一个原因变量,而且其水平数k≤2,一元时常用U检验、t检验、秩和检验,多元时用多元检验(T2检验或wilks’^检验);若原因变量的水平数k≥3或原因变量的个数≥2,一元时常用下检验,也叫一元方差分析(简写成ANOVA)或非参数检验,多元时用多元方差分析(简写成MANOVA,其中最常用的是Wilks’^检验)。2.基本思想方差分析的基本思想可概述为:把全部数据关于总均数的离均差平方和分解成几个部分,每一部分表示某一影响因素或诸影响因素之间的交互作用所产生的效应,7-2将各部分均方(即方差)与误差均方相比较,依据下分布作出统计推断,从而确认或否认某些因素或交互作用的重要性。由于试验设计的类型多种多样,不同的设计类型往往需用不同的方差分析模型去处理,因此,用来作为度量影响因素作用大小的尺子——误差的均方,也就不是一成不变的了。这就出现了误差固定的设计类型及其定量资料的统计分析方法和误差变动的设计类型及其定量资料的统计分析方法。3.前提条件无论是进行ANOVA还是MANOVA,严格他说,都要求资料满足正态性和方差齐性的。要求,但方差齐性有时较难满足,此时可采用有关的非参数检验或对数据作某种变换后使之满足前提条件。此处仅给出一元情形时,如何用SAS程序实现对资料的正态性和方差齐性检验。例7.1为了研究轻度和重度再障贫血患者血清中可溶性CD,抗原水平(U/ml)与正常人有无显著性差别,以反映患者免疫状态紊乱而导致造血功能障碍的程度。从三种人群中分别随机地抽取了10人,测得CD8抗原水平如下,试对下列三组资料作正态性和方差齐性检验。正常组:234,318,402,382,621,408,243,141,42,98。轻度组:509,518,555,758,845,712,585,448,753,896。重度组:851,562,918,631,653,843,659,849,762,901。【分析与解答】①关于正态性检验:H。:三组资料分别取自正态分布的总体;H1:三组资料并非取自正态分布的总体;α=0.05。②关于方差齐性检验:H。:三组资料所取自的总体的方差相等;H1:三组资料所取自的总体的方差不相等或不全相等;α=0.05。【SAS程序】DATAaa;DOg=1TO3;INPUTX@@;OUTPUT;END;CARDS;2345098513185185624025559183827586316218456534087128432435856591414488494275376298896901PROCSORTDATA=aa;BYg;PROCPRINT;RUN;7-3二、方差分析数据集的建立技巧1.方差分析的数据集格式统计分析所用的数据格式和我们在分析整理资料时所用的格式是不同的。一般来说,数据集中应至少有一个结果变量,用于记录不同处理因素水平下观察值的大小;至少有一个处理因素变量,用于记录处理因素的类型及其水平数。以单因素方差分析为例,就应有一个结果变量和一个处理因素变量;而两因素的方差分析应有一个结果变量和两个处理因素变量。例A某职业病防治院对31名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量测定,请给出数据集的结构。解:数据集中应有两个变量,x和group。x记录肺活量的大小;group取值为1、2或3,分别代表石棉肺患者、可疑患者及非患者。例B某厂医务室测定了10名氟作业工人工前、工中及工后4小时的尿氟浓度,请给出数据集的结构。解:数据集中应有三个变量,x、group和worker。x记录尿氟浓度;group取值为1、2或3,分别代表工前、工中及工后;worker取值为1到10,分别代表10名工人。2.方差分析数据集的建立方法可见方差分析的数据集其变量取值有一定的规律,因此可以利用循环语句和判断语句来简化输入。例7.2请建立例B的数据集。解:此例中数据较有规律,各组的例数均相等,这可正是循环语句大显身手的时候。dataNEW;dogroup=1to3;doworker=1to10;inputX@@;output;end;end;cards;90.5388.4347.37......105.2758.95procprint;run;§7.2ANOVA(AnalysisofVariance)过程如果实验的每种组合安排相同数目的实验单位,则这种实验设计称为平衡设计。由于数据是平衡的,则平方和的计算可以简化。这样的方差分析可用ANOVA过程,不必用占机时更多的GLM过程。ANOVA过程可进行单向分组资料的方差分析、随7-4机区组试验及拉丁方试验的统计分析等。一、过程格式PROCANOVA选择项;CLASS变量表;必需,指定要分析的处理因素MODEL依变量表=效应表/选择项;必需,给出分析用的方差分析模型MEANS效应表/选择项;指定要两两比较的因素及比较方法FREQ变量名;TESTH=效果名称E=效果名称;指定多元方差分析的选项MANOVAH=效果名称E=效果名称M=变量的转换式PREFIX=新变量的名称代号MNAMES=新变量名表/选择项;REPEATED重复变量的名称组名变量转换/选择项;BY变量表;二、语句说明程序中CLASS语句和MODEL语句是必需的,而且CLASS语句必须出现在MODEL语句之前。如果选用TEST和MANOVA语句,则必须放在MODEL语句之后。MEANS、TEST和MANOVA语句可以重复使用,其他语句只能使用一次。1.PROCANOVA语句选择项DATA=数据集指定用来分析的数据集名,若缺省,则使用最新建立的数据集。MANOVA要求PROCANOVA语句将含一个或一个以上依变量缺失值的观察值剔除。当使用交互式进行方差分析时,最好指定此选择项。OUTSTAT=数据集输出结果中包括离差平方和(SS)、F值以及各试验效果的显著程度。2.CLASS语句声明方差分析中因素的分类水平处理变量,也称为分类变量,指明数据集中的自变量,可以是数值型,也可以是字符型。若为字符变量,其长度不超过16个字母。3.MODEL语句指明依变量(因子变量)效应。效应是分类变量的各种组合,效应可以是主效应、交互效应、嵌套效应和混合效应。MODEL语句的选择项有两个:NOUNI抑制单变量方差分析结果的输出;INTERCEPT或INT要求SAS将线性模型内的截距(也称为数据的总平均数)当作一个参数,同时对该参数作是否为零的测验。4.MEANS语句计算并输出所列的效应对应的依变量均数。其主要选择项可分三类:①多重比较选择项若指明了该选择项,则将进行主效应平均数间的测验,即多重比较。常用的多重比较方法选择项如DUNCAN(Duncan新复极差法)、T或LSD(配对t测验或Fisher氏最小显著差数法)、SNK(Q测验)、TUKEY(Tukey固定极差测验)、7-5DUNNETT和DUNNETU(Dunnett氏最小显著差数两尾和单尾测验法)、BON、CABRIEL、REGWF、REGWQ、SCHEFFE、SIDAK、SMM(GT2)、WALLER等。②统计显著水平以ALPHA=P设定,如ALPHA=0.01设定显著水平为0.01,缺省值为0.05。③E=效应名称规定F测验的分母,若缺省则试验设计的误差的均方将自动成为分母。5.FREQ语句指定频次变量。其用法与第5章用法相同。6.TEST语句一般情况下,SAS默认采用误差的均方(MSResidual)作为F测验的分母。但也可自定F测验的分子和分母以进行不同的F测验,该语句中H=分子,E=分母。如:“TESTH=ABE=A*B;”表示F=A/(A*B),F=B/(A*B)。7.MANOVA语句当MODEL中有一个以上依变量时,要求进行多变量的方差分析。8.REPEATED语句指定在一个或多个独立变量上对分析单位进行重复测量设计的分析。在某些情况下采用此语句可以精简程序代码。9.BY语句要求按其指定变量分别进行方差分析。三、使用说明:设有三个因素A、B及C,一个观测变量Y。(1)如果只考虑主效应,则需下列语句:PROCANOVA:CLASSABC;MODELY=ABC;(2)如果具有交叉因素,则需下列语句:PROCANOVA;CLASSABC;MODELABCA*BA*CB*CA*B*C;(3)如果A和B是主效应,C嵌套于A和B中(对A和B的每一组合,观测到C的水平是不同的),则需下列语句:PROCANOVA;CLASSABC;MODELY=ABC(AB)其中C(AB)表示C嵌套于A和B中。再如C(A)表示C嵌套于A中。(4)如果既有嵌套又有交叉效应,则在MODEL语句中可同时使用*和()。例如:7-6PROCANOVA;CLASSABC;MOOELY=AB(A)C(A)B*C(A);四、输出说明(1)CLASSLEVELINFORMATION分类水平信息。其中包括:CLASSCLASS语句中列出的效应名。LEVELS因素效应的水平数。VALUES因素效应中各水平的值或标记。(2)SOURCE变异来源。(3)SUMOFSOUARES(SS)平方和。(4)MEANSQUARE(MS)均方。(5)FVALUEF值。其中MODEL(模型)的下值为MODEL(模型)的均方除以ERROR(误差)的均方。用于检验模型中所有效应均为零的假设,以便说明模型的重要程度。(6)Pr>F显著水平。(7)MODEL模型。它的平方和等于各因素效应的平方和之和,其均方等于它的平方和除以自由度。(8)ERROR误差。(9)CORRECTEDTOTAL校正总变异。(10)R-SQUANER2,其值为模型的平方和除以校正总平方和。一般来说,R2值越大,模型拟合数据越好。(11)C.V变异系数。样本的变异系数为该样本的标准差除以均值,表示单位量的变异。(12)ROOTMSE误差均方根,是观测变量的标准差的估计值。(13)TTESTFORVARIABLE各处理平均数的多重比较T检验,凡有一个相同标记字母的即为差异不显著,凡具有不同标记字母的即为差异显著。§7.3GLM(GeneralLinearModel)过程GLM是GeneralLinearModel(一般线性模型)的缩写,用于非均衡数据方差分析。在SAS/STAT中,GLM过程的分析功能最多,回归分析、方差分析、偏相关分析、协方差分析、多元方差
本文标题:第7章方差分析
链接地址:https://www.777doc.com/doc-2198437 .html