您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 生物数据统计分析方法――第四章2剖析
04-08-01《试验设计》第八章1其它试验设计方法介绍均匀设计混料设计全因子试验的数据分析04-08-01《试验设计》第八章2均匀设计一、概述例为了研究环境污染对人体的危害,考察六种重金属Cd、Cu、Zn、Ni、Cr、Pb对老鼠寿命的影响,考察老鼠体内某种细胞的死亡率。将每一种重金属看成一个因子,每一因子取17个水平。试验如何设计?如果采用正交设计,那么至少要进行172=289次试验。如果采用二次回归正交设计那么也至少要进行26-1+2×6+1=45次试验,试验次数都较多。能否减少试验次数?均匀设计便是针对这种情况提出的一种设计方法。04-08-01《试验设计》第八章3均匀设计是用均匀设计表安排试验,而用回归分析进行数据分析的一种试验设计方法。基本想法是要使试验点在因子空间中具有较好的均匀分散性。适用范围:变量取值范围大、水平多(一般不少于5)的场合。04-08-01《试验设计》第八章4二、均匀设计表均匀设计表是均匀设计的基本工具,它是用数论方法编制的。1.均匀设计表Un(qm)均匀设计表用代号Un(qm)表示,U表示均匀设计表,它有n行,m列,每列的水平数为q。04-08-01《试验设计》第八章5均匀设计表U7(76)7,6,5,4,3,2,1该表的每一列都是的一个特定排列。04-08-01《试验设计》第八章6该表的特点是:(1)对任意的n都可以构造均匀设计表,并且行数n与水平数q相同,因此试验次数少;(2)列数可按下面规则给出:当n为素数时,列数最多等于n-1;譬如上面n=7,所以列数最多为n-1=6列;当n是合数时,设,其中为素数,为正整数,那么列数为譬如n=9,由于9=32,所以列数为列。klkllpppn2121kppp,,,21klll,,,21kpppn111111216311904-08-01《试验设计》第八章72.另一类均匀设计表对于n为合数的表,一般列数较少,不太适用。譬如n=6时,由于n=2×3,所以列数只有列。因为均匀设计表U7(76)最后一行全是“7”组成的,故划去这一行,相当于减少一个水平。所以建议用U7(76)划去最后一行的方法得到,为区别起见,记为23112116)(*mnqU)6(6*6U04-08-01《试验设计》第八章8三、均匀设计的使用表1.在用均匀设计表安排试验时,因为任意两列的均匀性是不同的,用哪些列是有讲究的。譬如用安排两个因子时,用1,3列与用1,6列的均匀性是不同的,试验点在平面上的分布见图。前者较均匀。)6(6*6U04-08-01《试验设计》第八章92.什么是均匀设计中的“均匀性”?用“偏差”来度量,偏差愈小均匀性愈好。偏差的定义如下:(1)把均匀设计表Un(nm)中每一行看成m维空间中的一个点,其m个坐标必是集合中某个数。(2)用线性变换将均匀地变换到区间[0,1]中的某个数。此线性变换为:Un(nm)中n个试验点变换成Cm=[0,1]m中的n个点。考虑Un(nm)中n个试验点的均匀性等价于考虑在[0,1]m中的均匀性。n,,2,1ninii,,2,1212,n,,2,104-08-01《试验设计》第八章10(3)设是[0,1]m中任一点,则为多维矩形的体积,且。(4)记为n个点落在多维矩形的个数,则表示有多少比例的点落在矩形中。若此n个点在[0,1]m中均匀散布,则与该多维矩形的体积相差不大。(5)设是[0,1]m中的n个点,则称为点集{}在[0,1]m中的偏差。xnnxxx,,,21nnx/nnx/nxxx,,,21nxxx,,,2104-08-01《试验设计》第八章113.使用表偏差D可对任一均匀设计表或中任意二列、任意三列、…进行计算,从中选出使D达到最小的列作为使用列,从而形成使用表。如下表就是的使用表,s表示因子数。均匀设计表的使用表若从中选出5列使用,就会使偏差D过大,故建议不使用,把使用表中不出现的列剔去,并重新编号,可得及其使用表。nU*nU)7(47U)7(67U)7(67U04-08-01《试验设计》第八章12均匀设计表及其使用表)7(47U使用表说明:当安排两个因子时,第1、3列是最佳的选择,若安排4个因子,第1、2、3、4是最佳选择。04-08-01《试验设计》第八章13均匀设计表U7(74)与的使用表)7(4*7U由表上的D值可知,在表上加“*”的比不加“*”的均匀,因此在实际中我们首先使用加“*”的均匀设计表。但是可安排的因子较少。04-08-01《试验设计》第八章14四、试验设计与数据分析的步骤例为了研究环境污染对人体的危害,考察六种重金属Cd、Cu、Zn、Ni、Cr、Pb对老鼠寿命的影响,为此考察老鼠体内某种细胞的死亡率,为了了解误差,每一水平组合重复三次。04-08-01《试验设计》第八章15(一)试验设计1.明确试验目的:了解六种重金属Cd、Cu、Zn、Ni、Cr、Pb对老鼠寿命的影响。2.明确试验指标:老鼠体内某种细胞的死亡率。3.确定因子与水平:这里因子都是定量的。水平可以是等间隔的,也可以是不等间隔的。本例中有六种重金属可看作六个因子,每一因子取17个水平,其水平值均为:(单位:ppm)0.01,0.05,0.1,0.2,0.4,0.8,1,2,4,5,8,10,12,14,16,18,20注意水平必须按顺序排列(也可以将水平从小到大按顺时钟方向排成一个圈,将任一值作为一水平,其它水平按顺时钟方向命名)。04-08-01《试验设计》第八章164.选择均匀设计表,利用使用表进行表头设计由于这里考察六个因子,每一因子取17个水平,可以用表U17(1716),六个因子按使用表的规定分别置于1,2,3,5,7,8列上,得到如下试验计划(见表8.1.6),表中括号内的数据是水平编号,括号外的数据是水平取值。(二)进行试验,获得试验结果本例在每一水平组合下进行三次重复试验,试验结果列在表8.1.6的最后三列上。04-08-01《试验设计》第八章1704-08-01《试验设计》第八章18(三)数据分析:对均匀设计所得到的试验结果通常采用回归分析方法,建立回归方程。设在一个试验中有p个因子。若只考虑y关于的线性关系,则可用多元线性回归方法建立回归方程,并对每一系数作显著性检验,然后逐个删去不显著的变量,直到所有系数显著为止。若考虑y关于的二次回归,除每一变量的线性项外,还要考虑其二次项、变量间的乘积项,那么回归系数就有在本例中,p=6,回归系数有28个,超过试验次数n=17,这时只能用逐步回归方法从中选出显著的项建立回归方程。pxxx,,,212)2)(1(122pppp04-08-01《试验设计》第八章19在本例中,根据实际问题,认为死亡率与含量的对数有关,因此先将含量进行变换(这里将六个自变量分别取对数),并考虑他们的二次项、交叉乘积项等,用逐步回归方法,在显著性水平0.05上挑选变量,所建立的方程如下:PbZnCrZnNiZnZnCdNiCuCdNiCuCdylnln384.0lnln401.0lnln393.0lnln576.0)(ln710.0)(ln367.0)(ln670.0ln29.2ln27.5ln83.49.27ˆ22204-08-01《试验设计》第八章20对方程作失拟检验与显著性检验的方差分析表如下:04-08-01《试验设计》第八章21对每一回归系数的检验的F值分别是159.52,225.00,40.45,19.18,4.24,20.43,8.58,4.84,8.76,8.35,在显著性水平0.05时,,故上述诸系数都是显著的。所以上面所得到的方程是可信的。此方程对应的误差标准差的估计为,复相关系数的平方是0.948。此方程反映了该种细胞的死亡率与六种重金属的关系。从方程可以看出Cd、Cu、Ni的含量增加会增加该种细胞的死亡率,Zn与Cd、Ni、Cr、Pb的结合对该种细胞的死亡率有较大影响。11.4)40,1(95.0F04-08-01《试验设计》第八章22混料设计一、概念1.混料试验背景:有些产品是通过混合多种成分制造出来的,每种成分的多少是用相对量表示的,这种相对量就是所用成分在总量中所占比例。通常需要通过试验来确定使性能达到最好的每种成分的比例。然而在这种试验中各成分的比例不能自由变动,它们受到一个约束:所有成分比例的和为1。这种试验设计称为混料设计。04-08-01《试验设计》第八章23定义:设在一个试验中有p个因子,用表示,若试验中每一因子的取值满足如下条件:那么称这一试验为混料试验。pxxx,,,2104-08-01《试验设计》第八章242.单形、单形的顶点、单形点的坐标由于在混料设计中,各因子的取值是有限制的,因此需要对其图形及其一些点给出若干专有名词。(1)单形与单形的顶点方程的图形是一个p维平面,而()为p维平面上点的坐标。在该p维平面上满足的区域构成的图形称为单形。若单形上点的p个坐标中有一个为1,其它都为0,则称这种点为单形的顶点,即p维单形的顶点的坐标为11piixpxxx,,,21)1,,0,0(,),0,,1,0(),0,,0,1(04-08-01《试验设计》第八章25p=3时,其图形为三维空间中的一个平面上的等边三角形,其三个顶点的坐标分别为(1,0,0),(0,1,0),(0,0,1),从而该等边三角形就是三维空间上的一个单形。04-08-01《试验设计》第八章26p=4时的单形是三维空间中的一个的正四面体。04-08-01《试验设计》第八章27(2)单形上点的坐标我们可以在单形上建立坐标系。在p=3时,单形是平面上的一个正三角形,设其高为1,记其三个顶点分别为A、B、C,它们的坐标分别是(1,0,0),(0,1,0),(0,0,1)。又设P是该三角形的一个内点,定义P到边BC的距离为,到边AC的距离为,到边AB的距离为,此时三个距离之和恰为该正三角形的高,即有。这种坐标系就是p=3时单形上的坐标系,便是单形上点在这个坐标系下的坐标。),,(321xxx1x2x3x1321xxx),,(321xxx04-08-01《试验设计》第八章2804-08-01《试验设计》第八章293.混料试验的统计模型设试验中所考察的指标为y,那么y与p个因子的关系可以表示为:这里是随机误差,通常假定它服从。称为响应函数,其图形也称为响应曲面,当响应函数中的未知参数用估计值代替后便得到回归方程,也称响应曲面方程。由于形式往往是未知的,通常用的一个d次多项式表示,此时一个混料试验由因子数p与响应多项式的次数d来确定,以后用{p,d}表示一个混料试验。),,,(21pxxxfypxxx,,,21),0(2N),,,(21pxxxfEy),,,(21pxxxfpxxx,,,2104-08-01《试验设计》第八章30利用混料试验的特点,多项式中的参数可以得到简化,此时给出的多项式模型称为Scheffe正则多项式模型。对p因子一次混料试验{p,1},Scheffe利用把p元一次多项式模型化为Scheffe一次正则多项式模型:p因子二次混料试验{p,2}的Scheffe二次正则多项式模型为:p因子三次混料试验{p,3}的Scheffe三次正则多项式模型为:p因子四次混料试验{p,4}的Scheffe四次正则多项式模型为:11piixppxxxEy2211jijiijpiiixxxEy1kjikjiijkjijiijpiiixxxxxxEy1lkjilkjiijklkjikjiijkjijiijpiiixxxxxxxxxxEy104-08-01《试验设计》第八章31对混料设计有一些特殊的设计方法,下面介绍两种设计方法及其相应的数据分析方法。04-08-
本文标题:生物数据统计分析方法――第四章2剖析
链接地址:https://www.777doc.com/doc-3220192 .html