您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 田间试验与统计方法第四章理论分布和抽样分布
第四章理论分布与抽样分布第一节事件与概率第二节概率分布第三节二项式分布第四节正态分布第五节抽样分布一、事件(一)必然现象与随机现象•必然现象(inevitablephenomena)或确定性现象(definitephenomena):结果可预言,确定的,必然的,可重复例,标准大气压下,水加热到100°C必然沸腾•随机现象(randomphenomena)或不确定性现象(indefinitephenomena):结果事前不可预言,呈偶然性、不确定性例,种子发芽,抛硬币随机现象或不确定性现象,有如下特点:(1)在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;(2)但在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的特定的规律性——频率的稳定性,通常称之为随机现象的统计规律性。(二)随机试验与随机事件1、随机试验通常我们把根据某一研究目的,在一定条件下对自然现象所进行的观察或试验统称为试验(trial)。而一个试验如果满足下述三个特性,则称其为一个随机试验(randomtrial),简称试验:(1)试验可以在相同条件下多次重复进行;(2)每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果;(3)每次试验总是恰好出现这些可能结果中的一个,但在一次试验之前却不能肯定这次试验会出现哪一个结果。例如小麦发芽试验,抛硬币。2、随机事件随机试验的每一种可能结果,在一定条件下可能发生,也可能不发生,称为随机事件(randomevent),简称事件(event),通常用A、B、C等来表示。(1)基本事件我们把不能再分的事件称为基本事件(elementaryevent),也称为样本点(samplepoint)。例如,在编号为1、2、3、…、20的数字中随机抽取1个,有20种不同的可能结果:“取得一个编号是1”、“取得一个编号是2”、…、“取得一个编号是10”,这10个事件都是不可能再分的事件,它们都是基本事件。由若干个基本事件组合而成的事件称为复合事件(compoundevent)。如“取得一个编号是2的倍数”是一个复合事件,它由“取得一个编号是2”、“是4”、“是6、“是8”…“是20”10个基本事件组合而成。(2)必然事件我们把在一定条件下必然会发生的事件称为必然事件(certainevent),用Ω表示。其概率为1例如,标准大气压下,水加热到100°C必然沸腾,就是一个必然事件。(3)不可能事件我们把在一定条件下不可能发生的事件称为不可能事件(impossibleevent),用ф表示。其概率为0例,没有生活能力的种子播种后会出苗,就是一个不可能事件。•必然事件与不可能事件实际上是确定性现象,即它们不是随机事件,但是为了方便起见,我们把它们看作为两个特殊的随机事件。积事件AB和事件A+BABAB互斥事件对立事件ABA+B,“或A发生,或B发生”。AB,“A和B同时发生或相继发生”A·B=V,事件A和B互斥或互不相容A+B=U,A·B=V,事件B为事件A的对立事件,并记B为A事件间的关系二、概率研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。这就要求有一个能够刻划事件发生可能性大小的数量指标,这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们称之为概率(probability)。事件A的概率记为P(A)。(一)概率的统计定义思考:投掷一枚硬币,出现正面的概率是多大?(0表示反面,1表示正面)反复做它,那么所有出现正面的结果平均值是多少?英国数学家皮尔逊做24000次抛硬币试验正面向上12012次频率=随着试验次数的增多,正面朝上的频率越来越接近0.5.5005.02400012012二、概率例,表在相同条件下盲蝽象在某棉田危害程度的调查结果调查株数(n)52550100200500100015002000受害株数(a)212153372177351525704棉株受害频率(a/n)0.400.480.300.330.360.3540.3510.3500.352调查株数n较多时的稳定频率才能较好地代表棉株受害的可能性统计学上用n较大时稳定的p近似代表概率。通过大量实验而估计的概率称为实验概率或统计概率,以表示。此处P代表概率,P(A)代表事件A的概率,P(A)变化的范围为0~1,即0≤P(A)≤1。naPnlimA)((二)概率的古典定义概率的统计定义是在大量的试验中以频率的稳定性为基础上提出来的。不需要做试验,根据随机事件本身的特性就可以确定事件出现的概率,称为古典概率。古典概型必须满足以下条件:•随机试验的全部可能结果(基本事件数)是有限的;•各基本事件间是互不相容且发生是等可能的。定义:P(A)=m/nm为事件A中所包含的基本事件数n为基本事件总数。例,在1、2、3、…20这20个数字中随机抽取1个,求下列事件的概率(1)A=“抽得1个数字小于5”(2)B=“抽得1个数字是2的倍数”小概率事件----随机事件的概率表示随机事件在试验中出现的可能性大小。随机事件的概率很小如,小于0.05或0.01或0.001小概率原理----统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件,称为小概率事件实际不可能性原理,简称小概率原理。这里的0.05或0.01称为小概率标准,农业试验研究中通常使用这两个小概率标准。小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。(三)小概率事件实际不可能性原理概率是事件在试验结果中出现可能性大小的定量计量。它是度量随机事件发生的可能性的统计学指标。是事件固有的属性,有以下明显的性质:•随机事件A的概率:0<P(A)<1•必然事件W的概率为1,即P(W)=1•不可能事件(V)的概率为0,即P(V)=0•概率接近于0(如P0.05)的事件称为小概率事件。(四)概率的性质第二节概率分布(probabilitydistribution)一、随机变量二、概率分布一、随机变量(randomvariable)随机变量是指随机变数所取的某一个实数值。表示随机现象结果的变量,也就是在随机试验中被测定的量,所取得的值称为观察值。例1:抛硬币试验,两种结果:用数“1”表示“币值面向上”,“0”表示“国徽面向上”把0,1作为变量y的取值可以简单地把抛硬币试验用取值为0,1的变量来表示:P(y=1)=0.5,P(y=0)=0.5例2:用“1”表示“能发芽种子”,其概率为p;用“0”表示“不能发芽种子”,其概率为q。显然p+q=1,则P(y=1)=p,P(y=0)=q=1-p。例3:用变量y表示水稻产量,若y大于500kg的概率为0.25,大于300kg且等于小于500kg的概率为0.65,等于小于300kg的概率为0.1。则用变量y的取值范围来表示的试验结果为P(y≤300)=0.10,P(300<y≤500)=0.65,P(y>500)=0.25。随机变量离散型连续型(与我们前面所讲的连续型数据和离散型数据的意义一样)(一)离散型随机变量----当试验只有几个确定的结果,并可一一列出,变量y的取值可用实数表示,且y取某一值时,其概率是确定的,这种类型的变量称为离散型随机变量。将这种变量的所有可能取值及其对应概率一一列出所形成的分布称为离散型随机变量的概率分布:概率)(iyyP变量yiy1y2y3…ynP1P2P3…Pn也可用函数f(y)表述,称为概率函数。)(iyyP前面例1、例2中的y就是离散型随机变量,将其可能取值与对应概率一一列出,即为:变量y01概率0.50.5)(iyyP变量y01概率qp)(iyyP常用概率分布表或概率分布图表示•离散型变量概率的分布函数:离散型变量概率的向上累积。其公式为,即随机变量小于等于某一可能值(x0)的概率。0)()()(00xxiixXPxpxF离散型概率分布的例子例:从100件产品(其中合格品95件,废品5件)中任取10件,求每次抽到废品数的概率分布。xp(x)0123450.5837523670.3393909110.0702188090.0063835280.0002510380.000003347概率分布图00.10.20.30.40.50.60.7012345分布函数图00.20.40.60.81012345xF(x)0123450.5837523670.9231432780.9933620770.9997456050.9999966531.000000000概率分布表累积概率分布表(二)连续型随机变量(continuousrandomvariate)----对于随机变量,若存在非负可积函数f(y)(-∞<y<+∞),对任意a和b(a<b)都有P(a≤y<b)=,则称y为连续型随机变量(continuousrandomvariate),f(y)称为y的概率密度函数(probabilitydensityfunction)或分布密度(distributiondensity)。badyyf)(上述例3中的y就是一个连续型随机变量。概率密度的图形f(x),称为分布曲线。概率是曲线下面积!f(x)XabdxxfbXaPba)(概率密度曲线f(x)与x轴所围成的面积为1分布函数(或称为累积分布函数)是随机变量X取得小于x0的值的概率00xodx)x(f)xX(P)x(F概率密度函数图和概率分布函数图概率密度函数图概率分布函数图或或概率分布曲线累积分布函数图y=p(x)y=F(x)x1x2x2x1P(x1xx2)=F(x2)-F(x1)连续型随机变量概率分布的性质:分布密度函数总是大于或等于0,即f(x)≥0;当随机变量x取某一特定值时,其概率等于0;即(c为任意实数)因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率。ccdxxfcxP0)()(第三节二项式分布一、二项总体及二项式分布二、二项式分布的概率计算方法三、二项式分布的形状和参数四、多项式分布一、二项总体及二项式分布二项总体(binarypopulation),就是非此即彼的两项构成的总体.例:小麦种子发芽和不发芽,大豆子叶色为黄色和青色,调查棉田危害分为受害株和不受害株等等。通常将二项总体中的“此”事件以变量“1”表示,具概率p;将“彼”事件以变量“0”表示,具概率q。因而二项总体又称为0、1总体,其概率则显然有:p+q=1如果从二项总体进行n次重复抽样,设出现“此”的次数为y,那么y的取值可能为0、1、2、…、n,共有n+1种可能取值,这n+1种取值各有其概率,因而由变量y及其概率就构成了一个分布,这个分布叫做二项式概率分布,简称二项分布(binomialdistribution)。B(n,p)二项总体的抽样试验具有重复性和独立性.重复性是指每次试验条件不变,即在每次试验中“此”事件出现的概率皆为p.独立性是指任何一次试验中“此”事件的出现与其余各次试验中出现何种结果无关.二、二项式分布的概率计算方法数学上的组合公式为:)!(!!ynynCyn二项式中包含两项,这两项的概率为p、q,并且p+q=1,可推知变量y的概率函数为:ynyynqpCyP)(nyyP0)(1累积函数F(y):变量小于等于y的所有可能取值的概率之和yiiyPyF0)()(理论次数:对于任意y,理论次数=nP(y)这一分布律也称贝努里(Bernoulli)分布,并有nqp)(的泰勒展开式为:......)(222111ynyynnnnnnqpCqpCqpCqpnyynyynqpC0可以看到,上式右边的每一项即为二项分布中变量y取0、1、2、…、n时的概率,又p+q=1,从而(p+q)n=11)(00nyynyynnyqpCyP[例4.1]棉田盲
本文标题:田间试验与统计方法第四章理论分布和抽样分布
链接地址:https://www.777doc.com/doc-419182 .html