您好,欢迎访问三七文档
第四章概率分布•在自然界或人类社会中发生的各种现象通常可划分为两类:•确定性现象(definitephenomena)——一定条件下必然发生的现象;•随机现象(randomphenomena)——一定条件下可能发生、但结果不止一个、哪个结果发生预先并不知道的。比如,抛掷一枚硬币.•随机现象的统计规律——随机现象虽然表现为不确定性,但在大量重复试验观测下,其结果会呈现出某种特定的规律,称作随机现象的统计规律。如:掷一枚硬币,{正面朝上}的频率接近0.5。•概率分布就是描述随机现象的统计规律。•本章主要介绍:①事件和概率②二项分布和泊松分布③正态分布④抽样分布•第一节事件和概率•一、事件•1、随机试验•满足下述三个条件的试验称为随机试验(randomexperiment):•①试验可在相同条件下重复进行;•②试验的所有可能结果是明确可知的,并且不止一个;•③每次试验总是恰好出现这些可能结果中的一个,但在试验之前却不能肯定会出现哪一个结果。•在统计学里随机试验可简称为试验。•2、事件(event)——试验中所观察到的结果。•3、基本事件•随机试验的每一个可能结果,称为基本事件(elementaryevent)或简单事件(simpleevent),不可再分。•4、复合事件•由若干个基本事件组合而成的事件,称复合事件(compoundevent),也称作复杂事件•5、必然事件——每次试验中一定发生的结果称作必然事件(certainevent),用Ω表示。•6、不可能性事件——在任何一次试验中都不可能发生的结果称作不可能事件(impossibleevent)。用Φ表示。•7、随机事件——每次试验中可能发生也可能不发生的结果称作随机事件(randomevent)。用A、B、C等表示。二、事件之间的关系和运算•1、包含•若事件A的发生必导致事件B发生,则称事件B包含事件A,。•2、相等•则称事件A等于事件B,记作A=B。•3、和•若事件A与事件B至少一个发生某事件就发生,则某事件称作A与B的和事件,简称为和,记作•(读作A并B),或A+B(读作A加B)。•推广到n个事件的和:•4、积•若事件A与事件B同时发生某事件才发生,则称某事件为A与B的积事件,简称为积,记作,读作A交B)或AB(读作A乘B)。•推广到个n个事件的积:•5、差•称事件A发生但事件B不发生的事件为A减B的差事件,简称为差,记为A-B。•6、互斥•若事件A与事件B不能同时发生,则称A与B互斥或互不相容。互斥包括非此即彼的情形,但互斥不一定是非此即彼,事件关系满足。•7、对立•称事件A不发生就发生的事件为A的对立事件,记为。事件的发生非此即彼,显然•8、独立•若事件A发生的概率不影响事件B发生的概率,则称事件A与事件B相互独立,反之亦然,A与B是一对彼此独立的事件。•注意独立与互斥、对立的区别,互斥指两事件不能同时发生,满足;独立指一事件发生的概率与另一事件发生的概率无关,对立事件互斥但不独立,因为它们满足9、完备事件系若n个A1、A2、…An事件两两互斥,且满足下式:•则称该个事件为一个完备事件系。注意,概率之和等于1并且两两互斥的事件系才是完备事件系,两个条件缺一不可。•〔例4.1〕用“集合图”描述事件之间的关系和运算,并理解和掌握它们的实际意义。•图4.1事件之间的关系和运算三、概率•用于度量事件发生可能性大小的数值称作事件的概率(probability)。通常用P(A)、P(B)等表示。事件的概率具有下述性质:•①设A为任一事件,则0≤P(A)≤1;•②必然事件的概率为1,P()=1;•③不可能事件的概率为0,P()=0。•2、概率的统计定义•若在相同条件下将试验重复n次,且事件A出现了nA次,则事件的频率(frequency)定义为•如果随着试验重复次数n的增大,事件A的频率越来越稳定地在某一常数附近摆动,则称常数为事件A的概率(probability),即•这就是统计意义上的概率定义(statisticalprobability)。•历史上曾有几个著名的抛一枚均质硬币试验(见教材)•许多情况下p很难准确获得。通常以n充分大时事件A出现的频率作为它的概率的估计值,即:•四、概率计算法则•1、对立事件和互斥事件的加法公式•若A和为对立事件:•若A和B为互斥事件:P(A+B)=P(A)+P(B)•2、独立事件的乘法若A、B为相互独立事件:P(AB)=P(B)P(A)•若A1、A2、…An为独立事件系:•P(A1、A2、…An)=P(A1)(A2)…P(An)第二节随机变量及其分布•一、随机变量•在随机试验中,被测定的量是可取不同值的变量,且其取值具有随机性,这样的变量称为随机变量,用X表示。X的某次取值记作小写的x,此时就称X作随机变量(randomvariable),就称x作随机变量的一个观察值(observedvalue)或简称观测(observation)。•间断性(internalvariable)或称为离散(discretevariable)随机变量——如果随机变数只有有限个可能的取值,并在试验中以确定的概率来取这些数值,就称它为间断性(或离散)随机变量。质量性状和计数的数量性状的试验结果常常是间断性随机变量。•连续性随机变量(continuousvariable)——如果随机变数可能的取值充满一个区间,并且试验结果落在任意区间内的概率是确定的,就称它为连续性随机变量。计量性状的试验结果通常是连续性随机变量。•二、随机变量的概率分布•随机变数可能的取值或取值区间的概率反映了随机变数的统计规律性,称为概率分布。•1、离散(间断性)随机变量的概率分布•所谓离散随机变量的概率分布,就是指概率函数f(x)和分布函数F(x)两个基本函数,它们提供了概率分布规律的完整信息。•①概率函数(probabilityfunction)f(x)•设随机变数X可能的取值为x1,x2,……,xk,每个取值对应的概率P(X=xi)为p1,p2,……,pk,为离散(间断性)随机变量的概率函数表4.1间断性随机变量的概率分布列•〔例4.2〕转基因桑树植株抗病性检验(邱健德,2006),参试植株分两组,即转基因组和一般桑树组,将病级分为0,1,2,3,4,5级,观测发病的植株数。由于观测数量足够多,故发病的概率近似等于频率,试以此概率为基础求解随机变量的概率函数和分布函数。表4.2桑树植株发病级的概率函数和分布函数2、连续随机变量的分布连续性随机变量一般用分布函数F(x)和概率密度函数f(x)来表示其概率分布规律①分布函数(概率累积函数)F(X)若X为一连续随机变量,x(-∞,+∞)为任意实数,则X的分布函数或概率累积函数为:F(X)=P(X≤x)分布函数F(x)的直观意义就是随机点X落在区间(-∞,x]上的概率。②概率密度函数f(x)如果存在非负函数f(x),使则称f(x)为连续随机变量的概率密度函数,简称概率密度(probabilitydensity),亦称密度函数(densityfunction)或分布密度(distributiondensity)。•③连续随机变量在给定区间取值的概率•对于连续随机变量x,若已知它的分布函数F(X),则x的观察值属于任一区间(x1,x2]的概率可由下式求得:三、大数定律及小概率事件原理•1、大数定律•相同条件下大量重复的试验,事件发生的频率随试验次数的无限增大而趋于事件的概率,这是最早的一个大数定律(lawoflargenumber)。一般的大数定律,研究随机变量n次观测的平均数随n无限增大是否趋向某定值的问题,称作平均数的稳定性。如果“n无限增大平均数就趋于一个定值”,此时称平均数具有稳定性。•大数定律是许多统计方法赖以成立的理论依据。•称其为统计估计。“大数”就是所谓的“足够多”。2、小概率事件原理•依据大数定律,概率很小的事件其频率也很小,若只做一次试验,该事件实际上应当不会发生。因此,人们常常认为那些概率很小的事件实际上是不可能发生的,此原理称之为“小概率事件的实际不可能原理”,简称作“小概率事件原理”.一般认为概率小于0.05或小于0.01的事件为小概率事件,0.05和0.01称为小概率事件的临界概率。对于其它特殊场合,规定的临界概率值可根据事件的性质合理确定。第三节二项分布和泊松分布•一、0-1分布(二项总体分布)•有些总体的各个个体的某种性状,只能发生非此即彼两种结果,“此”和“彼”是对立事件,如,种子的发芽和不发芽等,这种由非此即彼事件构成的总体,叫做二项总体。•为便于研究,将这类的试验结果数量化,“此”事件设为1,具概率p,“彼”事件设为0,具概率q,因而,二项总体又称为0-1总体,其概率关系显然为:p+q=1q=1–p表4.3二项总体的概率分布列(0-1分布)图4.40-1分布的概率函数•[例4.3]以某试验地的5株蔬菜为总体调查蚜虫为害情况。令x=1代表受害,x=0代表未受害,5株的观察结果为0,1,0,1,0。试求危害率的数学期望和方差。•说明该试验地蚜虫的平均危害率为0.4,危害率变异的方差为0.24。此例也说明了二项总体的平均数为=p,方差为=pq•二、二项分布•从二项总体中,每次以样本容量n抽样,将会有n+1种可能的结果,这n+1种可能的结果有它各自的概率而组成一种分布,就叫二项概率分布,简称二项分布(binomialdistribution)。又称贝努利分布。二项展开式三、计算二项分布概率的方法[例4.4]在一批发芽率为0.9的种子里取5粒进行发芽试验。以x为发芽粒数,试做出试验结果X的概率分布列。四、二项分布的形状和参数图4.5表示表4.4的概率分布列。这是一个偏态的概率分布,因为其p≠q且n较小。如果p=q则二项分布是对称的,见图4.6。理论分析和实践结果都表明当n很大时,即使p≠q的二项分布其图形也接近对称,见图4.7。图4.5表4.4的概率分布图[例4.5]某玉米种子发芽率为0.6,今按设计株距穴播,若每穴播4粒,预计田间保苗率是多少?首先考虑,这里的田间保苗率实际上是每穴有种子发芽的概率,这是一个和事件,可计算为可知此时,田间预计保苗率为97.44%〔例4.6〕在已往大规模田间播种作业中,已观测到种子的出苗概率为0.6。①若每穴播10粒,试确定播种作业的穴粒数分布,②求出在此出苗概率(0.6)下,田间保苗率95%的最少穴粒数。解:设出苗种子数X为随机变量,服从二项分布。其概率函数为表4.5田间播种作业穴粒数的概率函数和分布函数(×10-3)•设:田间保苗率大于95%时,最少穴粒数为每穴n粒。•与上题相同,田间保苗率实际上是每穴有种子发芽的概率,因此:至少一粒种子出苗的概率如下:•由此可见,穴粒数达4粒以上就可基本保证每穴必出苗,最佳穴粒数定为4。五、泊松分布当n较大,p或q较小,np或nq≤5时,二项分布将为泊松分布(Poissondistribution)所接近。令=np,则泊松分布的概率分布为记作X~p()。泊松分布的概率函数仅含一个参数,意味着只要获知,概率函数就被完全确定。泊松分布的期望和方差相等且均为,这是泊松分布所特有的性质。如果试验次数很大,某事件出现的次数很小,那么此事件的出现次数将服从泊松分布。泊松分布的概率函数图形见图4.11。图4.9泊松分布的概率函数〔例4.11〕为考察果树品种A和B的幼苗在某栽植地区的抗寒力及分布,设置200个面积相等且足够大的抽样小区,观测小区寒害株数(小区内遭受寒害的株数),观测结果为0,1,2,3,4和5。统计寒害株数相同的小区数(小区寒害次数),计算小区寒害率(小区寒害次数与观测小区总数之比),结果见表4.6。试用泊松分布预测小区寒害率并与观测结果比较,同时考察两品种抗寒力的差异。表4.6两果树品种的小区寒害株数、次数和寒害率的观测结果品种A:品种B:品种A的泊松分布概率函数品种B的泊松分布概率函数图4.11品种B小区寒害率的观察值与泊松预测值一批种子中不合格种子占0.005,从中抽取800粒,试求其
本文标题:第四章概率分布
链接地址:https://www.777doc.com/doc-2169530 .html