您好,欢迎访问三七文档
第三章概率与概率分布本章重点掌握常用概率分布的特点附录:常用概率分布数学用表的使用§1.概率基础知识1.概率的概念事件(events)可以预言在一定条件下是否出现的事件:必然事件(certainevent)U和不可能事件(impossibleevent)V在一定条件下,可能发生,也可能不发生的事件:随机事件(randomevent)频率(Frequencey)设事件A在n次重复实验中发生了m次,其比值m/n称为事件A发生的频率,记为:频率与概率的关系_例种子总数(n)1020501002005001000发芽种子数(m)9194791186459920种子发芽率(m/n)0.9000.9500.9400.9100.9300.9180.9200.90.950.940.910.930.9180.921234567从图中还可以看出,随着样本量的增大,观测值的波动性逐渐减小并趋于真值。真值概率(Probability)某事件A在n次重复试验中,发生了m次,当试验次数n不断增大时,事件A发生的频率W(A)就越来越接近某一确定件p,于是则定义p为事件A发生的概率,记为:P(A)=p基本性质:1.任何事件的概率都在0和1之间,即:0≤P(A)≤12.必然事件的概率等于1,P(A)=13.不可能事件的概率等于0,P(A)=0统计调查与概率随机变量:问卷中的项目、样本统计量(、S、P)随机事件:调查问卷中项目的取值(性别A男B女)x概率:样本量无穷大时,统计汇总得到的频率2.概率的计算(1)事件相互关系和事件(sumevent)积事件(productevent)互斥事件(mutuallyexclusiveevent)对立事件(contraryevent)独立事件(independentevent)完全事件系(completeeventsystem)A1+A2+…+AnA1·A2·…·AnA·B=VA+B=U,A·B=V相互独立,互不影响两两相斥,必然生发其一。(2)概率计算法则加法定理(additivetheorem)互斥事件A和B的和事件的概率等于事件A和事件B的概率之和。P(A+B)=P(A)+P(B)推理1:如果A1、A2、…An为n个互斥事件,则其和事件的概率为:P(A1+A2+…+An)=P(A1)+P(A2)+…+P(An)推理2:对立事件A的概率为:P(A)=1-P(A)推理3:完全事件体系和事件的概率等于1例:调查某玉米田,一穗株占67.2%,双穗株占30.7%,空穗株占2.1%,试计算一穗株和双穗株的概率、有穗株的概率。P(A+B)=P(A)+P(B)=0.672+0.307=0.979P(A)=1-P(A)=1-0.021=0.979乘法定理(multiplicativetheorem)如果事件A和B为独立事件,则事件A与事件B同时发生的概率等于事件A和事件B各自概率的乘积。P(A·B)=P(A)·P(B)推理1:如果A1、A2、…An彼此独立,则P(A1·A2·…·An)=P(A1)·P(A2)·…·P(An)例:播种玉米时,每穴播种两粒种子,已知玉米种子的发芽率为90%,试求每穴两粒种子均发芽的概率和一料种子发芽的概率。练习题:1.每个人的一对第1号染色体分别来自祖母和外祖母的概率是多少?一位男性的X染色体来自外祖父的概率是多少?2.假如父母的基因型分别为IAIO和IBIO。他们的两个孩子都是A型血的概率是多少?他们生两个O型血的女孩的概率又是多少?3.一名神经科医生听取6名研究对象对近期所作梦的叙述,得知其中有3名为忧郁症患者,3名是健康者。现从6名研究对象中选出3名,问:1)一共有多少种配合?2)每一种配合的概率?3)选出忧郁症患者的概率?4)至少选出两名忧郁症患者的概率?3.概率分布定义:随机变量所有取值的概率所形成的分布数列或分布图。例:500户家庭人口分布人口数户数频率(概率)123456合计201202008060205004%24%40%16%12%4%100%概率分布类型数据类型分分布函数来分数据特征分离散型分布连续型分布经验分布理论分布基本随机变量分布抽样样本分布离散型随机变量的概率分布二项式分布泊松分布超几何分布指数分布连续型随机变量的概率分布正态分布均匀分布t分布、F分布、分布2x4.大数定律大数定律(lawoflargeunmbers):是概率论中用来阐述大量随机现象平均结果稳定性的一系列定律的总称,最常用的是贝努里大数定律。可描述为:设m是n次独立试验中事件A出现的次数,p是事件A在每次试验中出现的概率,则对于任意小的正数ε,有如下关系:说明:当试验条件不变的情况下,重复次数n接近无限大时,频率m/n与理论概率p的差值,必定小于一个任意小的正数,即两者可以基本相等当样本量足够大时,样本就可以代替总体辛钦大数定律(Khinchinetheorem):是用来说明为什么可以用算术平均数来推断总体平均数的。从以上的解释,我们可以将大数定律通俗地表达为:样本容量越大,样本统计数与总体参数之差越小。“样本统计数无限地接近总体参数”§2.几种常见的理论分布1.二项分布随机变量的分布可用分布函数(distributionfunction)来表述其概率。常见的几种理论分布有:离散型变量连续型变量二项分布泊松分布正态分布对于某个性状,常常可以把其资料分成两个类型。这样的结果只能是“非此即彼”两种情况,彼此构成对立事件,我们把这种事件所构成的总体,称为二项总体(dinomialpopulation),其频率分布称为二项分布(binomialdistribution)。例:二项总体:豌豆花色;性别;种子发芽/不发芽穗的有芒/无芒二项分布的形状1)二项分布的形状是由n和p两个参数决定的。当p值较小且n值不大时,图形是偏倚的,随着n值的增大,分布趋于对称。当p值趋于0.5时,分布趋于对称。2)二项分布的参数总体平均数(次数)为:μx=∑xip(xi)=np总体标准差(次数)为:σx=√∑(xi-μ)2p(xi)=√npq二项成数,即百分数(percentage):μp=μx/n=μp/n=p平均数σp=σp/n=√pq/n标准差2.泊松分布在生物学研究中,有许多事件出现的概率很小,而样本容量或试验次数往往却很大,即p值很小,而n值很大。这时,二项分布就会变成另外一种特殊的分布,即泊松分布(Poissondistridution)。例:泊松分布资料:变异细胞计数;突变碱基;变异植株家畜怪胎样方小见植物泊松分布是一种离散型随机变量的分布,其分布的概率函数为:泊松分布的形状由参数λ所确定。当λ较小时,偏倚的;当λ=20时,逼近于正态分布N(λ,λ)当λ=50时,这两种分布除一个是离散型,一种是连续型外,没有多大区别。𝝀=𝒏𝒑𝝁=𝝀𝝈𝟐=𝝀𝝈=𝝀泊松分布在生物学研究中的应用:1)在生物研究中,有许多小概率事件,其发生概率往往小于0.1,甚至小于0.01。对于这些小概率事件,都可以用泊松分布描述其概率分布,从而作出需要的频率预期;2)由于泊松分布是描述小概率事件的,因而二项分布当p0.1和np5时,可用泊松分布来近似例:用显微镜检查某食品样本内结核菌的数目,对在某些视野内各小方格中的细胞数加以计数,然后按不同的细菌数把格子分类,记录每类中的格子数目。结果如下表,试求各种细菌数的理论格子数。?λ=λ=2.9831例:某小麦品种中出现变异植株的概率为0.0045,调查100株,获得两株或两株以上变异植株的概率是多少?期望有0.99的概率获得1株或1株以上的变异植株,至少应调查多少株?3.正态分布正态分布也称高斯分布,是一种连续型随机变量的概率分布。它的分布状态是多数变量都围绕在平均值左右,由平均值到分布的两侧,变量数减少。正态分布是一种在统计理论和应用上最重要的分布。正态分布的应用:1.试验误差的分布一般服从于正态分布;2.正态分布还可作为离散型随机变量或其他连续型随机变量的近似分布;3.有些样本虽并不符合正态分布,但从总体中随机抽样的样本容量相当大时,其样本平均数的分布也近似于正态分布。(1)正态分布的概率函数正态分布记为N(μ,σ2),表示具有平均数为μ,方差为σ2的正态分布,其形状主要由这两个参数来决定。𝒇𝒙=𝟏𝝈𝟐𝝅𝒆−𝟏𝟐(𝒙−𝝁𝝈)𝟐(2)正态分布的特征1.当x=μ时,有最大值;2.当x-μ的绝对值相等时,f(x)值也相等;3.的绝对值越大,f(x)值越小,但永远不会等于零𝒙−𝝁𝝈𝟏𝝈𝟐𝝅4.正态分布曲线完全由两个参数来决定。和对正态曲线的影响xf(x)CAB)1,0(~NXZ若X~N(μ,σ²),则变量Z称为标准正态分布。记为X~N(0,1)例:身高X~N(1.72,0.27²),则身高X的标准分数变量)1,0(~27.072.1NXZ(3)标准正态分布标准正态分布的特点及大小概率事件(1)标准正态分布曲线的均值为0,标准差为1;(2)界于2个标准差内的总概率为95.45%,约等于95%,称为大概率区间,用1-α表示,则小概率α=5%;(3)界于3个标准差内的总概率为99.73%,约等于99%,称为极大概率区间,极小概率区为1%。(4)在标准正态分布中,大、小概率的分界值Z称为临界值,用Zα或Zα/2表示;(5)如果某测量标准分数Z界于-Zα/2Z+Zα/2,则称其为大概率事件;若Z≤-Zα/2,或Z≥+Zα/2,为小概率事件。0=1-2Z-3-1113.59%334.13%22.14%-Zα/2Zα/21-α§3.抽样分布1.抽样试验与抽样分布在符合随机原则,进行总体特征数的研究过程中,有两种抽样方式,即对于无限总体可进行部分抽样对于小的有限总体可进行重复抽样总体与样本的关系。抽样分布的基本概念抽样分布(samplingdistribution):研究当把、S、P、、P1-P2这些来自于样本的统计量,重新当成随机变量时的概率分布。抽样分布是参数估计与假设检验的理论基础x21xxx21xx例:设有一个N=3的近似正态总体,具有变量3,4,5.我们根据前面所学的知识,可得到这个总体的算术平均数、方差和标准差。现我们试用n=2作独立的放回式抽样,用此方法来获得该总体的特征数。μ=4σ2=0.667σ=0.816N=3,n=2时所有样本的平均数、方差和标准差样本编号样本值平均值方差标准差13,33.00.00.000023,43.50.50.707133,54.02.01.414244,33.50.50.707154,44.00.00.000064,53.50.50.707175,34.02.01.414285,44.50.50.707195,55.00.00.0000合计36.06.05.65682.样本平均数的分布样本平均数概率分布,或称样本平均数分布(distributionofthesamplemean):从总体中抽出的样本为每一个可能样本,且每个样本中的变量均为随机变量,所以其样本平均数也为随机变量,可形成一定的理论分布。n=2n=4meanFre.MeanfMeanf2meanFre.MeanfMeanf23.013.09.03.03.25143139.042.253.52724.53.53.7510163560122.50225.004.031248.04.04.2519167668304.00289.004.52940.54.54.751044519202.5090.255.01525.05.01525.00合计936147.0813241309.50样本平均数分布特征样本平均数的分布与其他分布一样,有两个重要参数,一个是样本平均数的平均数,另一个是样本平均数的方差。1)样本平均数的平均数等于总体平均数;2)样本平均数分布的方差等于总体方差除以样本容量;𝜇𝑥𝜎𝑥2μx=μ𝜎𝑥2=𝜎2𝑛样本平均数分布特征3)如果从正态总体进行抽样,其样本平均数也呈正态分布;4)如果不是从正态总体中抽样
本文标题:3.概率及概率分布
链接地址:https://www.777doc.com/doc-3492981 .html