您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 1010 抽样方法 总体分布的估计
10.10抽样方法总体分布的估计一、明确复习目标1.会用随机抽样、系统抽样、分层抽样等常用的抽样方法从总体中抽取样本2.会用样本频率分布去估计总体分布3.了解正态分布的意义及主要性质4.了解线性回归的方法和简单应用二.建构知识网络1.简单随机抽样:设一个总体的个体数为N.如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.⑴简单随机抽样的特点:逐个抽取,不放回抽样,各个个体被抽到的概率相等.简单随机抽样方法是其他更复杂抽样方法的基础.(2)简单随机抽样的两种方法:①抽签法:编号写签,搅拌均匀,逐个抽取.先后抽取概率均等.抽签法简便易行,适用于个体数不太多总体.②随机数表法:“三步曲”:第一步,将总体中的个体编号;第二步,选定开始的数字;第三步,获取样本号码2.系统抽样:当总体中的个体数较多时,可将总体分成均衡的几个部分,然后按预先定出的规则,从每一部分抽取一个个体,得到需要的样本,这种抽样叫做系统抽样.系统抽样的步骤:(总体中的个体的个数为N,样本容量为n)①采用随机的方式将总体中的个体编号.为简便起见,有时可直接采用个体所带有的号码,如考生的准考证号、街道上各户的门牌号,等等②确定分段(部分)的间隔k奎屯王新敞新疆当Nn是整数时,k=Nn;当Nn不是整数时,先从总体中用简单随机抽样剔除一些个体,使剩下的总体中个体数N能被n整除,取k=Nn.③在第一段用简单随机抽样确定起始的个体编号l.④按照事先确定的规则抽取样本(通常是将l加上间隔k,得到第2个编号l+k,第3个编号l+2k,……)与简单随机抽样一样,系统抽样是等概率抽样,它是客观的、公平的.可以证明:当n不能整除N时,先刎除的个体与其它个体一样,被抽的概率也是1/N.3.分层抽样:当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比例进行抽样,这种抽样叫做分层抽样,所分成的部分叫做层.简单随机抽样,系统抽样,分层抽样都是等概率抽样,简单随机抽样是基础,系统抽样的第一部分和分层抽样的每一层都采用简单随机抽样.随机抽样、系统抽样、分层抽样都是不放回抽样4.频率分布:用样本估计总体,是研究统计问题的基本思想方法,样本中所有数据(或数据组)的频数和样本容量的比,就是该数据的频率.所有数据(或数据组)的频率的分布变化规律叫做样本的频率分布.可以用样本频率表、样本频率分布条形图或频率分布直方图来表示.5.总体分布:从总体中抽取一个个体,就是一次随机试验,从总体中抽取一个容量为n的样本,就是进行了n次试验,试验连同所出现的结果叫随机事件,所有这些事件的概率分布规律称为总体分布.总体分布是不易知道的,通常用“样本频率分布估计总体分布”,这是统计的基本思想方法,样本容量越大,估计越精确.6.总体密度曲线:如果ξ是连续型随机变量,就把ξ的取值区间分组,当样本容量无限增大,分组的组距无限缩小,各组的频率就越接近于总体在相应各组取值的概率,那么频率分布直方图就会无限接近于一条光滑曲线,这条曲线叫做总体密度曲线.它反映了总体在各个范围内取值的概率.根据这条曲线,可求出总体在区间(a,b)内取值的概率等于该区间上总体密度曲线与x轴、直线x=a、x=b所围成曲边梯形的面积。总体分布密度密度曲线函数y=f(x)的两条基本性质:①f(x)≥0(x∈R);②由曲线y=f(x)与x轴围成面积为1。7.正态分布:象测量的误差、产品的尺寸等总体分布密度曲线可用22()21()2xfxe,(σ>0,-∞<x<∞)近似表示,这样的分布中正态分布,记为),(2N,f(x)叫正态分布密度函数.其中π是圆周率;e是自然对数的底;x是随机变量的取值;μ为正态分布的均值;σ是正态分布的标准差.(1)正态分布由参数μ、σ唯一确定,如果随机变量~N(μ,σ2),根据定义有:μ=E,σ=D。(2)正态曲线具有以下性质:①在x轴的上方,与x轴不相交。②关于直线x=μ对称。③在x=μ时位于最高点。④当xμ时,曲线上升;当xμ时,曲线下降。并且当曲线向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近。⑤当μ一定时,曲线的形状由σ确定。σ越大,曲线越“矮胖”,表示总体越分散;σ越小,曲线越“瘦高”,表示总体的分布越集中。8.标准正态曲线:当μ=0、σ=l时,叫标准正态总体,分布密度函数:2221)(xexf,(-∞<x<+∞),相应的曲线叫标准正态曲线.标准正态总体N(0,1)中,总体取值小于0x的概率,P(xx0)=Φ(x0),当x00时,总体密度曲线baxO频率组距y可由标准正态分布表查得.当00x时,)(1)(00xx;Φ(0)=0.5.1221()()()Pxxxxx.任何正态分布的概率问题均可通过)()(xxF转化成标准正态总体.9.假设检验的思想:小概率事件不能发生——假设某种指标服从正态分布N(μ,σ2);(2)确定一次试验中的取值a;(2)作出统计推断:若a∈(μ-3σ,μ+3σ),则接受假设,若a(μ-3σ,μ+3σ),则拒绝假设.10.线性回归:变量与变量之间的关系大致可分为为两类:确定的函数关系,和不确定的相关关系,不确定的两变量之间也有规律可循,回归分析就是研究这种相关关系的一种数理统计方法.如果n组数据(x1,y1),(x2,y2),……(xn,yn)对应的点大致分布在一条直线附近,这条直线就叫回归直线,方程为,^abxy,其中a、b是待定系数.1221niiiniixynxybxnx,aybx,niixnx11,niiyny11三、双基题目练练手1.一个容量为n的样本,分成若干组,已知某数的频数和频率分别为40、0.125,则n的值为()A.640B.320C.240D.1602.(2006江苏)某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9.已知这组数据的平均数为10,方差为2,则|x-y|的值为()(A)1(B)2(C)3(D)43.(2006重庆)为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁-18岁的男生体重(㎏),得到频率分布直方图如下:根据上图可得这100名学生中体重在[56.5,64.5]的学生人数是()(A)20(B)30(C)40(D)504.某厂生产的零件外直径ξ~N(8.0,1.52)(mm),今从该厂上、下午生产的零件中各随机取出一个,测得其外直径分别为7.9mm和7.5mm,则可认为A.上、下午生产情况均为正常B.上、下午生产情况均为异常C.上午生产情况正常,下午生产情况异常D.上午生产情况异常,下午生产情况正常5.随机变量ξ~N(0,1),如果P(ξ1)=0.8413,则P(-1ξ0)=_______.6.为考虑广告费用x与销售额y之间的关系,抽取了5家餐厅,得到如下数据:(表中单位是千元)广告费1.04.06.010.014.0销售额19.044.040.052.053.0现要使销售额达到6万元,则需广告费用为______.(保留两位有效数字)◆答案:1-4.BDCC;4.根据3σ原则,在8+3×1.5=8.45,与8-3×1.5=7.55,之外时为异常.答案:C;5.P(-1ξ0)=P(0ξ1)=Φ(1)-Φ(0)=0.8413-0.5=0.3413.6.先求出回归方程yˆ=bx+a,令yˆ=6,得x=1.5万元.答案:1.5万元四、经典例题做一做【例1】某批零件共160个,其中,一级品48个,二级品64个,三级品32个,等外品16个.从中抽取一个容量为20的样本.请说明分别用简单随机抽样、系统抽样和分层抽样法抽取时总体中的每个个体被取到的概率均相同.解:(1)简单随机抽样法:可采取抽签法,将160个零件按1~160编号,相应地制作1~160号的160个签,从中随机抽20个.显然每个个体被抽到的概率为16020=81.(2)系统抽样法:将160个零件从1至160编上号,按编号顺序分成20组,每组8个.然后在第1组用抽签法随机抽取一个号码,如它是第k号(1≤k≤8),则在其余组中分别抽取第k+8n(n=1,2,3,…,19)号,此时每个个体被抽到的概率为81.(3)分层抽样法:按比例16020=81,分别在一级品、二级品、三级品、等外品中抽取48×81=6个,64×81=8个,32×81=4个,16×81=2个,每个个体被抽到的概率分别为486,648,324,162,即都是81.综上可知,无论采取哪种抽样,总体的每个个体被抽到的概率都是81.点评:三种抽样方法的共同点就是每个个体被抽到的概率相同,这样样本的抽取体现了公平性和客观性.【例2】设随机变量ξ的概率密度函数为003()013,1322xxfxaxxaxax或,求(1)常数a的值;(2)P(ξ2)及F(x)=P(ξx)解(1)f(1)=a,f(3)=0,如图,密度曲线与x轴围成三角形面积yaox3x21123123aa.(2)f(2)=13,f(ξ2)=211253312326.F(x)=P(ξx)=2200101311,136213xxxxxxx【例3】将温度调节器放置在贮存着某种液体的容器内,调节器设定在d℃,液体的温度ξ(单位:℃)是一个随机变量,且ξ~N(d,0.52).(1)若d=90°,求ξ89的概率;(2)若要保持液体的温度至少为80℃的概率不低于0.99,问d至少是多少?(其中若η~N(0,1),则Φ(2)=P(η2)=0.9772,Φ(-2.327)=P(η-2.327)=0.01).分析:需转化为标准正态分布的数值.解:(1)P(ξ89)=F(89)=Φ(5.09089)=Φ(-2)=1-Φ(2)=1-0.9772=0.0228.(2)由已知d满足0.99≤P(ξ≥80),即1-P(ξ80)≥1-0.01,∴P(ξ80)≤0.01.∴Φ(5.080d)≤0.01=Φ(-2.327).∴5.080d≤-2.327.∴d≤81.1635.故d至少为81.1635.◆提炼方法:(1)若ξ~N(μ,σ),则η=~N(0,1).(2)标准正态分布的密度函数f(x)是偶函数,x0时,f(x)为增函数,x0时,f(x)为减函数.【例4】(2006湖北)在某校举行的数学竞赛中,全体参赛学生的竞赛成绩近似服从正态分布N(70,100)。已知成绩在90分以上(含90分)的学生有12名。(Ⅰ)试问此次参赛的学生总数约为多少人?(Ⅱ)若该校计划奖励竞赛成绩排在前50名的学生,试问设奖的分数约为多少分?可供查阅的(部分)标准正态分布表00xpxxx001234567891.20.88490.88690.88880.89070.89250.89440.89620.89800.89970.90151.30.90320.90490.90660.90820.90990.91150.91310.91470.91620.91771.40.91920.92070.92220.92360.92510.92650.92780.92920.93060.93191.90.97130.97190.97260.97320.97380.97440.97500.97560.97620.97672.00.97720.97780.97830.97880.97930.97980.98030.98080.98120.98172.10.98210.98260.98300.98340.98380.98420.98460.98500.98540.9857解:(1)设参赛学生的分布数为ξ,因为ξ~N(70,100),由条件知:(90)1(90)1F(90)9070=1()1(2)10.97720.022810PP
本文标题:1010 抽样方法 总体分布的估计
链接地址:https://www.777doc.com/doc-416788 .html