您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 抽样方法、用样本估计总体及正态分布
第52讲抽样方法、用样本估计总体及正态分布【学习目标】1.了解简单随机抽样,系统抽样和分层抽样的方法,会画频率分布直方图和茎叶图.2.了解用样本估计总体的思想,会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征;初步体会样本频率分布和数字特征的随机性.3.了解正态分布曲线的特点及曲线表示的意义.【基础检测】1.某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点.公司为了调查产品销售的情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区中有20个特大型销售点,要从中抽取7个调查其销售收入和售后服务情况,记这项调查为②.则完成①、②这两项调查宜采用的抽样方法依次是()A.分层抽样法,系统抽样法B.分层抽样法,简单随机抽样法C.系统抽样法,分层抽样法D.简单随机抽样法,分层抽样法B【解析】此题为抽样方法的选取问题.当总体中个体较多时宜采用系统抽样;当总体中的个体差异较大时,宜采用分层抽样;当总体中个体较少时,宜采用随机抽样.依据题意,第①项调查应采用分层抽样法、第②项调查应采用简单随机抽样法.故选B.2.关于正态密度曲线性质的叙述:①曲线关于直线x=μ对称,整条曲线在x轴上方;②曲线对应的正态总体概率密度函数是偶函数;③曲线在x=μ处处于最高点,由这一点向左右两边延伸时,曲线逐渐降低;④曲线的对称位置由μ确定,曲线的形状由σ确定,σ越大曲线越“矮胖”,反之曲线越“高瘦”.上述对正态曲线的叙述正确的是()A.①②③B.①③④C.②③④D.①②③④B3.为了了解学校学生的身体发育情况,抽查了该校100名高中男生的体重情况,根据所得数据画出样本的频率分布直方图如下图所示,根据此图,估计该校2000名高中男生中体重大于70.5千克的人数为()A.300B.360C.420D.450B【解析】由频率分布直方图可知,体重大于0.75千克的频率为(0.04+0.03+0.02)×2=0.18故人数为2000×0.18=360.4.某校开展“爱我中华、爱我家乡”摄影比赛,9位评委为参赛作品A给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分后,算的平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x)无法看清.若记分员计算无误,则数字x应该是.1【解析】89+89+92+93+92+91+90+x7=91⇒x=1.5.某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如下表:学生1号2号3号4号5号甲班67787乙班67679则以上两组数据的方差中较小的一个为s2=.25【解析】甲班的方差较小,数据的平均值为7,故方差s2=6-72+02+02+8-72+025=25.【知识要点】1.简单随机抽样设一个总体的个数为N.如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的相等,就称这样的抽样为简单随机抽样.实现简单随机抽样,常用法和法.概率抽签随机数表(1)抽签法①制签②抽签:抽签法简便易行,当总体的个体数不多时,适宜采用这种方法.(2)随机数表法①编号②数数③成样(3)简单随机抽样的特点:它是抽样;它是逐个地进行抽取;它是一种抽样.一般地,从含有N个个体的总体中抽取一个容量为n的样本时,每次抽取一个个体时,任何一个个体被抽到的概率为1N;在整个抽样过程中各个个体被抽到的概率为.不放回等概率nN2.系统抽样当总体中的个数较多时,可将总体分成的几个部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样).系统抽样的步骤可概括为:(1)将总体中的个体编号.(2)将整个的编号进行分段.(3)确定起始的个体编号.在第1段用简单随机抽样确定起始的个体编号l.(4)抽取样本.按照先确定的规则(常将l加上间隔k)抽取样本:l,l+k,l+2k,…,l+(n-1)k.均衡3.分层抽样当已知总体由的几部分组成时,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样,其中所分成的各部分叫做层.(1)分层抽样是等概率抽样.用分层抽样从个体数为N的总体中抽取一个容量为n的样本时,在整个抽样过程中每个个体被抽到的概率相等,都等于nN;差异明显(2)分层抽样是建立在简单随机抽样或系统抽样的基础上的,由于它充分利用了已知信息,因此利用它获取的样本更具有代表性,在实际的应用中更为广泛.4.用样本的数字特征估计总体的数字特征(1)众数、中位数在一组数据中出现次数的数据叫做这组数据的众数;将一组数据按照从大到小(或从小到大)排列,处在上的一个数据(或中间两位数据的平均数)叫做这组数据的中位数.最多中间位置(2)平均数与方差如果这n个数据是x1,x2,…,xn,那么,叫做这n个数据的平均数;如果这n个数据是x1,x2,…,xn,那么,叫做这n个数据的方差;同时,叫做这n个数据的标准差.11niixxn2211()niisxxn211()niisxxn5.频率分布直方图与茎叶图样本中所有数据(或数据组)的频数和样本容量的比,就是该数据的.所有数据(或数据组)的频率的分布变化规律叫做频率分布,可以用频率分布直方图、茎叶图来表示.(1)频率分布直方图:具体做法如下:①求极差(即一组数据中最大值与最小值的差);②决定组距与组数(当样本容量不超过100时,常分成5~12组);频率③将数据分组;④列频率分布表;⑤画频率分布直方图.注:频率分布直方图中小长方形的面积=组距×=频率.各组频率的和等于1,因此各小矩形的面积的和等于1.(2)茎叶图:与频率分布直方图比较,茎叶图不仅清晰地展示了数据的分布情况,而且保留了所有原始数据,没有任何信息损失,还可以随时记录新的数据.频率组距(3)从样本频率分布直方图估计总体数字特征时,众数:纵坐标最大的那一组的中点横坐标值;中位数:找到横坐标x0,使直线x=x0左右两边面积各为12,x0即为中位数;平均数:每组中点值乘以相应该组频率的和.6.正态分布(1)函数φμ,σ(x)=,x∈R的图象称为正态密度曲线,简称正态曲线.对于任何实数a<b,随机变量X满足P(a<X≤b)≈,则称X的分布为正态分布,正态分布完全由参数确定.因此正态分布常记作,如果X服从正态分布,则记为.22()212xueμ和σN(μ,σ2)X~N(μ,σ2),()dbaxx(2)正态分布的特点:①曲线在;②曲线关于直线对称;③曲线在x=μ时;④当μ一定时,曲线的形状由σ确定,σ越大,曲线越“矮胖”,表示总体的分布越;σ越小,曲线越“高瘦”,表示总体的分布越.位于x轴上方与x轴不相交x=μ达到峰值12πσ分散集中(3)σ原则①x∈(μ-σ,μ+σ),P(x)=0.683;②x∈(μ-2σ,μ+2σ),P(x)=0.954;③x∈(μ-3σ,μ+3σ),P(x)=0.997.一、抽样方法及应用例1(1)某单位200名职工的年龄分布情况如图,现要从中抽取40名职工作样本,用系统抽样法,将全体职工随机按1~200编号,并按编号顺序平均分为40组(1~5号,6~10号,…,196~200号).若第5组抽出的号码为22,则第8组抽出的号码应是,若用分层抽样方法,则40岁以下年龄段应抽取人;3720(2)某企业有3个分厂生产同一种电子产品,第一、二、三分厂的产量之比为1∶2∶1,用分层抽样方法(每个分厂的产品为一层)从3个分厂生产的电子产品中共抽取100件作使用寿命的测试,由所得的测试结果算得从第一、二、三分厂取出的产品的使用寿命的平均值分别为980h,1020h,1032h,则抽取的100件产品的使用寿命的平均值为h.1013【解析】(1)由于第5组抽出的号码22=2+(5-1)×5,可知第一组抽出的号码应为2,从而第8组应抽取的号码为2+(8-1)×5=37;由分层抽样知识可知,40岁以下年龄段应抽取的人数为40×50%=20人.(2)依题设及分层抽样知识可知3个分厂应抽电子产品数分别为14×100=25个,24×100=50个,14×100=25个,从而抽取的100件产品的使用寿命的平均值为980×25+1020×50+1032×25100=1013(h).【点评】分层抽样、系统抽样的基础知识的考纲要求是“了解”和“会”,因此复习时重点在基础知识的了解与简单应用.二、正态分布及应用例2(1)若随机变量x~N(μ,σ2),则P(x≤μ)=;(2)设随机变量ξ~N(2,9),若P(ξc+1)=P(ξc-1),则c=;(3)设随机变量ξ~N(1,4),则P(5ξ7)=.(附:P(μ-σξμ+σ)=0.638,P(μ-2σξμ+2σ)=0.954,P(μ-3σξμ+3σ)=0.997)0.520.0215【解析】(1)由正态分布曲线的性质可知P(ξ≤μ)=0.5.(2)由于正态分布曲线关于x=2对称.又P(ξc+1)=P(ξc-1),因此c+1+c-12=2,∴c=2.(3)P(5ξ7)=P(μ+2σξμ+3σ)=0.997-0.9542=0.0215.【点评】正态分布问题求解切入点通常是应用数形结合思想和“σ原则”及正态分布曲线的性质.三、茎叶图及应用例3某良种培育基地正在培育一种小麦新品种A.将其与原有的一个优良品种B进行对照试验.两种小麦各种植了25亩,所得亩产数据(单位:千克)如下:品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454.品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430.(1)完成数据的茎叶图;(2)用茎叶图处理现有的数据,有什么优点?(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.(2)由于每个品种的数据都只有25个,样本不大,画茎叶图很方便,此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息损失,还可以随时记录新的数据.(3)通过观察茎叶图可以看出:①品种A的亩产平均数比品种B高;②品种A的亩产标准差比品种B大,故品种A的亩产稳定性较差.【点评】茎叶图是新增知识点,既要会作茎叶图,同时也要会看茎叶图,但考纲要求为“了解和会”的层次,注重基础是关键.例4某食品厂为了检查一条自动包装流水线的生产情况,随机抽取流水线上40件产品作为样本称出它们的重量(单位:克),重量的分组区间为(490,495],(495,500],…,(510,515],由此得到样本的频率分布直方图,如图所示.(1)根据频率分布直方图,求这40件产品中重量超过505克的产品数量;(2)在上述抽取的40件产品中任取2件,设Y为重量超过505克的产品数量,求Y的分布列;(3)从该流水线上任取5件产品,求恰有2件产品的重量超过505克的概率.【解析】(1)重量超过505克的频率为1-(0.03+0.04+0.07)×5=0.3.故重量超过505克的产品数量为0.3×40=12(件).(2)Y可取0,1,2,P(Y=0)=C228C240=63130;P(Y=1)=C128C112C240=2865;P(Y=2)=C212C240=11130,∴Y的分布列为Y012P63130286511130(3)利用样本估计总体,该流水线上产品超过505克的概率为0.3,令ξ为任取5件产品重量超过505克的产品数量,则ξ~B(5,0.3),故所求概率为P(ξ=2)=C25(0.3)2(0.7)3=0.3087.【点评】高考中关于直方图及其应用的考查大有加强的趋势,因此既要会作相关统计数据的直方图,又要会观察直方图,提升识图能力,同时还要加强与概率问题的综合.〔备选题〕例
本文标题:抽样方法、用样本估计总体及正态分布
链接地址:https://www.777doc.com/doc-418362 .html