您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 酒店餐饮 > 人教B版必修三2.2.1用样本的频率分布估计总体的分布
1用样本的频率分布估计总体的分布2从一个总体得到一个包含大量数据的样本时,我们很难从一个个数字中直接看出样本所包含的信息。如果把这些数据形成频数分布或频率分布,就可以比较清楚地看出样本数据的特征,从而估计总体的分布情况。3一、频率分布表与频率分布直方图:1.频数、频率将一批数据按要求分为若干个组,各组内数据的个数,叫做该组的频数。每组的频数除以样本容量的商叫做该组的频率;频率反映每组数据在样本中所占比例的大小。42.样本的频率分布根据随机所抽样本容量的大小,分别计算某一事件出现的频率,这些频率的分布规律(取值状况),就叫做样本的频率分布。为了能直观地显示样本的频率分布情况,通常我们会将样本的容量、样本中出现该事件的频数以及计算所得的相应频率列在一张表中,叫做样本的频率分布表。53.用样本的频率分布估计总体的分布从一个总体得到一个包含大量数据的样本时,我们很难从一个个数字中直接看出样本所包含的信息,如果把这些数据形成频数分布或频率分布,就可以比较清楚地看出样本数据的特征,从而估计总体的分布情况。用样本估计总体,是研究统计问题的一个基本思想方法,而对于总体的分布,我们总是用样本的频率分布对它进行估计。64.列频率分布表的步骤下面我们通过一个具体的实例来阐述这一方法。某钢铁加工厂生产内径为25.40mm的钢管,为了掌握产品的生产状况,需定期对产品进行检测,下面的数据是一次抽样中的100件钢管的内径尺寸:7最大值最小值8列频率分布表的方法步骤:①求极差(也称全距,即一组数据中最大值与最小值的差):极差25.56-25.24=0.32②决定组距与组数那么组数=———=10.67,于是分成11组。极差组距样本数据有100个,由上面算得极差为0.32,取组距为0.03,9注意:为方便起见,组距的选择应力求“取整”,如果极差不利于分组(如不能被组数整除)要适当增大极差,如在左、右两端各增加适当范围(尽量使两端增加的量相同).③决定分点,将数据分组将第1组的起点定为25.235,以组距为0.03将数据分组时,可以分成以下11组:[25.235,25.265),[25.265,26.295),……,[25.535,25.565].10分组时,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间,当然也可以采用其他分组方法。④登记频数,计算频率,列出频率分布表频率=—————,如第1小组的频率为———=0.01.频数样本容量110011频率分布表:12⑤绘制频率分布直方图利用直方图反映样本的频率分布规律,这样的直方图称为频率分布直方图,简称频率直方图。下面仍以上例中的数据加以说明。(1)频率分布直方图的绘制方法与步骤S1先制作频率分布表,然后作直角坐标系,以横轴表示产品内径尺寸,纵轴表示频率/组距.13S2把横轴分成若干段,每一段对应一个组的组距,即在横轴上标上25.235,25.265,……,25.565表示的点;S3在上面标出的各点中,分别以相邻两点为端点的线段为底作矩形,它的高等于该组的频率/组距,每个矩形的面积恰好是该组的频率。这些矩形就构成了频率分布直方图。1415(2)有关问题的理解①因为小矩形的面积=组距×频率/组距=频率,所以各小矩形的面积表示相应各组的频率。这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小。②在频率分布直方图中,各小矩形的面积之和等于1.16③同样一组数据,如果组距不同,横轴、纵轴单位不同,得到的图的形状也会不同。不同的形状给人的印象也不同,这种印象有时会影响我们对总体的判断。④同一个总体,由于抽样的随机性,如果随机抽取另外一个容量为100的样本,所形成的样本频率分布一般会与前一个样本频率分布有所不同。但是,它们都可以近似地看作总体的分布。17⑤上例中,如果规定,钢管内径的尺寸在区间25.325~25.475内为优等品,我们可依据抽样分析统计出产品中优等品的比例,也就是它的频率。从上表或上图容易看出,这个频率值等于0.12+0.18+0.25+0.16+0.13=0.84,于是可以估计出所有生产的钢管中有84%的优等品。工厂可以根据质量规范,看看是否达到优等品率的要求,如果没有达到,就需要进一步分析原因,解决问题。18频率分布直方图的特点从频率分布直方图可以清楚的看出数据分布的总体态势,但是从直方图本身得不出原始的数据内容。所以,把数据表示成直方图后,原有的具体数据信息就被抹掉了。19一、求极差,即数据中最大值与最小值的差二、决定组距与组数:组距=极差/组数三、分组,通常对组内数值所在区间,取左闭右开区间,最后一组取闭区间四、登记频数,计算频率,列出频率分布表画一组数据的频率分布直方图,可以按以下的步骤进行:五、画出频率分布直方图(纵轴表示频率/组距)20例某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超过a的部分按议价收费。①如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?②为了较合理地确定这个标准,你认为需要做哪些工作?21通过抽样,我们获得了100位居民某年的月平均用水量(单位:t),如下表:221.求极差(即一组数据中最大值与最小值的差)2.决定组距与组数组数=4.3-0.2=4.14.10.5=8.2组距极差=3.将数据分组[0,0.5),[0.5,1),…,[4,4.5]组数:将数据分组,当数据在100个以内时,按数据多少常分5-12组。组距:指每个小组的两个端点的距离,234.列频率分布表100位居民月平均用水量的频率分布表注意:这里出来了条形图中条形的宽度。频率不仅与条形的高度有关,而且与它的宽度有关。为了使选择不同宽度的总体分布相同,我们用另一种图形表示,即直方图——用面积表示频率。24频率/组距月平均用水量/t0.500.400.300.200.1000.511.522.533.544.55.画频率分布直方图小长方形的面积组距频率=组距×频率=注意:①这里的纵坐标不是频率,而是频率/组距;②某个区间上的频率用这个区间的面积表示;直方图思考:所有小长方形的面积之和等于?25探究:同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图的形状也会不同。不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断。分别以1和0.1为组距重新作图,然后谈谈你对图的印象。26频率分布折线图:月均用水量/t频率组距0.100.200.300.400.500.511.522.533.544.5连接频率分布直方图中各小长方形上端的中点,得到频率分布折线图27利用样本频分布对总体分布进行相应估计(3)当样本容量无限增大,组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线——总体密度曲线。(2)样本容量越大,这种估计越精确。(1)上例的样本容量为100,如果增至1000,其频率分布直方图的情况会有什么变化?假如增至10000呢?28总体密度曲线频率组距月均用水量/tab总体密度曲线的实际意义在于:总体密度曲线与x轴,直线x=a,x=b围成的面积等于x在[a,b]取值时的频率.29用样本分布直方图去估计相应的总体分布时,一般样本容量越大,频率分布直方图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值概率。总体密度曲线反映了总体在各个范围内取值的概率,精确地反映了总体的分布规律。是研究总体分布的工具.总体密度曲线练习:学案预习自测1、2。概念的理解1-3302.茎叶图茎叶图也是用来表示数据的一种图,茎是中间的一列数,叶是从茎上生长出来的数.例.甲、乙两篮球运动员在上赛季每场比赛的得分如下,试比较这两位运动员的得分水平.甲:12,15,24,25,31,31,36,36,37,39,44,49,50.乙:8,13,14,16,23,26,28,33,38,39,5131解:画出两人得分的茎叶图32茎叶图的中间部分像一颗植物的茎,两边部分像这颗植物上长出来的叶子。用中间的数字表示两位运动员得分的十位数,两边的数字分布表示两个人各场得分的个位数,例如3|389就表示了33,38,39这3个数据。33从这个茎叶图可以看出甲运动员的得分大致对称平均得分及中位数、众数都是30多分;乙运动员的得分除一个51外,也大致对称,平均得分及中位数、众数都是20多分,因此甲运动员发挥比较稳定,总体得分情况比乙好.34画茎叶图的步骤S1将每个数据分为茎(高位)和叶(低位)两部分;S2将最小茎和最大茎之间的数按大小次序排成一列,写在左(右)侧;S3将各个数据的叶按大小次序写在其茎右(左)侧。35几种表示样本分布的方法比较:(1)频率分布表在数量表示上比较确切,但不够直观、形象,分析数据分布的总体态势不太方便;(2)频率分布直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到频率分布表中看不清楚的数据模式,但是从频率分布直方图本身不能得出原始的数据内容,也就是说,把数据表示成直方图后,原有的具体数据信息就被抹掉了。36(3)频率分布折线图的优点是它反映了数据的变化趋势,如果样本容量不断增大,分组的组距不断缩小,那么折线图就趋向于总体密度曲线。(4)用茎叶图刻画数据有两个优点:一是所有的信息都可以从这个茎叶图中得到;二是茎叶图便于记录和表示,能够展示数据的分布情况,但当样本数据较多或数据位数较多时,茎叶图就显得不太方便了。37例1.在某电脑杂志的一篇文章中,每个句子的字数如下:10,28,31,17,23,27,18,15,26,24,20,19,36,27,14,25,22,11,24,27,17.在某报纸的一篇文章中,每个句子的字数如下:27,39,33,24,28,19,32,41,33,27,35,12,36,41,27,13,22,23,18,46,32,22。38(1)将这两组数据用茎叶图表示;(2)将这两组数据进行比较分析,得到什么结论?(1)将这两组数据用茎叶图表示;39(2)电脑杂志上每个句子的字数集中在10,30之间,中位数为22.5,而报纸上每个句子的字数集中在20,40之间,中位数为27.5,还可以看出电脑杂志上每个句子的平均字数比报纸上每个句子的平均字数要少,说明电脑杂志作为科普读物需要简洁明了、通俗易懂。40例2.有人说:“茎叶图表示三位数以上的数据时不够方便”,果真如此吗?请看下例:现在能否用茎叶图来表示上述数据呢?41解:从上述数据可以看到它们的百位数字都是3,所不同的仅仅是十位和个位,而两位数据是可以作茎的,那么只需在茎的位置写上百位和十位,叶的位置上写上个位即可。42例3.某运动员得分的茎叶图如下,试判断他的得分的中位数,众数及稳定程度.43解:从这个图可以直观的看出该运动员得分的中位数是36、众数是31与36,且得分大都在20和40之间,分布较对称,集中程度高,说明其发挥比较稳定.44当堂检测451.在频率分布直方图中,小矩形的高表示()A.频率/样本容量B.组距×频率C.频率D.频率/组距D462.在用样本频率估计总体分布的过程中,下列说法中正确的是()A.总体容量越大,估计越精确B.总体容量越小,估计越精确C.样本容量越大,估计越精确D.样本容量越小,估计越精确C473.一个容量为20的样本数据,分组后组距与频数如下表.组距[10,20)[20,30)[30,40)[40,50)[50,60)[60,70)频数234542则样本在区间(-∞,50)上的频率为()A.0.5B.0.25C.0.6D.0.7D484.10个小球分别编有号码1,2,3,4,其中1号球4个,2号球2个,3号球3个,4号球1个,数0.4是指1号球占总体分布的()A.频数B.频率C.频率/组距D.累计频率B495.已知样本:12,7,11,12,11,12,10,10,9,8,13,12,10,9,6,11,8,9,8,10,那么频率为0.25的样本的范围是()A.[5.5,7.5)B.[7.5,9.5)C.[9.5,11.5
本文标题:人教B版必修三2.2.1用样本的频率分布估计总体的分布
链接地址:https://www.777doc.com/doc-4644152 .html