您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 酒店餐饮 > 2.2用样本估计总体(一)
为天地立心为生民立命为往圣继绝学为万世开太平横渠四句如何从样本数据中提取基本信息来估计总体的情况呢?抽样是统计的第一步,接下来就要对样本进行分析。2.2用样本估计总体一、用样本的频率分布估计总体的分布二、用样本的数字特征估计总体的特征平均数、中位数、众数、极差、方差、标准差频率分布表、频率分布直方图、频率折线图、下表给出100位居民的月均用水量表上面这100个数据比较散乱,从中很难看出居民用水量的分布情况,必须对数据进行整理我们可以用:频率分布直方图频率分布表第一步:求极差:(数据组中最大值与最小值的差距)最大值=4.3最小值=0.2所以极差=4.3-0.2=4.1第二步:决定组距与组数:(注意取整)当样本容量不超过100时,按照数据的多少,常分成5~12组.为方便组距的选择应力求“取整”.本题如果组距为0.5(t).则4.18.20.5极差组数=组距第三步:将数据分组:(给出组的界限)所以将数据分成9组较合适.[0,0.5),[0.5,1),[1,1.5),……[4,4.5)共9组.第四步:列频率分布表.分组频数频率频率/组距[0-0.5)4[0.5-1)8[1-1.5)15[1.5-2)22[2-2.5)25[2.5-3)15[3-3.5)5[3.5-4)4[4-4.5)2合计100组距=0.50.040.080.080.160.30.150.440.220.250.512.000.020.040.040.080.10.30.150.05为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O00.10.20.30.40.50.60.511.522.533.544.5频率/组距月均用水量/t(组距=0.5)0.080.160.30.440.50.30.10.080.04小长方形的面积=?小长方形的面积总和=?月均用水量居民人数最多的在哪个区间?第五步:画出频率分布直方图.同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图的形状也会不同.不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断.分别以1和0.1为组距重新作图,然后谈谈你对图的印象.频率分布直方图的特征:1.频率分布直方图频率分布表更直观地反映了样本的分布规律.2.从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。如果当地政府希望使85%以上的居民每月的用水量不超出标准,根据频率分布表2-2和频率分布直方图2.2-1,你能对制定月用水量标准提出建议吗?88%的居民月用水量在3t以下,可建议取a=3.小结:画频率分布直方图的步骤:第一步:求极差:(数据组中最大值与最小值的差距)第二步:决定组距与组数:(强调取整)第三步:将数据分组(给出组的界限)第四步:列频率分布表.(包括分组、频数、频率、频率/组距)第五步:画频率分布直方图(在频率分布表的基础上绘制,横坐标为样本数据尺寸,纵坐标为频率/组距.)组距:指每个小组的两个端点的距离组数:将数据分组,当数据在100个以内时,按数据多少常分5-12组。注意第几组频数(1)第几组频率样本容量(2)纵坐标为:频率组距练习:例某地区为了了解知识分子的年龄结构,随机抽样50名,其年龄分别如下:42,38,29,36,41,43,54,43,34,44,40,59,39,42,44,50,37,44,45,29,48,45,53,48,37,28,46,50,37,44,42,39,51,52,62,47,59,46,45,67,53,49,65,47,54,63,57,43,46,58.(1)列出样本频率分布表;(2)画出频率分布直方图;(3)估计年龄在32~52岁的知识分子所占的比例约是多少.(1)极差为67-28=39,取组距为5,分为8组.分组频数频率[27,32)30.06[32,37)30.06[37,42)90.18[42,47)160.32[47,52)70.14[52,57)50.10[57,62)40.08[62,67)30.06合计501.00样本频率分布表:(2)样本频率分布直方图:年龄0.060.050.040.030.020.01273237424752576267频率组距O(3)因为0.06+0.18+0.32+0.14=0.7,故年龄在32~52岁的知识分子约占70%.课堂练习2.(2006年全国卷II)一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画了样本的频率分布直方图(如下图).为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10000人中再用分层抽样方法抽出100人作进一步调查,则在[2500,3000](元)月收入段应抽出_______人.0.00010.00020.00030.00040.0005月收入(元)频率/组距251000150020002500300035004000频率组距课堂练习0.30.14.34.54.74.95.1视力频率/组距A.0.27,78B.0.27,83C.2.7,78D.2.7,833.为了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图,如右,由于不慎将部分数据丢失,但知道前4组的频数成等比数列,后6组的频数成等差数列,设最大频率为a,视力在4.6到5.0之间的学生数为b,则a,b的值分别为()A频率分布直方图如下:月均用水量/t频率组距0.100.200.300.400.500.511.522.533.544.5连接频率分布直方图中各小长方形上端的中点,得到频率分布折线图频率分布折线图由于样本是随机的,不同的样本的得到的频率分布折线图不同,即使对于同一样本,不同的分组情况得到的频率分布折线图也不同,频率分布折线图是随着样本的容量和分组情况的变化而变化的。利用样本频分布对总体分布进行相应估计(3)当样本容量无限增大,组距无限缩小,那么频率折线图就会无限接近于一条光滑曲线——总体密度曲线。(2)样本容量越大,这种估计越精确。(1)上例的样本容量为100,如果增至1000,其频率分布直方图的情况会有什么变化?假如增至10000呢?总体密度曲线频率组距月均用水量/tab(图中阴影部分的面积,表示总体在某个区间(a,b)内取值的百分比)。用样本分布直方图去估计相应的总体分布时,一般样本容量越大,频率分布直方图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值百分比。总体密度曲线反映了总体在各个范围内取值的百分比,精确地反映了总体的分布规律。是研究总体分布的工具.总体密度曲线并非所有的总体都存在密度曲线,如一些离散型总体不能由样本折线图得到准确的总体密度曲线随堂训练6.如图是总体密度曲线,下列说法正确的是()(A)组距越大,频率分布折线图越接近于它(B)样本容量越小,频率分布折线图越接近于它(C)阴影部分的面积代表总体在(a,b)内取值的百分比(D)阴影部分的平均高度代表总体在(a,b)内取值的百分比c茎叶图某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:甲运动员得分:13,51,23,8,26,38,16,33,14,28,39乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39小结图形优点缺点频率分布1)易表示大量数据丢失一些直方图2)直观地表明分布地情况信息几种表示频率分布的方法的优点与不足1.频率分布表在数量表示上比较确切,但不够直观、形象,分析数据分布的总体态势不太方便。2.频率分布直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到在分布表中看不清楚的数据模式。但是从直方图本身得不出原始的数据内容。3.频率分布折线图的优点是它反映了数据的变化趋势。如果样本容量不断增大,分组的组距不断缩小,那么折线图就趋向于总体分布的密度曲线。4.用茎叶图刻画数据有两个优点:一是所有的信息都可以从这个茎叶图中得到;二是茎叶图便于记录和表示,能够展示数据的分布情况。但当样本数据较多或数据位数较多时,茎叶图就显得不太方便了。用样本的数字特征估计总体的数字特征中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.平均数:一组数据的算术平均数,即)(121nxxxnX三众数、中位数、平均数的概念问题1:众数、中位数、平均数这三个数一般都会来自于同一个总体或样本,它们能表明总体或样本的什么性质?平均数:反映所有数据的平均水平众数:反映的往往是局部较集中的数据信息中位数:是位置型数,反映处于中间部位的数据信息三种数字特征的优缺点特征数优点缺点众数体现了样本数据的最大集中点无法客观反映总体特征中位数不受少数极端值的影响不受少数极端值的影响有时也是缺点平均数与每一个数据有关,更能反映全体的信息.受少数极端值的影响较大,使其在估计总体时的可靠性降低.月均用水量/t频率/组距o4.543.532.521.510.50.500.400.300.200.10思考1:如何从频率分布直方图中估计众数?2.25众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。思考2:如何从频率分布直方图中估计中位数?0.020.040.060.140.250.220.150.080.04月均用水量/t频率/组距o4.543.532.521.510.50.500.400.300.200.10前四个小矩形的面积和=0.492.02后四个小矩形的面积和=0.26分析:在样本数据中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等。总结:在频率分布直方图中,把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标称为中位
本文标题:2.2用样本估计总体(一)
链接地址:https://www.777doc.com/doc-5107375 .html