您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 2.2.2用样本的数字特征估计总体的数字特征
2.2.2用样本的数字特征估计总体的数字特征1.众数、中位数、平均数2.标准差一、众数、中位数、平均数的概念中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.众数、中位数、平均数都是描述一组数据的集中趋势的特征数,只是描述的角度不同,其中以平均数的应用最为广泛.121()nxxxn平均数:一组数据的算术平均数,即x=练习:在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如下表所示:成绩(单位:米)1.501.601.651.701.751.801.851.90人数23234111分别求这些运动员成绩的众数,中位数与平均数解:在17个数据中,1.75出现了4次,出现的次数最多,即这组数据的众数是1.75.上面表里的17个数据可看成是按从小到大的顺序排列的,其中第9个数据1.70是最中间的一个数据,即这组数据的中位数是1.70;这组数据的平均数是(1.521.631.851.9)1.69x频率组距0.10.20.30.40.5O0.511.522.533.544.5月平均用水量(t)例如,在上一节调查的100位居民的月均用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是2.25t.如图所示:二、众数、中位数、平均数与频率分布直方图的关系1、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。2、在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。下图中虚线代表居民月均用水量的中位数的估计值,此数据值为2.02t.频率组距0.10.20.30.40.5O0.511.522.533.544.5月平均用水量(t)0.5-0.04-0.08-0.15-0.22=0.01,设小矩形的宽为X,则:0.5X=0.01,得X=0.02,所以中位数是2+0.02=2.02.说明:2.02这个中位数的估计值,与样本的中位数值2.0不一样,这是因为样本数据的频率分布直方图,只是直观地表明分布的形状,但是从直方图本身得不出原始的数据内容,所以由频率分布直方图得到的中位数估计值往往与样本的实际中位数值不一致.频率组距0.10.20.30.40.5O0.511.522.533.544.5月平均用水量(t)3、平均数是频率分布直方图的“重心”.是直方图的平衡点.样本数据的估计平均数就是将频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标之积相加.由此估计总体的平均数就是0.25×0.04+0.75×0.08+1.25×0.15+1.75×0.22+2.25×0.25+2.75×0.14+3.25×0.06+3.75×0.04+4.25×0.02=2.02(t).8思考:从居民月均用水量样本数据可知,该样本的众数是2.3,中位数是2.0,平均数是1.973,这与我们从样本频率分布直方图得出的结论有偏差,你能解释一下原因吗?在制作频率分布直方图“丢失”了一些样本数据,得到的是一个估计值,且所得估计值与数据分组有关.注:在只有样本频率分布直方图的情况下,才可按上述方法估计众数、中位数和平均数,并由此估计总体特征.9平均数大于(或小于)中位数,说明样本数据中存在许多较大(或较小)的极端值.这句话具有模糊性甚至蒙骗性,其中收入水平是员工工资的某个中心点,它可以是众数、中位数或平均数.样本数据的平均数大于(或小于)中位数说明什么问题?思考7:一组数据的中位数一般不受少数几个极端值的影响,在某些情况下是一个优点,但它对极端值的不敏感有时也会成为缺点,你能理解下例中“我们单位的收入水平比别的单位高”这句话的含义?三、三种数字特征的优缺点1、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征.如上例中众数是2.25t,它告诉我们,月均用水量为2.25t的居民数比月均用水量为其它数值的居民数多,但它并没有告诉我们多多少.2、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。如上例中假设有某一用户月均用水量为10t,那么它所占频率为0.01,几乎不影响中位数,但显然这一极端值是不能忽视的。3、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质。也正因如此,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。众数、中位数、平均数的简单应用1某工厂人员及工资构成如下:人员经理管理人员高级技工工人学徒周工资2200250220200100人数165101(1)指出这个问题中周工资的众数、中位数、平均数(2)这个问题中,工资的平均数能客观地反映该厂的工资水平吗?为什么?解:众数为200,中位数为220,平均数为300。因平均数为300,由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平。14三种数字特征的优缺点特征数优点缺点众数体现了样本数据的最大集中点无法客观反映总体特征中位数不受少数极端值的影响不受少数极端值的影响有时也是缺点平均数与每一个数据有关,更能反映全体的信息.受少数极端值的影响较大,使其在估计总体时的可靠性降低.2.右面是某校学生日睡眠时间的抽样频率分布表(单位:h),试估计该校学生的日平均睡眠时间。睡眠时间人数频率[6,6.5)50.05[6.5,7)170.17[7,7.5)330.33[7.5,8)370.37[8,8.5)60.06[8.5,9]20.021001解1:总睡眠时间约为6.25×5+6.75×17+7.25×33+7.75×37+8.25×6+8.75×2=739(h)故平均睡眠时间约为7.39h解2:求各组中值与对应频率之积的和,6.25×0.05+6.75×0.17+7.25×0.33+7.75×37+8.25×0.06+8.75×0.02=7.39(h)估计该校学生的日平均睡眠时间约为7.39h17练习3:”八.一”前夕,某中学举行国防知识竞赛:满分为100分,80分以上为优秀,现将高一的两个班参赛学生的成绩进行整理后分成五组绘制成如图所示的频率分布直方图,已知图中从左到右的第一、第二、第三、第四、第五小组的频率分别是0.3,0.4,0.15,0.1,0.05求:成绩的众数、中位数、平均成绩.506070809010000.0050.0100.0150.030.0465,65,674.若M个数的平均数是x,N个数的平均数是y,则这M+N个数的平均数是.MxNyMN,12,,,nyyy12,,,nxxx1122,,,nnxyxxy和的样本平均数分别是x和y,那么一组数的平均数是5.如果两组数.2222121[()()()]nsxxxxxxn来衡量这组数据的波动大小,并把它叫做这组数据的方差,一组数据方差越大,则这组数据波动越大。(1)方差:设在一组数据,x1,x2,…,xn中,各数据与它们的平均数x的差的平方分别是22212(),(),,()nxxxxxx那么我们用它们的平均数,即(2)标准差:我们把数据的方差的算术平方根叫做这组数据的标准差,它也是一个用来衡量一组数据的波动大小的重要的量。222121[()()()]nsxxxxxxn标准差和频率直方图的关系从标准差的定义可知,如果样本各数据都相等,则标准差得0,这表明数据没有波动幅度,数据没有离散性;若个体的值与平均数的差的绝对值较大,则标准差也较大,表明数据的波动幅度也很大,数据的离散程度很高,因此标准差描述了数据对平均数的离散程度。的平均数为,12,,,naxaxaxax(2)新数据方差为.22as,方差仍为.12,,,nxbxbxbxb2s(1)新数据的平均数为,方差为.12,,,naxbaxbaxbaxb22as的平均数为(3)新数据12,,,nxxxx2s如果数据的平均数为,方差为,则方差的运算性质:解:依题意计算可得x1=900x2=900s1≈23.8s2≈42.6甲乙两种水稻6年平均产量的平均数相同,但甲的标准差比乙的小,所以甲的生产比较稳定.B112甲S1.有甲、乙两种水稻,测得每种水稻各10株的分蘖数后,计算出样本方差分别为由此可以估计()(A)甲种水稻比乙种水稻分蘖整齐(B)乙种水稻比甲种水稻分蘖整齐(C)甲、乙种水稻分蘖整齐程度相同(D)甲、乙两种水稻分蘖整齐程度不能比较4.32乙S2.甲、乙两种水稻试验品种连续5年的平均单位面积产量如下(单位:t/hm2),试根据这组数据估计哪一种水稻品种的产量比较稳定。品种第1年第2年第3年第4年第5年甲9.89.910.11010.2乙9.410.310.89.79.8解:甲品种的样本平均数为10,样本方差为[(9.8-10)2+(9.9-10)2+(10.1-10)2+(10-10)2+(10.2-10)2]÷5=0.02.乙品种的样本平均数也为10,样本方差为[(9.4-10)2+(10.3-10)2+(10.8-10)2+(9.7-10)2+(9.8-10)2]÷5=0.24.因为0.240.02,所以,由这组数据可以认为甲种水稻的产量比较稳定。0D.0xxC.xxxx.B0A.x0x,x,x.5.______3X5231.4.D.C.B.A.3n21n21n21总体方差一定是)(,则表示的方差为,若样本是,则这个样本的标准差数是,若它的平均,,,,已知一个样本以上都不对标准差方差极差)(范围大小的指标是一组数据变化在数据统计中,能反映A2B6.如果一组数中每个数减去同一个非零常数,则这一组数的().A.平均数不变,方差不变B.平均数改变,方差改变C.平均数不变,方差改变D.平均数改变,方差不变D29知识探究(二):标准差样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息.平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,因此,我们需要一个统计数字刻画样本数据的离散程度.30思考1:在一次射击选拔赛中,甲、乙两名运动员各射击10次,每次命中的环数如下:甲:78795491074乙:9578768677甲、乙两人本次射击的平均成绩分别为多少环?77xx乙甲,31思考2:甲、乙两人射击的平均成绩相等,观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?环数频率0.40.30.20.145678910O(甲)环数频率0.40.30.20.145678910O(乙)甲的成绩比较分散,极差较大,乙的成绩相对集中,比较稳定.32思考3:对于样本数据x1,x2,…,xn,设想通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何计算?12||||||nxxxxxxn-+-++-L33思考4:反映样本数据的分散程度的大小,最常用的统计量是标准差,一般用s表示.假设样本数据x1,x2,…,xn的平均数为,则标准差的计算公式是:22212()()()nxxxxxxsn-+-++-=L那么标准差的取值范围是什么?标准差为0的样本数据有何特点?S=0,标准差为0的样本数据都相等.x34标准差标准差是样本数据到平均数的一种平均距离。它用来描述样本数据的离散程度。在实际应用中,标准差常被理解为稳定性。规律:标准差越大,则a越大,数据的
本文标题:2.2.2用样本的数字特征估计总体的数字特征
链接地址:https://www.777doc.com/doc-1886966 .html