您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 沈阳理工大学徐静霞版统计学-第4章-数据的概括性度量
LOGO第4章数据的概括性度量4.1集中趋势的度量4.2离散程度的度量4.3偏态与峰态的度量学习目标集中趋势的度量。掌握数据分布集中趋势的各测度值,包括众数、中位数、四分位数以及平均数的计算方法、特点和应用。离散程度的度量。掌握数据分布离散程度的各测度值,包括四分位差、平均差、方差和标准差以及离散系数、标准分数等。偏态和峰态的度量。掌握偏态系数和峰态系数的计算方法。纽约是穷州?纽约是不是个富州?纽约州的个人平均收入在美国全部50个州中位居第四,和它的富邻居康涅狄格及新泽西州一起名列前茅(后两州分列一、二名)。但是康涅狄格和新泽西州的住户中位收入分居全国第七和第二名,纽约州却排在第二十九名,比全国平均的中位收入低许多。这是怎么回事?这只不过是平均数不同于中位数的一个例子。纽约州有许多收入非常高的居民,把平均收入提高许多,但是它的贫困户比例比新泽西和康涅狄格都要高,使得住户中位收入偏低。纽约州并不有钱——它只是同时拥有非常有钱和非常贫穷的居民这两种极端的一个州。资料来源:[美]戴维·S·穆尔:《统计学的世界》,北京,中信出版社,2003。数据分布的特征数据水平(位置)分布形状(偏态和峰态)数据差异(分散程度)4.1集中趋势的度量4.1.1分类数据:众数4.1.2顺序数据:中位数和分位数4.1.3数值型数据:平均数4.1.4众数、中位数和平均数的比较集中趋势一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据4.1.1分类数据:众数一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数mo统计函数—MODE【例4.1】根据第3章表3-3中的数据,计算“国产笔记本电脑品牌”的众数。众数的确定0M众数的确定【例4.2】根据第3章表3-6中的数据,计算家庭收入分别为5~10万元和家庭收入10万元以上2组对幸福感评价的众数。0M众数的原理及应用当数据分布存在明显的集中趋势,且有显著的极端值时,适合使用众数;当数据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数(前者无众数,后者为多众数,也等于没有众数)。众数的原理及应用VAR00001174.0173.0172.0171.0170.0169.0168.0167.0166.0165.0164.0163.0162.0161.0160.0159.0158.0157.0156.0155.0154.0153.0152.014121086420Std.Dev=4.86Mean=163.3N=83.0083名女生身高原始数据VAR00001173.0170.0167.0164.0161.0158.0155.0152.03020100Std.Dev=4.86Mean=163.3N=83.0083名女生身高组距数列oM4.1.2顺序数据:中位数和分位数中位数一组数据排序后,居于中间位置的数据。Me50%50%数值确定位置确定中位数的确定21n中位数位置为偶数为奇数nxxnxMnnne1222121中位数的确定【例4.4A】计算选手比赛9枪成绩的中位数。原始数据:9.5109.39.89.69.510.29.510.4排序:9.39.59.59.59.69.81010.210.4位置:1234567895219中位数位置中位数9.6数据个数为奇数数据个数为偶数中位数的确定【例4.4B】计算选手比赛10枪成绩的中位数。排序:9.39.59.59.59.69.81010.210.210.4位置:12345678910.552110中位数位置7.928.96.9eM统计函数—MEDIAN4.1.2顺序数据:中位数和分位数四分位数一组数据排序后,居于25%和75%位置上的数据。QLQMQU25%25%25%25%四分位数的确定方法1:定义算法如果计算结果是整数,四分位数就是该位置对应的值;如果计算结果是小数,则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。4nQL的位置43nQU的位置四分位数的确定【例4.5A】计算选手比赛9枪成绩的四分位数。原始数据:9.5109.39.89.69.510.29.510.4排序:9.39.59.59.59.69.81010.210.4位置:12345678925.2494nQL的位置5.925.0)5.95.9(5.9LQ5.7649343nQU的位置95.975.0)8.910(8.9UQ四分位数的确定方法2:SPSS软件确定的四分位数位置的方法方法3:Excel软件确定的四分位数位置的方法413nQU的位置41nQL的位置413nQU的位置43nQL的位置四分位数的确定【例4.5B】计算选手比赛9枪成绩的四分位数。原始数据:9.5109.39.89.69.510.29.510.4排序:9.39.59.59.59.69.81010.210.4位置:123456789方法2—SPSS公式5.241941nQL的位置5.74193413nQU的位置5.925.95.9LQ1.1022.1010UQ四分位数的确定【例4.5C】计算选手比赛9枪成绩的四分位数。原始数据:9.5109.39.89.69.510.29.510.4排序:9.39.59.59.59.69.81010.210.4位置:123456789方法3—Excel公式343943nQL的位置74193413nQU的位置统计函数—QUARTILE5.9LQ10UQ4.1.2顺序数据:中位数和分位数百分位数一组数据排序后,用99个点把将全部数据等分为100个部分,每个等分点位置上的数据。第n个百分位数表示至少有n%的数据比它小,同时有不超过(100-n)%的数据比它大。将数据按升序排列;按如下公式确定百分位数的位置(i):nPi100百分位数的确定式中:P——所研究的百分位数;i——百分数的位置;n——数据个数。百分位数的确定按如下情况决定百分数的位置:如果i是整数,那么P百分位数就是第i个位置和第i+1个位置的数据的平均值;如果i不是整数,那么P百分位数的位置就是第i+1个位置的数据的整数部分。百分位数的确定【例4.6A】计算选手9枪成绩的第30个百分位数。排序:9.39.59.59.59.69.81010.210.4百分位数的位置:7.2910030100nPi由于2.7不是整数,那么第30个百分位数的位置就是第3.7个位置的数据的整数部分。因此第30个百分位数是第三个数,即9.5。位置:123456789百分位数的确定【例4.6B】计算选手10枪成绩的第30个百分位数。排序:9.39.59.59.59.69.81010.210.210.4位置:12345678910百分位数的位置:31010030100nPi由于3是整数,那么第30个百分位数的位置就是第3个位置和第4个位置的数据的平均值。因此第30个百分位数是9.5。4.1.3数值型数据:平均数也称为均值,最常用的统计量之一消除了观测值的随机波动易受极端值的影响根据总体数据计算的,称为总体平均数,记为;根据样本数据计算的,称为样本平均数,记为xxx简单平均数根据未经分组处理的数据计算得到的平均数。设一组数据为:x1,x2,…,xn(总体数据xN)NxNxxxNiiN121总体平均数样本平均数nxnxxxxniin121简单平均数【例4.7】计算选手9枪成绩的简单平均数。解:环=76.994.102.105.93.91nxxnii统计函数—AVERAGE加权平均数根据分组数据计算得到的平均数。设各组的组中值为:M1,M2,…,Mk相应的频数为:f1,f2,…,fk总体加权平均NfMffffMfMfMkiiikkk1212211nfMffffMfMfMxkiiikkk1212211样本加权平均【例4-8】某企业某日工人的日产量资料如下:日产量(件)工人人数(人)101112131470100380150100合计800Xf计算该企业该日全部工人的平均日产量。加权平均数日产量(件)工人人数(人)101112131470100380150100合计800Xf件)(1375.1280097101007010014701011miimiiiffXX解:加权平均数miimiiiffXX11分析:成绩(分)人数(人)甲班乙班丙班603912010013920平均成绩(分)619980起到权衡轻重的作用决定平均数的变动范围加权平均数表现为次数、频数、单位数;即公式中的fXfXf表现为频率、比重;即公式中的ffXfXfXff变量数列中各组标志值出现的次数(频率),反映了各组的标志值对平均数的影响程度。权数绝对权数相对权数加权平均数加权平均数【例4.8】计算130名学生考试成绩的平均数。130名学生考试成绩平均数计算表按成绩分组(分)组中值(Mi)频数(fi)Mifi60以下60~7070~8080~9090~100556575859510244338155501560322532301425合计—1309990分85.7613099901nfMxkiii解:各变量值与其平均数的离差之和等于零,即或各变量值与其平均数的离差平方和最小,即或niixx10)(niixx12min)(niiifxx10)(niiifxx12min)(平均数的数学性质1x2x3x4x5x6x123456785x-1-1-2130)1(13)2(01)(xx16)1(13)2(01)(2222222xx平均数的数学性质几何平均数一种特殊的平均数,也叫几何均值,是n个变量值乘积的n次方根,用G表示主要用于计算平均比率或平均速度具备以下两个前提条件:各个比率或速度的连乘积等于总比率或总速度;相乘的各个比率或速度不为零或负数。简单几何平均数适用于数据未经分组整理的情况nininnxxxxG121【例4.9】一位投资者持有一种股票,2003—2006年的收益率分别为4.5%,2%,3.5%,5.4%。要求计算该投资者在这四年内的平均收益率。解:设平均收益率为,则该投资者四年的平均收益率为G%84.31%4.105%5.103%102%5.104141ninixG【例】某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95﹪、92﹪、90﹪、85﹪、80﹪,求整个流水生产线产品的平均合格率。分析:设最初投产100A个单位,则第一道工序的合格品为100A×0.95;第二道工序的合格品为(100A×0.95)×0.92;……第五道工序的合格品为(100A×0.95×0.92×0.90×0.85)×0.80;因该流水线的最终合格品即为第五道工序的合格品,故该流水线总的合格品应为100A×0.95×0.92×0.90×0.85×0.80;则该流水线产品总的合格率为:80.085.090.092.095.0100A80.085.090.092.00.95100A总产品总合格品即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。﹪24.885349.080.085.090
本文标题:沈阳理工大学徐静霞版统计学-第4章-数据的概括性度量
链接地址:https://www.777doc.com/doc-5820497 .html