您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 酒店餐饮 > 第4章 数据分布特征的测定
第4章数据分布特征的测度4.1集中趋势的测度4.2离散程度的测度4.3偏态与峰态的测度4.1集中趋势的测度一.众数二.中位数和分位数三.均值四.众数、中位数和均值的比较集中趋势(centraltendency)1.一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值众数(mode)1.集中趋势的测度值之一2.出现次数最多的变量值3.不受极端值的影响4.可能没有众数或有几个众数众数(不唯一性)无众数原始数据:10591268一个众数原始数据:659855多于一个众数原始数据:2528283642421、由单项数列求众数某车间工人日产情日产量(件)人数(人)11501260139014251515合计2402.由组距数列计算•首先确定次数最多的组,即众数组,然后,用公式计算。dLM2110dUM2120下限公式:上限公式:中位数(median)1.排序后处于中间位置上的值Me50%50%2.不受极端值的影响1、由未分组资料计算中位数件)(5.122)1312(Me设有六个工人的日产量(件)依次排列为10、11、12,13、14、15、则:中位数位次=(n+1)/2=6+1/2=3.5(1)由单项数列求中位数2、由分组资料计算中位数:例10:某生产车间120名工人生产某种零件的日产量如下表所示,计算该车间工人日产量的中位数。按日产量分组(件)工人数(人)累计次数(向上)20222426303233101225301815101022477795110120合计120—fmmfLMes122.由组距数列求中位数,下限公式:L为中位数所在组下限sm1为中位数所在组以前各组的累计次数(较小制)fm为中位数所在组的次数上限公式:fmmfUMes12U为中位数所在组上限为中位数所在组以后各组的累计次数(较大制)sm1从某单位抽查800户,取得人均收入资料如下表,计算该单位人均收入的中位数。人均收入(元)户数(户)较小累计(向上)较大累计400-500500-600600-700700-800800-900900-10001000以上54510043016842105501505807487908008007957506502205210合计800——中位数位次=∑f/2=800/2=400,中位数组在700-800这一组中。由下限公式元)(14.75810043015040070012dfmSmfLMe由上限公式(元)14.75810043022040080012dfmSmfUMe四分位数(quartile)1.排序后处于25%和75%位置上的值QLQMQU25%25%25%25%四分位数未分组数据:4)1(341nQnQUL位置位置均值(mean)1.集中趋势的最常用的测度值2.一组数据的均衡点所在3.易受极端值的影响简单算术平均数(simplemean)nxnxxxxniin121加权算术平均数(weightedmean)设一组数据为:x1,x2,…,xn相应的频数为:f1,f2,…,fkniikiiikkkffxffffxfxfxx11212211(例题分析)(件)67.10330311011kiikiiiffxxffxfxfx(权数对均值的影响)P34甲组:考试成绩(x):020100人数分布(f):118乙组:考试成绩(x):020100人数分布(f):811)(8210810012010分甲ffxx)(1210110012080分乙fxfx算术平均数(数学性质)1.各变量值与均值的离差之和等于零2.各变量值与均值的离差平方和最小niixx12min)(niixx10)(调和平均数(harmonicmean)1.均值的另一种表现形式原来只是计算时使用了不同的数据!fxfxMMH调和平均数某日三种蔬菜的批发成交数据蔬菜名称批发价格(元)X成交额(元)Xf成交量(公斤)f甲乙丙1.200.500.801800012500640015000250008000合计—3690048000【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格(元)批发价格成交额成交额769.04800036900mH几何平均数(geometricmean)1.n个变量值乘积的n次方根2.适用于对比率数据的平均3.主要用于计算平均增长率nniinnmxxxxG121【例】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。%84.103%4.105%5.103%0.102%5.104421nnmxxxG平均收益率=103.84%-1=3.84%众数、中位数和均值的比较众数、中位数和均值的关系左偏分布均值中位数众数对称分布均值=中位数=众数右偏分布众数中位数均值众数、中位数和均值的特点和应用1.众数不受极端值影响具有不唯一性数据分布偏斜程度较大时应用2.中位数不受极端值影响数据分布偏斜程度较大时应用3.平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用分布离散程度的测度一、极差二、内距三、方差和标准差四、离散系数极差(range)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7891078910R=max(xi)-min(xi)内距(Inter-QuartileRange,IQR)1.也称四分位差2.上四分位数与下四分位数之差内距=Q3–Q13.反映了中间50%数据的离散程度4.不受极端值的影响5.可用于衡量中位数的代表性方差和标准差方差和标准差(VarianceandStandarddeviation)1.离散程度最常用的测度值2.反映了各变量值与均值的平均差异总体方差和标准差(PopulationvarianceandStandarddeviation)未分组数据:组距分组数据:NxNii122)(NfMKiii122)(样本方差和标准差(simplevarianceandstandarddeviation)未分组数据:组距分组数据:1)(122nxxsnii1)(122nfxMskiii样本方差P34自由度(degreeoffreedom)1.一组数据中可以自由取值的数据的个数2.当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他离散系数离散系数(coefficientofvariation)1.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较vxsvs某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度结论:计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度v1=536.25309.19=0.577)(19.309)(25.53611万元万元sxv2=32.521523.09=0.710)(09.23)(5215.3222万元万元sx计算分析题1.某厂400名职工工资如下按月工资分组(元)职工人数(人)450-550550-650650-750750-850850-950601001406040合计400根据上述资料计算该厂职工平均工资和标准差。解:职工人数f组中值xxf60100140604050060070080090030000600009800048000360001944000640005600086400019360004002720005440000fxx2)((元)==-=标准差===平均工资62.1164005440000ffxx680400272000fxfx22.某县去年年粮食产量资料如下:按单位面积产量分组(千克/公顷)播种面积比重3000以下3000-37503750-60006000以上0.050.350.400.20根据上表资料计算该县粮食作物平均单位面积产量。解:x26253375487571250.050.350.40.2131.251181.251950.001425.001.004687.5ffffx5.468720.0712540.0487535.0337505.02625ffxx3.某地甲、乙两个农贸市场三种主要蔬菜价格及销售资料如下:品种价格(元/千克)甲销售额(万元)乙销售额(万元)ABC0.300.320.3675.040.045.037.580.045.0比较该地区哪个农贸市场蔬菜平均价格高?并说明原因。解:325.05005.163xmm32.0500160xmm====乙甲HH4.某工厂生产一批零件共10万件,为了解这批产品的质量,采取不重复抽样的方法抽取1000件进行检查,其结果如下,根据质量标准,使用寿命800小时及以上者为合格品。计算平均合格率、标准差及标准差系数。使用寿命(小时)零件数(件)700以下700-800800-900900-10001000-12001200-1400106023045019060合计1000%====(=)(===平均合格率43.2793.02551.0x2551.093.0193.0p1p93.0100060190450230pV5、甲、乙两单位工人的生产资料如下:日产量(件人甲单位工人数(人)乙单位总产量(件)112030260120合计180150(1)哪个单位工人的生产水平高?(2)哪个单位工人的生产水平整齐?6.甲、乙两班同时对《统计学》课程进行测试,甲班平均成绩为70分,标准差为9.0分;乙班的成绩分组资料如下:计算乙班学生的平均成绩,并比较甲、乙两班哪个班的平均成绩更有代表性?7.有甲、乙两个品种的粮食作物,经播种实验后得知甲品种的平均产量为998斤,标准差为162.7斤;乙品种实验的资料如下:试研究两个品种的平均亩产量,以确定哪一品种具有较大稳定性,更有推广价值?8、下属三个企业销售利润率资料如表企业销售利润率%销售利润额(万元)甲乙丙71012506080要求计算三个企业的平均利润率。
本文标题:第4章 数据分布特征的测定
链接地址:https://www.777doc.com/doc-3799796 .html