您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第四章 数据分布特征的描述
第一节数据分布集中趋势的测定一、均值/平均数/数值平均数(mean)(一)概念是反映数据分布集中趋势十分重要的数据,代表总体单位某一标志值的一般水平(二)特征1.具有抽象性2.具有代表性3.反映总体分布的集中趋势**举例1.某市中学生每周平均上网时间为2.8小时2.某农贸市场2月份牛肉的平均价格为16元/千克3.某地区“十五”期间经济平均增长率为9.6%(三)均值的种类及计算1.算术平均数**(1)概念算术平均数又称平均值,是用一组数据中所有值之和除以该组数据的个数(2)基本公式总体单位总量总体标志总量算术平均数算术平均数的计算**简单算术平均数:针对未分组资料总体平均数样本平均数112niinXXXXXnn112NiiNXXXXNN算术平均数的计算**加权算术平均数概念:是对每个数据都根据其在全组中的重要程度赋予一定权重后得到的算术平均数计算公式:未分组数据其中:w表示各组的标志总量,而不是各组变量值出现的次数,总体和样本加权算术平均数的公式是相同XwwXXw或[例4-2]根据某公司四个品牌数码相机的销售资料计算平均利润率品牌利润率(X%)销售额,()w万元利润额()wX万元A5.230015.60B6.520013.00C8.4504.20D11.1404.44合计--1590niiw1niiiwX37.24表4-1四个品牌数码相机的利润率和销售额资料所以,四个品牌数码相机的平均销售利润率为因为:销售总额利润总额商品销售利润率1137246.3%590iniiwniiwXXw**加权算术平均数⑵分组的加权平均数:根据分组数据计算均值样本均值的计算公式:总体均值的计算公式:表示各组的变量值(或组距式数列的组中值)表示各组变量值出现的频数(即权数)1122112......kiikkikMfMfMfMffffNiMif1122112......kiikkikMfMfMfMfXfffn[例4-3]根据某电脑公司在各市场上销售量的分组数据,计算电脑销售量的均值。按销售量分组(台)市场个数(fi)组中值(Mi)Mifi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24049162720171084514515516517518519520521522523558013952640472537003315205017209001175合计∑fi=120—∑Mifi=22200122200185()120kiiiMfXn台2.调和平均数1.问题的由来思考题:三种蔬菜单价分别为2、3和4元/千克,(1)各买一千克平均单价是多少?(2)各买一元的平均单价是多少?2.概念:调和平均数又称倒数平均数,是各个变量值倒数的算术平均数的倒数3.计算(1)简单调和平均数:针对未分组资料计算公式为:算术平均调和平均11hniinXX2.调和平均数2.加权调和平均数:针对分组资料计算公式为:其中:是一种特殊权数,它不是各组变量值出现的次数,表示各组标志总量即iiifxw111111nnniiiiiiihnnniiiiiiiiwXffXwffXXiwiiixwf[例4-4]根据某商场职工月工资资料计算月平均工资按月工资分组(元)ix各组工资总额(元)iw(=ix·if)各组工人数(人)iixw=if800900100011001200640090001800011000480081018104合计iw39200iixw∑if=50)(9845039200元月平均工资iiixww课堂练习月工资(元)甲企业每组工资总额(元)乙企业每组职工人数(人)800元以下800-10001000-12001200-15001500以上700013500220002430011550121830164合计[资料]甲乙企业职工的工资如下表:[要求]分别计算甲乙企业职工月工资额的均值算术平均数和调和平均数的关系****联系——实质相同调和平均数是算术平均数的变形,两者的基本公式均为:**区别——适用的情况不同当已知平均指标的分母资料、未知分子资料时,采用加权算术平均法当已知平均指标的分子资料、未知分母资料时,采用加权调和平均法总体单位总量总体标志总量平均数3.几何平均数(1)概念:几何平均数(geometricmean)又称对称平均数,它是各变量值乘积的n次方根。(2)计算基本公式:对数公式:在实际工作中,由于变量个数较多,通常要应用对数来进行计算。即121nnnGniiXXXXX12111lglglglglglgnGniiGGXXXXXnnXarcX(3)几何平均数的应用及特点**应用条件a.变量值是相对数据,如比率或发展速度b.变量值的连乘积等于总比率或总发展速度**特点a.如果数列中有一个标志值等于零或负值,则无法计算b.受极端值影响较小,故较稳健[例4-5]某电器销售公司2000~2005年销售量的环比增长率分别为:7.6%、2.5%、0.6%、2.7%和2.2%。求这期间销售量的平均增长速度?年份环比发展速度(X)环比发展速度的对数lgX200020012002200320042005—107.6102.5100.6102.7102.2-2.03192.01072.00252.01152.0094合计-10.0660表4-4销售量平均发展速度计算表几何平均数的计算示例几何平均数的计算示例1.采用基本公式计算的销售量平均发展速度为:2.采用对数公式计算的销售量平均发展速度为:所以,销售量的平均增长速度=103.1%-1=3.1%if155107.6%102.5%100.6%102.7%102.2%1.16454103.1%nnGiiXXlg10.0660lg2.01335lg2.0133103.1%GGGXXnXarcXarc二、位置平均数(一)中位数(median)1.概念中位数是将一组数据项按照数值大小升序或者降序排列后位于中间位置的那个数据,符号为2.中位数的计算方法(1)未分组数据的中位数将变量值按升序或降序排列,找中间位置的变量值(2)单项数列的中位数计算各组的累计频数(向上累计或向下累计);根据中位数位置确定中位数eM12niif中位数的位置=if[例4-6]计算某公司销售人员月销售冰箱中位数按月销售冰箱分组(台)销售人员数(人)向上累计频数向下累计频数25303234363931014271883132754728080776753268合计80--1804022niif34()eM台中位数的位置即中位数在累计频数为40的那一组内(向上累计或向下累计均可得出),则2.中位数的计算方法(3)组距数列的中位数:由下列公式近似计算下限公式2ieiinFMLhfniLiFifh其中:为总体单位总数为中位数组的下限为中位数组以下的累计频数为中位数组的频数为中位数组的组距[例4-7]求以下组距数列的中位数按家庭收入分组(元)家庭数(户)向上累计频率5000以下5000~1000010000~1500015000~2000020000以上214514662166808692合计92-中位数的近似值为:92212500050007777.8()45eM元某地区家庭收入分组表中位数的位置在第46(92/2)位,应在第二组中位数的特点⑴是一种位置平均数,不受极端值及开口组的影响⑵对于分配不对称的数据,中位数比平均值更适合当集中趋势的代表值⑶对某些不具有数字特征或不能用数字测定的现象,可用中位数表示其一般水平例如,对众多的消费者购买数码相机时,分别对价格、外观、品质的注重程度排序后,可以求出消费者在乎的中位数因素二、位置平均数(二)众数(mode)1.概念众数(mode)是指在一组数中出现次数最多的那个数值,符号为2.数据数列的众数分布情况无众数如数据数列:13791268一个众数如数据数列:659866多个众数如数据数列:223527352736ifoM3.众数的计算方法**品质变量的众数——观察次数,出现次数最多的变量值就是众数例如:企业的所有制结构分布、人口的城乡分布**数值变量的众数未分组资料——观察次数,出现次数最多的数据就是众数分组资料(1)单项式数列——直接观察,次数最多的组的变量值即为众数if[例4-8]单项式变量数列确定众数实例某市居民家庭按家庭人口数分组家庭人口数(人)家庭数(千户)比重(%)19.85.76227.516.18394.655.65419.211.29510.96.4168.04.71合计170.0100.00由上表可以看出,家庭人口数为3人的家庭数最多,因此本例中家庭人口数的众数为3人3.众数的计算方法组距数列计算众数:由下列公式近似计算下限公式112oidMLhddiLh其中:为众数组与前一组频数之差为众数组的下限为众数组与后一组频数之差为众数组的组距1d2d·[例4-10]组距式数列计算众数示例收入组别人均收入(元)频数(人)1234562000元以下2000~4000元4000~6000元6000~8000元8000~10000元10000以上234368322410合计-200其众数的近似值为:6843400020004819.67()68436832oM元某地区的人均月收入调查数据表三、均值、中位数和众数的比较(一)均值、中位数和众数的数量关系1.当数据呈对称分布的,三者合而为一,如图(a)2.当数据呈左偏分布时,说明数据存在极小值,必然拉动均值向极小值一方靠,则从左至右依次是均值、中位数和众数,如图(b)3.当数据呈右偏分布时,说明数据存在极大值,必然拉动均值向极大值一方靠,则从左至右依次是众数、中位数和均值,如图(c)均值、中位数和众数的数量关系1.当数据呈对称分布的,三者合而为一oaXMMe==对称分布均值、中位数和众数的数量关系2.当数据呈左偏分布时,从左至右依次是均值、中位数和众数eoXMM均值、中位数和众数的数量关系3.当数据呈右偏分布时,从左至右依次是众数、中位数和均值,如图coeMMX三、均值、中位数和众数的比较(二)均值、众数和中位数的特点及应用场合**均值是对数值型数据计算的,利用了全部数据信息,具有优良的数学性质,是实际中应用最广泛的集中趋势测度值**中位数是一组数据中间位置上的代表值,其特点是不受数据极端值的影响,主要适合于作为顺序数据的集中趋势测度值**众数是一组数据分布的峰值,它也是一种位置代表值,不受极端值的影响,主要适合于作为分类数据的集中趋势测度值第三节数据分布离散程度的测定一、极差/全距(一)概念:又称全距,是数据中最大值和最小值之差。记为(二)计算1.未分组数据的极差为:表示数据的最大值表示数据的最小值2.分组数据的极差极差=最大组的上限-最小组的下限若存在开口组,则:最大组的上限=前一组的上限+组距最小组的下限=下一组的下限-组距RHLRHL其中:[例4-11]对人均月收入分组如下:2000元以下、2000~4000元、……、8000~10000元、10000元以上,计算全距[分析]:其最小组的下限为0最大组的上限为:则全距为:1000020001200012000012000R极差/全距的计算示例(三)修正极差(modifiedrange)1.概念:是去掉极端值后的极差,又称四分位全距(IQR,interquartilerange),是中间50%的数据的间距,即数据分布中第25个和第75个百分位数的间距,也即第1个和第3个四分位数的间距2.公式:其中:Q3表示第3个四分位数,即第75个百分位数Q1表示第1个四分位数,即第25百分位数31IQRQQ
本文标题:第四章 数据分布特征的描述
链接地址:https://www.777doc.com/doc-3683233 .html