您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第四章 数据的描述性分析(袁军)
yuanlibo@sues.edu.cn4-1本章内容概述1本章内容是关于:单变量截面数据的特征描述2为了对统计分组和简单整理后的数据的进一步认识,借助于下面的四类指标进行深入讨论:集中趋势、离散程度、偏态与峰度3统计指标的作用yuanlibo@sues.edu.cn4-21集中趋势的描述集中趋势(centraltendency)反映的是一组数据向某一中心值靠拢的倾向。数据的集中趋势通常用平均指标来反映。集中趋势指标(平均指标)按计算方法不同分为:㈠算术平均数㈡调和平均数㈢几何平均数㈣中位数㈤众数数值平均数位置平均数yuanlibo@sues.edu.cn4-3VAR00001174.0173.0172.0171.0170.0169.0168.0167.0166.0165.0164.0163.0162.0161.0160.0159.0158.0157.0156.0155.0154.0153.0152.014121086420Std.Dev=4.86Mean=163.3N=83.0083名女生的身高分布的集中趋势、中心数值算术平均数yuanlibo@sues.edu.cn4-4可以反映现象总体的客观规律性;可以对比同类现象在不同的时间、地点和条件下的一般水平;可以分析现象之间的依存关系。测定集中趋势的意义:yuanlibo@sues.edu.cn4-51-1算术平均数(arithmeticmean)1概念:算术平均数是分析社会经济现象一般水平和典型特征的最基本指标,是统计中计算平均数最常用的方法。2基本公式:注意:公式中分子和分母在经济内容上的从属关系:公式中分子和分母在范围上是一致的,否则不是平均数例:劳动生产率=粮食产量/种粮农民人数;全国平均每人拥有的粮食产量=粮食产量/全国人口数。总体包含个体总数总体标志总量算术平均数yuanlibo@sues.edu.cn4-6简单算术平均数与加权算术平均数简单算术平均数(simplearithmeticmean)特点:适于未分组数列;每个变量值出现的次数都是1。加权算术平均数(weightedarithmeticmean)特点:适于分组数列;平均数的值受权数的影响。计算公式:其中:原始数据分为组,第组变量值为对应的次数为niiniiiffxx11nixiif注意:对变量值的说明单项变量数列直接对变量值进行加权平均计算;组距变量数列先求出该组变量值的组中值,作为进行计算。ixixyuanlibo@sues.edu.cn4-7权数(weight)1概念我们把变量数列中的次数看作变量值的权数。原因在于:影响平均数大小的两个因素:变量值大小和权数。2形式权数有两种形式:绝对数形式(频数)、相对数形式(频率)同一总体资料,用权数的两种形式计算的平均数完全相同。5xX456合计频数频率(%)10201025.050.025.040100.0X456合计频数频率(%)20402025.050.025.080100.0X456合计频数频率(%)20101050.025.025.040100.075.4x5xyuanlibo@sues.edu.cn4-8miimiiiffXX11成绩(分)人数(人)甲班乙班丙班603915010013950平均成绩(分)619980起到权衡轻重的作用权数对算术平均数的影响决定平均数的变动范围yuanlibo@sues.edu.cn4-9组距数列加权算术平均数计算举例某企业工人日产量的算术平均数计算表(单位:千克)按日产量分组工人数fi组中值xixifi60以下1060~701970~805080~903690~10027100~11014110以上8合计164工人平均日产量=13550/164=82.62(千克)yuanlibo@sues.edu.cn4-10算术平均数的数学性质1算术平均数与总体单位数的乘积等于总体各单位标志值的总和。2各变量值与算术平均数的离差之和等于零。3各变量值与算术平均数的离差平方之和最小。优点:1容易理解,便于计算2灵敏度高缺点:1容易受极端变量值的影响2在开口组中,代表性变差niiiniifxfx11niixnx101niixxminxxnii最小值12yuanlibo@sues.edu.cn4-111-2调和平均数(harmonicmean)概念:由于在社会经济统计中缺乏资料,计算平均数时就需要采用间接的方式,于是产生了调和平均数。时间单价(元/斤)x所花钱数(元)m购买量(斤)m/x早市中市晚市0.50.40.2111合计—3购买3次该蔬菜的平均价格是多少?总重量总金额平均价格已知分子资料未知分母资料yuanlibo@sues.edu.cn4-12调和平均数与算术平均数的关系Hxxmmxfxxffxfx1调和平均数在实际应用中一般是作为算术平均数的变形使用,区别在于两者所掌握的原始资料不同。对于相同的总体,两者计算得到的结果完全相同。9.253—合计22.2551110.50.40.2早市中市晚市购买量(斤)m/x所花钱数(元)m单价(元/斤)x时间已知资料→调和平均数已知资料→算术平均数yuanlibo@sues.edu.cn4-13调和平均数的特点优点:1灵敏度高2在某些情况下,代替简单平均数进行计算缺点:1不容易理解2容易受极值影响3有标志值为0时,不能计算总重量总金额平均价格已知分子资料未知分母资料Hx总重量总金额平均价格未知分子资料已知分母资料xyuanlibo@sues.edu.cn4-141-3几何平均数(geometricmean)1概念:若干项变量值连乘积开其项数次方的算术根。当各项变量值的连乘积等于总比率或总速度时,适宜使用他计算平均比率或平均速度。2计算:简单几何平均数:加权几何平均数:3优点:受极端变量值影响小;适宜计算平均比率和平均速度。缺点:有变量值为0或负值不能计算;应用范围较窄。nniinnxxxxxG121......ffniiffffnffGinnxxxxx1......212121......yuanlibo@sues.edu.cn4-151-4中位数与分位数1概念总体单位标志值按大小顺序排列,处于中间位置的那个标志值就是中位数(median)Me。意义:总体标志值中一半比中位数小,一半比它大。人口普查中应用年龄中位数;产品质量控制中取中位数2计算:先对数据进行排序;①未分组数据确定中位数:②单项数列确定中位数:先求;计算各组的累积次数(向上或向下累计);根据中位数的位置找到中位数。21nMe位置2fyuanlibo@sues.edu.cn4-16年龄/岁学生人数向上累计分布次数1751881926209212合计50yuanlibo@sues.edu.cn4-17分位数中位数的特点:优点:容易理解;不受极端值影响;某些不具有数学特点或不能用数字测定的现象可以用中位数求其一般水平。缺点:灵敏度差,不宜计算分位数概念:四分位数(Quartiles):把一个变量数列分为四等分,形成三个分割点Q1、Q2、Q3,这三个分割点的数值就是四分位数。Q2=Me计算:略十分位数(dectile)百分位数(percentile)yuanlibo@sues.edu.cn4-181-5众数1概念:众数(mode)是总体中出现次数最多的标志值。它能直观的说明客观现象分配中的集中趋势。2应用举例:有时常用众数代替算术平均数来说明社会经济现象的一般水平例:市场上某种商品一天的价格变动,成交量最多的那个价格大批服装(鞋)规格不同,市场需求最多的那个规格3计算:①单项数列:直接观察法—出现次数最多的②组距数列:(仅考虑等距数列)先观察众数所在组;然后按照公式近似推算。yuanlibo@sues.edu.cn4-191-6各种平均指标之间的关系1.三类数值平均数之间:算术平均数、几何平均数、调和平均数xxxGH2.数据的分布与众数、中位数、算术平均数yuanlibo@sues.edu.cn4-201-7对各平均指标需要说明的问题1.数据的非对称状态越强,之间的差别就越大。KarlPearson:当分布为适当偏态时,三者关系:x0MeMeMxMx302.正确应用平均指标的原则(1)平均指标只能用于同质总体;(2)需要用组平均数补充总平均数;例子(3)需要用分配数列补充说明平均数;例子yuanlibo@sues.edu.cn4-21组平均数补充总平均数沛县铜山县播种面积总产量平均亩产量(公斤/亩)播种面积总产量平均亩产量(公斤/亩)旱田1907220038020064000320水田7044800640300186000620合计260117000450500250000500总平均数某地区两个县的农业生产情况表yuanlibo@sues.edu.cn4-22分配数列补充说明平均数按完成计划比例分组企业数按完成计划比例分组企业数85-89.92100-104.94090-94.98105-109.93095-99.910110-114.910合计均值103.35%100某集团下属企业计划完成情况表yuanlibo@sues.edu.cn4-233.五值概括法与盒须图XminQ1MeQ3Xmax利用上面的5个数可以确定数据的分布形状;五值概括法的图形表现就是盒须图。yuanlibo@sues.edu.cn4-24盒须图的例子甲班13个同学的体育测试成绩:39322034403331292530313222乙班12个同学的体育测试成绩:333036453428253229343531yuanlibo@sues.edu.cn4-25data2data1aba(c)data1data3yuanlibo@sues.edu.cn4-26两供货商的供货计划完成情况0123月份0123月份供货计划完成百分比%供货商甲供货商乙yuanlibo@sues.edu.cn4-27概念:离散程度指标又称标志变异指标,离中趋势指标等,它反映变量分布离散趋势;常与平均指标匹配使用。(1)评价平均数的代表性;(2)是对事物发展均衡性的量度:供货计划完成的均衡性,协调性;产品质量的稳定性作用:2离散程度的描述种类离散程度的绝对指标离散程度的相对指标yuanlibo@sues.edu.cn4-282-1极差、四分位差、平均差概念:1.极差(Range)也叫全距,是一组数据的最大值与最小值之离差,即:2.四分位差(Interquartilerange)是指第三四分位数与第一四分位数之差,也称为内距或四分间距,用Qr表示。3.平均差(Meandeviation)也称平均离差,是各变量值与其平均数离差绝对值的平均数,通常用AD、MD表示。注意:1极差和四分位差的特点2平均差由于采用绝对值的离差形式加以数学假定,在应用上有较大的局限性。)min()max(iixxRyuanlibo@sues.edu.cn4-292-2标准差与方差概念:标准差是个单位标志值与其算术平均数的离差平方的算术平均数的平方根。计算:未分组资料:分组资料:标准差于平均差之间的关系:σ≥ADnXXi22ffXX22yuanlibo@sues.edu.cn4-30例题1:计算5、7、11、8、9的标准差。例题2按零件数分组/个职工人数40~502050~604060~708070~805080~9010合计200yuanlibo@sues.edu.cn4-312-3离散程度的相对指标:离散系数例:从学校大一学生中抽取100人,测得他们的身高和体重的平均值分别为168cm,52kg;相应的标准差为9cm,5kg。问身高和体重的差异哪一个大?%100xV离散系数:把算术平均数与离散程度绝对指标联系起来的一个相对测度。身高的离散系数=9/168*100%=5.36%体重的离散系数=5/52*100%=
本文标题:第四章 数据的描述性分析(袁军)
链接地址:https://www.777doc.com/doc-3683240 .html