您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 第-4-章--数据的概括性度量
第4章数据的概括性度量名人名言胸中有“数”。就是说,对情况和问题一定要注意到它们的数量方面,要有基本的数量分析。任何质量都表现为一定的数量,没有数量也就没有质量。我们有许多同志至今不懂得注意事物的数量方面,不懂得注意基本的统计、主要的百分比,不懂得注意决定事物质量的数量界限,一切都是胸中无“数”,结果就不能不犯错误。——毛泽东第4章数据的概括性度量4.1总规模度量4.2比较度量4.3集中趋势的度量4.4离散程度的度量4.5偏态与峰态的度量学习目标•总量指标的种类•相对指标的种类及计算方法•集中趋势各测度值的计算方法•集中趋势各测度值的特点及应用场合•离散程度各测度值的计算方法•离散程度各测度值的特点及应用场合•偏态与峰态的测度方法•用Excel计算描述统计量并进行分析一、总量指标概述二、总量指标的种类一、总量指标概念总量指标:是反映社会经济现象在一定时间、地点条件下总规模或总水平的统计指标。也称为绝对指标或绝对数。如:2009年我国年末人口数为133474万人、国内生产总值(GDP)340507亿元、财政收入68518亿元、粮食产量53082万吨二、总量指标的种类1、按反映的内容不同,可分为:总体单位总量:一个总体中所包含的总体单位总数,表示总体本身的规模大小。总体标志总量:总体中各单位某一数量标志值的总和,表示总体某一数量特征的总量。例如:研究某市工业企业的发展情况,总体是?工业企业总数是?工业企业实现的销售额是?全部工业职工人数是?总量指标的种类2、按反映的时间状态不同,分为时期指标:说明总体在一段时间内累积的总量例如:销售收入、生产量、工资总额时点指标:说明总体在某一时刻的数量状态例如:职工人数、库存量、固定资产余额总量指标的种类时期指标和时点指标的区别:⑴时期指标的数值是连续计数的,时点指标的数值是间断计数的。⑵时期指标具有可加性,时点指标不能直接累加。⑶时期指标数值的大小与时间长短有直接关系,时间越长,数值越大;时点指标数值的大小与时间长短没有直接关系。总量指标的种类3、按采用的计量单位不同,分为(1)实物指标:以实物单位计量的总量指标。自然单位:按照自然状态计量的单位。如:辆、双度量衡单位:根据国内或国际上通行的度量衡制度进行计量的单位。例如:千克、米、公里标准实物单位:按照统一的折算标准来度量的一种计量单位。如:标准煤、标准化肥复合单位:将两种计量单位结合在一起进行计量的单位。如:吨公里、千瓦时双重或多重单位:同时采用两种或两种以上计量单位进行计量的单位。如:台/千瓦、艘/马力/吨位总量指标的种类(2)价值指标:以货币为单位来计量的总量指标。如:国内生产总值、销售收入、产品成本等。(3)劳动指标:以劳动单位为计量单位的总量指标。如:“工时”、“工日”等4.2比较度量一、相对指标概述二、相对指标的种类及计算方法一、相对指标概述“对比乃统计方法之母”(一)概念相对指标:又称相对数,是两个有联系的指标的比值,用以说明两个相互联系的社会经济现象之间的数量对比关系和联系程度。如:2009年国内生产总值同比增长8.43%,人口自然增长率为5.05‰,城镇居民人均可支配收入17175元,城镇居民家庭恩格尔系数为36.5%等一、相对指标概述(二)相对指标的表现形式:1、有名数(复合单位)如:人/平方公里、元/人、元/件2、无名数系数和倍数、成数、百分数、千分数、翻番数二、相对指标种类及计算方法(一)计划完成相对数也称计划完成百分比,用来检查、监督计划的执行情况,通常用百分数表示。基本计算公式为:二、相对指标种类及计算方法1、计划数是绝对数(长期计划)水平法:适用于反映生产能力的经济指标计划完成情况检查。如钢产量、煤产量、发电量等二、相对指标种类及计算方法(一)计划完成相对数(一)计划完成相对数例:某企业计划要求劳动生产率达到5000元/人,某种产品的计划单位成本为100元,该企业实际劳动生产率达到6000元/人,实际单位成本为80元,则计划完成程度指标为劳动生产率完成相对数=6000/5000×100%=120%单位成本计划完成相对数=80/100×100%=80%(二)结构相对数结构相对数:也称比重相对数,反映总体构成情况。一般用百分数或系数(成数)表示。结构相对数我国国内生产总值构成情况表(%)恩格尔系数中国城乡居民恩格尔系数(%):2000年:城镇39.4;农村49.1;2001年:城镇38.2;农村47.7;2002年:城镇37.7;农村46.2;2003年:城镇37.1;农村45.6;2004年:城镇37.7;农村47.2;2005年:城镇36.7;农村45.5;2006年:城镇35.8;农村43.0;2007年:城镇36.3;农村43.1;2008年:城镇37.9;农村43.7;2009年:城镇36.5;农村41.0。(三)比例相对数比例相对数:表明总体内各组成部分之间的对比关系。常用系数或倍数表示。公式为:(四)比较相对数比较相对数:反映同一时期的同类现象在不同地区、部门和单位之间数量对比关系的相对指标。用倍数、百分数表示。(五)强度相对数强度相对数:两个性质不同但又互相联系的总量指标对比的比值,反映现象的强度、密度或普遍程度。一般用复名数或百分数、千分数表示。(五)强度相对数例1:2009年我国总人口133474万人,则人口密度:139人/平方公里或0.0072平方公里/人例2:某地区2009年总人口为1200万人,有60000个零售商业机构,则该地区零售网点密度指标为:正指标:该地区零售网点密度=1200/60000=200(人/个)逆指标:该地区零售网点密度=60000/1200=50(个/万人)(六)动态相对数动态相对数又称发展速度,是同一现象在不同时间上的指标数值的比值,说明某一总体发展变化的方向和程度。一般用百分数表示,或倍数,翻番。三、运用相对指标应遵循的原则⑴可比性原则。遵从可比性是进行对比应把握的总原则。⑵正确选择对比基数的原则。同一现象、问题采用不同的对比基数会有不同的结果。⑶多种相对指标结合运用的原则。多角度、多侧面运用多种相对数和相关指标比较。⑷相对指标与总量指标结合运用的原则。相对数相同,基数不同,绝对差很悬殊4.3集中趋势的度量一、位置平均数二、数值平均数三、各种平均数之间的关系统计应用一组测量的平均数比单个的测量更可靠即使用一种很准确、很可靠的仪器对同一物体进行重复测量,由于一些无法控制的因素的影响,每次得到的结果也不见得一样(美国)国家标准与技术协会(NIST—NationalInstituteofStandardsandTechnology)的原子钟非常准确,它的准确程度是每600万年误差1秒,但也并不是百分之百准确世界标准时间是世界协调时间(UniversalCoordinatedTime),它是由位于法国的塞夫尔的国际计量局(BIPM)所“编辑”的。BIPM并没有比NIST更好的钟,它给出的时间是根据世界各地200个原子钟的平均时间得来的统计应用一组测量的平均数比单个的测量更可靠下面是NIST的时间与正确时间的10个误差数据(秒)长期来讲,对时间的度量并没有偏差。NIST的秒有时比BIPM的短,有时比BIPM的长,并不是都较短或较长。尽管NIST的测量很准确,但从上面的数字还是可以看出有些差异。世界上没有百分之百可靠的度量,但用多次测量的平均数比只用一次测量的结果可靠程度会更高。这就是BIPM要结合很多原子钟的时间的原因集中趋势(centraltendency)一、位置平均数众数、中位数、四分位数(一)众数(mode)•一组数据中出现次数最多的变量值•不受极端值的影响•适合于数据量较多时使用•可能没有众数或有几个众数众数(不唯一性)无众数原始数据:10591268分类数据的众数(例题分析)数值型数据的众数(例题分析)【例4-2】在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元)。要求计算人均月收入的众数。原始数据:108075010801080850960200012501630Mo=1080数值型分组数据的众数(要点及计算公式)数值型分组数据的众数(算例)(二)中位数(median)•一组数据排序后,处于中间位置上的变量值中位数(位置的确定)未分组数据的中位数(计算公式)未分组数据的中位数(9个数据的算例)【例4-4】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789未分组数据的中位数(10个数据的算例)【例4-5】10个家庭的人均月收入数据原始数据:15007507806601080850960200012501630排序:66075078085096010801250150016302000位置:12345678910分组数据的中位数(要点及计算公式)•根据位置公式(N/2)确定中位数所在的组•采用下列近似公式计算(向上累积):数值型分组数据的中位数(算例)(三)四分位数(quartile)1.排序后处于25%和75%位置上的值四分位数(位置的确定)未分组数据的四分位数(9个数据的算例)【例4-7】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789未分组数据的四分位数(10个数据的算例)【例4-8】10个家庭的人均月收入数据原始数据15007507806601080850960200012501630排序66075078085096010801250150016302000位置:12345678910分组数据的四分位数(计算公式)QL位置=120/4=30二、数值平均数(一)算术平均数(ArithmeticMean)•也称为均值(mean)•消除了观测值的随机波动•一组数据的均衡点所在4.易受极端值的影响5.分为:简单算术平均数、加权算术平均数(一)算术平均数(ArithmeticMean)简单算术平均数(例题)【例4-10】一家汽车零售店的15名销售人员6月份销售的汽车数量(单位:台)为:7、10、10、4、12、14、2、15、10、9、12、5、11、2、3,试计算它们的平均销售量。2、加权算术平均数(weightedmean)已改至此!!加权算术平均数(权数对均值的影响)甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(x):6080100人数分布(f):118乙组:考试成绩(x):6080100人数分布(f):811影响加权算术平均数的因素一是各组变量值(xi)的大小;二是各组频数(fi)占总体单位数的比重。公式变形:以频率为权数计算均值(算例)【例4-12】某企业60名工人月工资分组情况如下表,试计算月平均工资某企业60名工人月工资分组表3、算术平均数的数学性质性质1.各变量值与均值的离差之和等于零均值(数学性质)性质2.各变量值与均值的离差平方和最小数学性质证明证明:设X0为不等于均值的任意数,C为常数,(二)调和平均数(harmonicmean)1.易受极端值的影响2.分为:简单调和平均数、加权调和平均数1、简单调和平均数【例4-14】某种蔬菜的价格,甲集市4.5元/千克,乙集市4元/千克,丙集市5.5元/千克。若在三个集市各买1元,求蔬菜的平均价格。简单调和平均数简单调和平均数又称倒数平均数。计算公式为:2、加权调和平均数在上例中,如果在甲集市花费8元,乙集市花费10元,丙集市花费5元,购买这些蔬菜的平均价格是多少?加权调和平均数调和平均数(例题分析)(三)几何平均数(geometricmean)1.n个变量值乘积的n次方根2.适用于比率数据的平均3.计算公式为(三)几何平均数(概念要点)6、加权几何平均数计算公式为简单几何平均数(算例)【例4-16】某企业生产某种产品须经过毛坯、粗加工、精加工、装配四
本文标题:第-4-章--数据的概括性度量
链接地址:https://www.777doc.com/doc-5755624 .html