您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 第四章 数据的概括性度量
国民经济统计指标(2005年)国民生产总值210871.0亿元总人口数131448万人固定资产投资总额88773.6亿元财政收入31649.29亿元货物进出口总额42183.6亿元职工工资总额19789.9亿元国民经济统计指标(2005)发展速度110.2(按上年100)城镇登记失业率4.2%居民消费价格指数101.8%固定资产投资增长比率26%国民经济统计指标(2005年)职工平均工资18364元城镇居民人均可支配收入10493元人均国民生产总值14040元一、总量指标概念说明经济现象总体在一定时间、地点和条件下所达到的规模、水平或总成果的统计指标,一般用绝对数表示.GDP、GNP、工业总产值、总产量、利润。总量指标的特点其数值随统计总体范围的大小呈同方向变化。总量指标同时也可以表示为现象总量间的绝对差数,如增加量。总量指标的作用从数量上认识社会经济现象的起点反映社会经济活动绝对效果的重要指标是计算相对指标,平均指标的基础。总量指标的分类时期指标反映一段时期内发展过程的总量指标企业销售额企业利润额时点指标反映某一时点上发展结果的总量指标学生人数存款额时期指标与时点指标的区别时期指标可以相加,表示更长一个时期的指标数值;时点却相加无意义,但时点指标可以相减,其结果为时期指标表示两点之间的绝对增加量或绝对减少量时期指标数值大小与时期长短成正比变化,而时点指标的大小与时点间隔无关总量指标的应用原则科学性:指标概念要有理论依据,定性要科学准确性:计算方法正确,计算结果准确统一性:计量单位统一。计算范围、统计口径、计算方法一致二、相对指标概念:是社会经济现象的两个有联系的指标数值的比率,反映现象之间的数量对比关系。又称相对数相对指标的作用说明事物发展速度、比例关系、强度、密度和结构将现象绝对数值抽象化了,便于比较相对指标的类型结构相对数比例相对数比较相对数动态相对数强度相对数结构相对指标在分组的基础上,各组数值与总体数值之比表明各组成部分数值在总体中占的比重结构相对指标=各组总量/总体总量×100%。结构相对指标的作用静态上分析总体内部结构,反映总体构成特点和性质动态分析结构变化特点。分析同一总体不同指标结构,研究现象内部联系。经济结构、投资结构、人员结构、产业结构经济结构指标(2005年)第一产业GDP占比重12.6%第二产业占比重47.5%第三产业占比重39.9%其他结构指标人口结构年龄、教育、民族、城乡投资结构产品结构能源结构比例相对指标是同一总体中某一部分数值与另一部分数值之比。反映同一总体各部分之间的数量联系程度和比例关系。比例相对指标=总体中某一部分数值/总体中另一部分数值相对指标与结构相对指标的区别结构相对指标侧重于分析部分占总体比重,以及部分对总体的影响程度;比例相对数反映部分间比例关系,考察各部分能否协调发展,这种比例关系关系到经济现象能否平稳合理发展。比例相对指标2005年男女比例为1.06:12005年一二三产业比例100:377.3:316.3比较相对指标是同一指标在同一时间上的不同空间的比较说明某类现象在同一时期内各单位发展的不平衡度比较相对指标=某一空间的指标数值/另一空间同类指标数值×100%分子与分母可互换,来自于两个总体的指标2005年经济统计指标比较国内生产总值排名第四人均国民总收入180个国家排名110位进出口贸易额排名第三动态相对指标是同类现象在不同时期的指标数值之比,反映经济现象在时间上的发展变化动态相对指标(发展速度)=报告期指标/基期指标×100%例题1999年北京市人均收入为564元,2000年人均收入为786元动态相对指标=786/564=1.2倍或=786/564×100%=120%分子、分母不可以互换来自于同一个总体不同时期的指标数值经济发展速度2005年110.2%强度相对指标有联系的两个指标对比人口密度商业网点密度人均国民生产总值14040元三、平均指标—集中趋势的度量平均指标平均成绩人均支出工人劳动生产率平均指标的作用静态比较:对不同总体进行比较。如两个企业的人均工资比较动态比较:同一总体不同时期平均数比较描述推断总体。用样本均值推断总体均值分类数据集中程度的度量—众数出现次数最多的变量值位置平均值更常用于品质数据、或离散型数据的分析反映现象中最普遍最常见的一般水平。众数的计算排序、计算其出现频数2015182020222013232926众数为20众数的特点不受变量值极端值的影响对于变量值变化的灵敏度降低了变量值有明显集中趋势时才能计算最适于品质标志的应用。当变量值次数相同时无法计算众数2020151919201925众数为20和19101113161525812无众数顺序数据的集中程度度量中位数分位数中位数变量值由小到大排列,居于中间位置(总体单位数一半处)的变量值变量个数为奇数:7名工人的日产量为:10、11、13、14、16、17、18;中位数位置为:(n+1)/2则中位数=14;中位数的计算变量的个数为偶数:8名工人的日产量为:10、11、13、14、16、16、17、18;中位数为n/2和n/2+1两项标志值的平均数中位数Me=(14+16)/2=15中位数的特点性质简单不受极值的影响是较稳健的集中趋势的测度指标只与中间值有关,缺乏敏感性,不适合代数运算适用于顺序数据的分析四分位数25%75%位置上的数据p90数值型数据—平均数简单平均数加权平均数简单平均数适于未分组的数据计算公式:nxX平均值的数学性质为最小2)xx(0)xx(加权平均值适于分组的数值型数据计算公式:fXfX例题某班学生学习成绩如下表:考试成绩x学生人数f(个)各组人数比重2分40.13分120.34分180.455分60.1565.3ffxfxfx影响平均数的两个因素变量值各组频数f或频率f/∑f例、某企业职工工资情况如下表:—————————————————————月工资(元)组中值x职工人数f工资总额xf100以下50703500100——20015020030000200——30025024060000300以上3509031500合计600125000—————————————————————————平均工资=∑x×f/∑f=208.3(元)例,某班组23个工人生产同种产品,质量情况如下:————————————————————————合格品率组中值工人数产品批量(%)xf70-8075520080-90851660090-100958400合计291200————————————————————————平均合格品率=合格品件数/产品总数=∑x×f/∑f=86.7%算术平均数的特点概念、计算方法易于理解和掌握对所提供信息运用充分对数据的变化反映最灵敏适于代数处理,具有良好的数学性质局限性:受极大值、极小值的影响,具有不稳健性众数中位数平均数三者关系1、平均数==中位数==众数,总体分布呈现对称性即完全正态分布。2、平均数中位数众数,峰偏向左边,尾部拖向右边平均数受极大值影响,总体分布呈右偏态(正偏)。3、平均数中位数众数,峰偏向右边,尾部拖向左边平均数受极大值影响,总体分布呈左偏态(负偏)。例:假定某市5百万居民(4岁以上)每天收看电视时间的平均值为50分钟,中位数为30分钟。粗略画出该市民收看电视时间的直方图,并进行简单分析几何平均数用于比率的计算数据间有内在联系数据的连乘积总比例率例:某建筑公司生产某种产品经过四道工序,每工序的合格品率为:93%、95%、92%、96%,计算平均合格品率总合格品率=93%×95%×92%×96%几何平均数G=计算条件:现象变量值得连乘积等于总比率或总速度nnxxx21例:银行有一笔20年的长期投资,利率按复利计算,有一年利率为2.5%,3年为3%,5年为6%,8年为9%,2年12%,1年5%,计算平均利率四、离散程度的度量离散度量指标的作用数据远离平均值的程度反映了数据的分散程度离散度量指标值越小反映数据的离散程度越小衡量平均数的代表性离散度量指标分类数据异众比率四分位差数值数据极差平均差方差和标准差离散系数两组学生成绩为:甲组98、96、92、70、64乙组90、82、76、87、85平均成绩均为84分分类数据离散程度的度量——异众比率非众数足所占比重异众比率越大,众数的代表性越小常用于分类数据的度量分类数据离散程度的度量-四分位差上下四分位数的差数值越大说明中位数的代表性越差常用于顺序数据的离散程度的度量数值型数据离散程度的度量—极差全距最大值—最小值计算简单全距越小,说明总体平均数的代表性越大只反映两个端点数据的变化无法准确度量离散程度数值型数据离散程度的度量—平均差离差绝对值的算术平均更准确说明总体离散程度••••••••••••••nxx分组数据平均差的计算ffxxMd平均差的特点数值越大,数据的离散程度越大计算方便在数学处理及实际应用上受到限制数值型数据离散程度的度量—方差和标准差变量值和平均数离差平方的平均数准确反映数据的离散程度最广泛的离散程度测量值标准差:是离差平方和的平均比平均差在数学处理上更合理是测定离散度最常用、最重要的指标未分组:s=分组的情况:s=1)(2nxx1)(2ffxx例:两个车间工人工资资料如下,计算两个车间工人平均工资和标准差按月工资分组(元)甲车间工人数按月工资分组(元)乙车间工人数40——50530——50550——601550——701060——702070——902470——80790——1101280——903110——13090合计60合计60数值型数据离散程度的度量—相对位置的度量标准分数经验法则切比雪夫不等式标准分数数据的标准化处理标准化后的数据平均值为0标准差为1可以找出离群数据标准分数计算公式sxxz经验法则3σ以外的数据为离群点可以发现离群点适用于对称数据的分析切比雪夫不等式可应用分布任何分布的数据分析数据的离散程度离散系数—变异系数离散指标与平均数对比,是反映离散程度的相对指标消除平均值对离散程度的影响用以比较两个平均水平或计量单位完全不同的总体离散程度的大小离散系数值越大,数据越分散离散系数—变异系数xsv••••••••••••••••••••••••••••例:仓库投保火险和水险火灾损失概率水灾损失概率0.4万元0.052.00.051.00.12.50.152.00.23.00.23.00.34.50.45.00.255.00.158.00.18.00.05592.005.247.3444.079.1)(025.42VVpxi火灾:水灾:例:计算保险稳定系数年份实际损失率(‰)13.523.733.844.054.164.474.5%12.9365.0)(42VNxNx偏态和峰态的度量集中趋势—偏态离散程度—峰态综合分析分布形态偏态及其度量——偏态系数计算公式为组中值M33nsf)xM(sk偏态系数的意义反映数据的集中程度数值越大,偏态程度越高偏态系数为0,分布为对称偏态系数大于0,分布为右偏偏态系数小于0,分布为左偏峰态及其度量—峰态系数正态分布—峰态系数为0峰态系数大于0,尖峰峰态系数小于0,扁平分布3nsf)xM(K44统计指标总量指标相对指标集中趋势指标离散程度指标时期指标时点指标计划完成程度比例相对指标动态相对指标比较相对指标结构相对指标强度相对指标众数算术平均数四分位数中位数几何平均数异众比率离散系数标准差平均差极差四分位差分布形状偏态系数峰度系
本文标题:第四章 数据的概括性度量
链接地址:https://www.777doc.com/doc-3683241 .html