您好,欢迎访问三七文档
2020/1/181第三章数据分布特征的描述3.1集中趋势的度量3.2离散程度的度量3.3偏态与峰态的度量2020/1/1823.1.1什么是集中趋势(centraltendency)1.一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值4.注意:低层次数据的测度方法也适用于高层次的数据,但高层次数据的测度方法往往不适用于低层次的数据。2020/1/1833.1.2分类数据---众数1.一组数据中出现次数最多的变量值2.适合于数据量较多时使用3.不受极端值的影响4.一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和数值型数据2020/1/184众数(不惟一性)无众数原始数据:10591268一个众数原始数据:659855多于一个众数原始数据:2528283642425有时众数是一个合适的代表值比如在服装行业中,生产商、批发商和零售商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。2020/1/1861、分类数据的众数(例题分析)不同品牌饮料的频数分布饮料品牌频数比例百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即Mo=可口可乐2020/1/1872、顺序数据的众数(例题分析)解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo=不满意甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510合计300100.02020/1/1883、数值型数据的众数1)单变量值分组数据某年级83名女生身高资料身高人数(CM)(人)152115421552156415711582159216012161716281634身高人数(CM)(人)1643165816651673168716911705171217231741总计83STAT2020/1/1892)组距分组数据众数的计算公式2020/1/1810GEFDCABfXf3f2f1dLUM0Δ1Δ2得到证明。同理,上限公式也可以dLMdffffffLMffCDffABABCDdABLM2110123212032120)()(众数的计算公式可以从几何图形得到证明:00AEBDECEFEGABCDLMdLMABCD图中:,即2020/1/1811身高人数比重(CM)(人)(%)150-15533.61155-1601113.25160-1653440.96165-1702428.92170以上1113.25总计83100某年级83名女生身高资料组距分组数据的众数112oMLd48.1635102323160oMSTAT2020/1/18123.1.3顺序数据---中位数和分位数1、顺序数据----中位数1)排序后处于中间位置上的值Me50%50%2)不受极端值的影响3)主要用于顺序数据,也可用数值型数据,但不能用于分类数据4)各变量值与中位数的离差绝对值之和最小,即min1eniiMx2020/1/1813中位数(位置的确定)未分组数据:分组数据:21n中位数位置22fn中位数位置2020/1/1814①顺序数据的中位数(例题分析)解:中位数的位置为300/2=150从累计频数看,中位数在“一般”这一组别中中位数为Me=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—2020/1/1815②未分组数值型数据的中位数(奇数个数据的算例)【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位数1080521921n位置21neXM2020/1/1816未分组数值型数据的中位数(偶数个数据的算例)【例】:10个家庭的人均月收入数据排序:66075078085096010801250150016302000位置:123456789105.5211021n位置102021080960中位数2122nneXXM2020/1/1817dfSfLMmme12③组距分组数据中位数的计算公式em-1m式中:M中位数L中位数组的下限f中位数的位置值2S向上累计到中位数组的前一组为止的累计频数f中位数组的频数d中位数组的组距2020/1/1818(组距分组)共个单位2f共个单位2f共个单位1mS共个单位1mSL中位数组组距为d共个单位mf假定该组内的单位呈均匀分布中位数下限公式为12memfSMLdf该段长度应为12mmfSdfU12mfS共有单位数2020/1/1819身高人数累计(CM)(人)人数150-15533155-1601114160-1653448165-1702472170以上1183总计83某年级83名女生身高资料dfSfLMmme1204.16453414283160eMSTAT组距分组数据的中位数20如果统计资料中含有异常的或极端的数据,就有可能得到非典型的甚至可能产生误导的平均数,这时使用中位数来度量集中趋势比较合适。比如有5笔付款:9元,10元,10元,11元,60元平均付款为100/5=20元。很明显,这并不是一个好的代表值,而中位数10元是一个更好的代表值。2020/1/18212、顺序数据----分位数(1)四分位数1)分位数有二分位数(中位数)、四分位数、十分位数和百分位数等。其中主要有四分位数。2)排序后处于25%和75%位置上的值即四分位数3)不受极端值的影响4)主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QLQMQU25%25%25%25%2020/1/1822A)原始数据四分位数的位置下四分位数上四分位数LQ41nQL位置UQ413nQU位置2020/1/1823【例】某学习小组的统计学考试成绩如下:要求:(1)计算前15个学生统计学考试成绩的四分位数;(2)如果增加一个学生的成绩95分,试计算16个学生统计学考试成绩的四分位数。2020/1/18242020/1/1825B)根据组距数列计算四分位数2020/1/1826根据组距数列计算四分位数2020/1/1827十分位数是指将按大小顺序排列的一组数据划分为10等分的9个变量值,用以反映一组数据在各个区间的一般水平。(2)十分位数2020/1/1828(3)百分位数29☆位置测度的一种常用方法:百分位数(Percentile)含义:第p个百分位数是这样的数值:至少有p%个数值跟它一样大或比它小;至少有(100-p)%个数值跟它一样大或比它大。例如,一个考生入学考试的口语成绩是55分,对应第70个百分位数,我们就可以知道大约有70%的考生成绩比他低,或者说大约有30%的考生成绩比他高。2020/1/1830算术平均数定义:全部变量值之和与变量值个数相除所得到的结果。按其计算形式又有简单算术平均数和加权算术平均数之分。STAT平均数(average)的定义----变量值的一般水平,通常也称为均值(mean)。有算术均值、调和均值和几何均值。3.1.4数值型数据---平均数一.算术平均数2020/1/1831(一)简单算术平均数如果是未分组整理的原始资料,则直接将各个数据加总再除以数据的个数即得到平均数。设一组数据为,则其算术平均数的计算公式为2020/1/1832(二)加权算术平均数根据分组整理的数据计算平均数时,需要先用每个组的变量值或组中值分别乘以各自的频数或频率,然后加总再除以总频数或总频率,即得算术平均数。其计算公式为2020/1/1833【例】2005年某市红星幼儿园共有458名儿童,其年龄资料如表3.2所示。要求:试计算该幼儿园儿童的平均年龄。单变量值分组数据均值的计算2020/1/1834身高组中值人数比重(cm)xi(cm)fi(人)(%)150-155152.533.61155-160157.51113.25160-165162.53440.96165-170167.52428.92170以上172.51113.25总计--83100组距分组数据均值的计算某年级83名女生身高资料组距数列次数f频率f/∑f变量值xSTAT加权算术平均数164.25xfxfx164.25fxxfx2020/1/1835权数及其起作用的条件用各组的组中值代表其实际数据计算算术平均数时,通常假定各组数据在组内是均匀分布的,相应的组中值近似等于各组的平均数。权数:衡量变量值相对重要性的数值。各个变量值的权数要起作用必须具备两个条件:一是各个变量值之间有差异;二是各个变量值的权数有差异。简单算术平均数是加权算术平均数在权数相等时的特例。2020/1/18361.集中趋势的最常用测度值;2.一组数据的均衡点所在;3.各变量值与其均值的离差之和等于零,即;4.各变量值与其均值的离差平方和最小,即5.由组距分组资料计算的均值有近似值性质;6.易受极端值的影响;主要用于数值型数据,不能用于分类数据和顺序数据(三)算术平均数(均值)特征37思考题比特啤酒公司雇用了468名员工,其中有56名管理人员,130名行政和技术人员,其余282人是工人。这三组人的周平均工资分别是500英镑、300英镑和200英镑。财务主管希望计算全体员工的平均工资。)(33.3333200300500英镑NXXi2020/1/1838二.调和平均数(harmonicmean)1、调和平均数也称“倒数平均数”,它是对变量的倒数求平均,然后再取倒数而得到的平均数2、平均数的另一种表现形式3、易受极端值的影响4、计算公式为原来只是计算时使用了不同的数据!2020/1/1839调和平均数(例题分析)某日三种蔬菜的批发成交数据蔬菜名称批发价格(元)xi(已知)成交额(元)xifi(已知)成交量(公斤)fi甲乙丙1.200.500.801800012500640015000250008000合计—3690048000【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格369000.76948000mH成交额(元)成交额批发价格2020/1/1840算术平均数与调和平均数的关系1.从数学定义角度看算术平均数与调和平均数是不一样的,但在社会经济应用领域,调和平均数实际上只是算术平均数的另一种表现形式,二者本质上是一致的,惟一的区别是计算时使用了不同的数据。2.计算比率的平均数时,如果已知比率及其基本计算式的分母资料,则采用加权算术平均法;如果已知比率及其基本计算式的分子资料,则采用加权调和平均法。2020/1/1841【例】某市某行业150个企业的产值利润率及相关资料如表3.8。要求:试分别计算该行业150企业第一季度和第二季度的平均产值利润率。算术平均数与调和平均数的关系2020/1/1842三.几何平均数(geometricmean)1、含义及应用条件1)定义:n个变量值乘积的n次方根2)应用范围:适用于比率数据的平均,主要用于计算平均发展速度、平均增长率、平均比率3)应用的前提条件:各个比率或速度的连乘
本文标题:统计数据的描述剖析
链接地址:https://www.777doc.com/doc-3142903 .html