您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 统计学课件第4章 数据的概括性度量
2020年1月19日星期日StatisticalResearchOffice1第四章数据的概括性度量2020年1月19日星期日StatisticalResearchOffice24.1数据分布集中趋势的测度4.2数据分布离散程度的测度4.3数据分布偏态与峰度的测度2020年1月19日星期日StatisticalResearchOffice34.1数据分布集中趋势的测度数据的集中趋势是指一组数据向某一中心值靠拢的倾向。-集中趋势的测度就是寻找反映一组数据一般水平的代表值或中心值。-集中趋势的测度值主要有:众数、中位数、算术平均数(几何平均数)等。2020年1月19日星期日StatisticalResearchOffice44.1.1众数(mode)的概念-一组定量数据中出现次数最多的那个数值。-从数据次数分布的角度看,众数是具有明显集中趋势的数值,即一组数据分布(如正态分布、偏态分布)的最高峰点所对应的数值就是众数。2020年1月19日星期日StatisticalResearchOffice5►若最高峰点有不止一个,则有不止一个众数;若没有最高峰点,则该组数据也没有众数。►众数不受极端数据的影响►众数的应用---如对零售市场上某种商品平均价格的估计;---如某皮鞋生产厂商对所要生产皮鞋尺寸大小的确定等。2020年1月19日星期日StatisticalResearchOffice6众数的计算—对未分组数据:出现次数最多的变量值就是众数。—单变量值分组数据:出现次数最多的变量值就是众数。—例(见表1)2020年1月19日星期日StatisticalResearchOffice7表1南京审计学院某班学生年龄统计年龄(岁)人数(人)比重(%)向上累积人数(人)比重(%)18192021315302630604318485063696100合计50100--2020年1月19日星期日StatisticalResearchOffice8—对于组距分组数据(例见表2)-确定众数组及其上下限的大小-确定众数组及相邻组的频数或频率-确定众数组组距-将相关数据代入公式2020年1月19日星期日StatisticalResearchOffice9表2某班学生课程考试成绩统计分数(分)人数(人)比重(%)向上累积人数(人)比重(%)90以上80-9070-8060-7055-6055以下6141040515.435.925.610.3012.839331995510085.648.723.112.812.8合计39100--2020年1月19日星期日StatisticalResearchOffice10某班学生考试成绩众数(Mode)分)或(3.8310%)6.259.35(%)4.15.%35(%6.25%9.3580)8090()1014()614(1014802020年1月19日星期日StatisticalResearchOffice114.1.2中位数(median)的概念-将一组定量数据按照从小到大或从大到小的顺序排列,处于中间位置上的数就是中位数。从而,把一组数据平均分为两部分。-一组数据的中位数有且只有一个。-中位数受极端数值的影响非常小。2020年1月19日星期日StatisticalResearchOffice12中位数的计算—对于未分组的数据:排序直接找出处于中间位置的数即可。-若数据是奇数个,则处于中间的那个数就是中位数;-若数据是偶数个,则处于中间的两个数的平均数就是中位数。2020年1月19日星期日StatisticalResearchOffice13—对于单变量分组数据-确定中位数组将组的次数(或频率)进行累积;-中位数位置为(N+1)/2;-中位数组所在的变量值就是中位数。-例(见表1)2020年1月19日星期日StatisticalResearchOffice14—对于组距分组数据-确定中位数组及其组限;-确定至中位数组前一组频数或频率累积数;-确定中位数组的频数或频率;-确定中位数组的组距;-代入公式注意:假定数据在每一组内服从均匀分布或关于组中值对称分布。2020年1月19日星期日StatisticalResearchOffice15某班学生考试成绩中位数(分))(或4.808090%9.35%7.48%5080)8090(1419239802020年1月19日星期日StatisticalResearchOffice164.1.3算术平均数(arithmeticmean)或称均值(mean):总体中某一定量变量在各总体单位上的数值表现之和与总体单位总数之比。-任意一组数据都有且只有一个均值;-均值广泛应用于数理统计中;-均值受极端数值的影响非常大2020年1月19日星期日StatisticalResearchOffice17中国将分岗位统计职工工资,防止工资“被增长”我国将分岗位统计职工工资,解决工资“被增长”等问题。由于平均工资反映的是工资的总体情况而非个人的具体水平,统计数据公布后,总有人感到自己工资“被增长”了。为此,国家统计局计划从2013年起分岗位统计平均工资,以更好地体现个体收入差异。资料来源:新华网,2012年09月20日17:282020年1月19日星期日StatisticalResearchOffice18算术平均数的计算—对于未分组数据,用下列公式计算:个变量值。为其中:nxxxnxnxxxxnn,,,21212020年1月19日星期日StatisticalResearchOffice19—对于单变量分组数据,用下列公式计算:组的变量值和次数。为第其中:ifxffxfxfffffxfxfxxiinnn,2122112020年1月19日星期日StatisticalResearchOffice20—对于组距分组数据,计算公式与单变量分组数据计算公式相同,但其中分别表示每一组的组中值;-利用组中值时假定数据在组中服从均匀分布或关于组中值对称分布nxxx,,,212020年1月19日星期日StatisticalResearchOffice21—按未分组数据计算的均值,其大小只受到变量值大小的影响;—按单变量分组数据与组距分组数据的均值,其大小既受到每组变量值(或组中值)的影响,同时又受到每一组频数或频率的影响。2020年1月19日星期日StatisticalResearchOffice22—对于众数与中位数而言,其大小仅受到分布形状及位置的影响,而不受其他变量值的影响;—当存在极端数值时,用众数或中位数反映数据的集中趋势比算术平均数更具有代表性。---当数据差异较大时,应用组平均数去说明、解释总平均数(例见表2)2020年1月19日星期日StatisticalResearchOffice232013年我国全年农村居民人均纯收入8896元,比上年增长12.4%,扣除价格因素,实际增长9.3%;农村居民人均纯收入中位数为7907元,增长12.7%。城镇居民人均可支配收入26955元,比上年增长9.7%,扣除价格因素,实际增长7.0%;城镇居民人均可支配收入中位数为24200元,增长10.1%。资料来源:2014年2月24日,中华人民共和国统计局:《2013年中华人民共和国国民经济和社会发展统计公报》2020年1月19日星期日StatisticalResearchOffice244.1.5几何平均数:主要用于计算比率或速度的平均数。-当数据本身是比率的形式,而且各比率的乘积等于总的比率时,采用几何平均数计算该组数据的平均数比较合适;-常用于计算经济的平均发展速度、平均存款利率等。2020年1月19日星期日StatisticalResearchOffice25几何平均数的计算—对于未分组数据,采用简单几何平均数公式计算:—对于单变量值分组与组距分组数据,采用加权几何平均数公式计算:nnnGxxxxx21ffffffmffGxxxxxmm2121212020年1月19日星期日StatisticalResearchOffice26例1:“八五”和“十一五”时期我国经济的发展速度单位:%年份发展速度年份发展速度1991109.12006112.71992114.12007114.21993113.12008109.61994112.62009109.21995109.02010110.4因为所以,几何平均数可以看作算术平均数的变形。nxxxxnGlglglglg212020年1月19日星期日StatisticalResearchOffice27例2:2001-2010年小李在某家银行存款5万元。其中,有2年年存款利率为2.57%,有3年年存款利率为3.25%,有5年年存款利率为3.75%。问小李这10年享受的年平均存款利率是多少?2020年1月19日星期日StatisticalResearchOffice28中位数(median)、众数(mode)、算术平均数(mean)的关系—在数据分布偏度适当的情况下,三者之间的关系如下:-mode=median=mean(正态分布)-modemedianmean(右偏分布)-meanmedianmode(左偏分布)2020年1月19日星期日StatisticalResearchOffice29-皮尔逊(Pearson)经验公式例如:假定某年某市居民大多数家庭的年收入为45600元,但有一半的家庭年收入高于47500元,问该年该市居民家庭年平均收入约为多少?)(30emxmx2020年1月19日星期日StatisticalResearchOffice304.2数据分布离散程度的测度数据的离散(分散)程度:反映各变量值远离中心值的程度。-一组数据的离散程度主要用来衡量数据集中趋势的测度值对该组数据代表性的高低:数据的离散程度大,表明集中趋势的测度值对数据的代表性较差;数据的离散程度小,表明集中趋势的测度值对数据的代表性较高。2020年1月19日星期日StatisticalResearchOffice31数据离散程度测度指标有:-极差(range)-内差(inter-quartilerange)-平均差(averagedeviation)-标准差(standarddeviation)-变异系数(coefficientofvariance)2020年1月19日星期日StatisticalResearchOffice32◆极差:一组数据的最大数值与最小数值之差。-极差=最大数值–最小数值-极差系数=极差/均值2020年1月19日星期日StatisticalResearchOffice33的概率密度函数为,则样本极差为来自总体的一个样本概率密度函数为的分布函数为设总体)1()(21),,,(),(),(XXRXXXxpxFXnnndttptxptFtxFnnxfnRN)()()]()([)1()(2)()]([)()()](1[)(11)()1(xpxFnxfxpxFnxfnXnXn函数为最大顺序统计量的概率的概率函数为而且,最小顺序统计量2020年1月19日星期日StatisticalResearchOffice34◆内差=上四分位数-下四分位数表明一组数据中,处于中间50%的数据的离散程度。当需要比较不同数据组中间50%数据的离散程度时,要计算内差系数:内差系数=内差/中间50%数据的平均数2020年1月19日星期日StatisticalResearchOffice35◆平均差(averagedeviation)为一组调查数据设nxxx,,,21nxxDA.则该组数据的平均差为ffxxDA.差为若数据已分组则其平均2020年1月19日星期日StatisticalResearchOffice36◆标准差(standarddeviation
本文标题:统计学课件第4章 数据的概括性度量
链接地址:https://www.777doc.com/doc-3157243 .html