您好,欢迎访问三七文档
描述数据离散程度的统计量称为差异量数。差异量越大,表明数据越分散、不集中;差异量越小,表明数据越集中,变动范围越小。一组数据的离散程度,常常通过数据的离中趋势特点进行分析。一、全距、百分位距(差)和四分位距(差)全距R(range)全距是一组数据中的最大值(maximum)与该组数据中最小值(minimum)之差,又称极差。R=Xmax-Xmin百分位差(百分位距)百分位差是指两个百分位数(percentile)之差。百分位数是指量尺上的一个点,在此点以下,包括数据分布中全部数据个数的一定百分比。常用Pp或Pm表示。第P百分位数指在其值为P的数据以下,包括分布中全部数据的的百分之p或m。因以全距表示数据离散程度时受极端数影响,取消分布两端10%的数据,即P90-P10指量尺上的一个点,在此点以下,包括数据分布中全部数据个数的一定百分比四分位差也视为百分位差的一种,指在一个次数分配中,中间50%的次数的距离的一半。百分位数百分位差四分位差ifNPFLPbbP100iXfNLFPbbR100Pp为所求的第P个百分数Lb百分位数所在组的精确下限f为百分位数所在组的次数Fb为小于Lb的各组次数的和N为总次数i为组距PR为所求的第P个百分等级X为给定的原始分数Lb为该分数所在组的精确下限f为该分数所在组的次数Fb为小于Lb的各组次数的和N为总次数i为组距百分位数的计算公式百分等级的计算公式常用的百分位距有两种:P90-P10和P93-P7。用几个百分位距能较好地反映一组数据的差异程度。计算公式公式中:fbp为某一百分位数所在组下限以下的累积频数fp为某一百分位数所在组的频数Lbp为某一百分位数所在组的精确下限9090909010090fifnLPbb1010101010010fifnLPbb四分位距四分位距是第一个四分位数与第三个四分位数之差的一半,计算公式为213QQQ其中:iffnLQQbQ125141iffnLQQbQ3753433用中位数作集中量时,常用四分位距作差异量。二、平均差平均差(averagedeviation或者meandeviation)是指一组数据中,每一个数据与该组数据的平均数离差的绝对值的算术平均数,通常用AD或MD表示。本书中均以AD表示。原始数据计算公式次数分布表计算公式nXXADnXXfAD平均差意义明确,计算容易,反应灵敏。但计算时要用绝对值,不适合代数运算,因此在进一步统计分析中应用较少。三、方差和标准差方差(又称为变异数、均方)。是表示一组数据离散程度的统计指标。一般样本的方差用表示,总体的方差用表示。标准差(standarddeviation)是方差的算术平方根。一般样本的标准差用S表示,总体的标准差用表示。标准差和方差是描述数据离散程度的最常用的差异量。2S21.方差和标准差的定义nXXS22nXXS22.方差和标准差的计算公式未分组数据未分组数据:方差的计算公式标准差的计算公式NXXNii122)(222NXNXσNXXNii12)(211nniiiiXXNNNXXNii122)(KiiKicfXXf1122)(分组数据:分组数据:方差的计算公式标准差的计算公式KiiKiiiFFXX1122)(KiiKiiiFFXX112)(KiiKicfXXf112)(样本方差和标准差未分组数据分组数据:未分组数据:分组数据:方差的计算公式标准差的计算公式1)(1221nXXSniinkiikiicnffXXS112211)(1)(121nXXSniinkiikiicnffXXS11211)(注意:样本方差用自由度n-1去除表5-152名学生数学成绩方差和标准差计算表成绩组中值Xc频数fF*XcF*XC2计算95-97.5219519012.590-92.5218517112.585-87.53262.522968.7580-82.55412.534031.2575-77.586204805070-72.511797.557818.7565-67.59607.541006.2560-62.55312.519531.2555-57.542301322550-52.521055512.545-47.5147.52256.25合计523775280525222nfXnfXScc5.1242523775522805255.124S16.113.总标准差的合成方差具有可加性的特点。当已知几个小组数据的方差或标准差时,可以计算几个小组联合在一起的总的方差或标准差。需要注意的是,只有在应用同一种观测手段,测量的是同一种特质,只是样本不同的数据时,才能计算合成方差或标准差。计算公式iiTiiiTnXXnSnS222iiTiiiTnXXnSnS22iTiXXd公式中:为总方差,为总标准差Si为各小组标准差ni为各小组数据个数(5.11)(5.12)2TSTS4.方差和标准差的性质方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性特点。标准差是一组数据方差的算术平方根,它不可以进行代数计算,但有以下特性:CXYXYSSXCYXYSCS•如果则•如果则方差与标准差的性质性质1性质2性质3每一个观测数据乘以一个相同常数C之后,则所得标准差等于原标准差乘以这个常数。若Yi=Xi×C则有每一个观测值都乘以同一个常数C(C≠0),再加上一个常数d,所得的标准差等于原标准差乘以这个常数C。若Yi=Xi×C+d(C≠0)则有ssXYc每一个观测数据加上一个相同常数C之后,计算到的标准差等于原标准差。若Yi=Xi+C则有ssXYssXYC5方差与标准差的意义方差与标准差是表示一组数据离散程度的最好指标。其值越大,说明次数分布的离散程度越大,该组数据较分散;其值越小,说明次数分布的数据比较集中,离散程度越小。他们是统计描述和统计推断分析中最常用的差异量数。在描述统计部分,只需要标准差就足以说明一组数据的离中趋势优点:反应灵敏;计算公式严密;容易计算;适合代数运算;受抽样变动小;简单明了。具有数学上的优越性,特备适当已知一组数的平均数与标准差后,就可知道落在平均数上下各一个标准差,两个标准差或个标准差范围之内的数据所占的百分比。四.相对差异量1.差异系数的概念及计算公式差异系数(coefficientofvariation)是指标准差与其算术平均数的百分比,它是没有单位的相对数。常以CV表示,其计算公式为%100XSCV(5.13)2.差异系数的作用比较不同单位资料的差异程度比较单位相同而平均数相差较大的两组资料的差异程度可判断特殊差异情况根据经验,一般CV值常在5%-35%之间。如果CV大于35%时,可怀疑所求得的平均数是否失去了意义;如果CV小于5%时,可怀疑平均数与标准差是否计算有误。例1:比较计量单位不同的数据资料的差异程度1975年上海市区6岁男童体重与身高数据:平均数标准差差异系数体重19.39千克2.16千克11.14%身高115.87厘米4.86厘米4.19%例2:比较单位相同而平均数相关较大的两组资料的差异程度。1975年上海市区两组女童体重的数据:平均数标准差差异系数2个月组5.45千克0.62千克11.38%6岁组19.02千克2.12千克11.15%3.差异系数的应用条件差异系数主要应用于平均数不等于零的连续数据。学科成绩可以勉强计算差异系数。1.依据客观数据,而非主观估计2.计算应用全部数据,而非部分数据3.简便易懂4.计算方便5.具有样本稳定性6.适合代数运算优良差异量数应具备的标准各种差异量数的关系S=1.2533AD=1.4826QAD=0.7979S=1.1829QQ=0.6745S=0.8453AD
本文标题:第四章 差异量数
链接地址:https://www.777doc.com/doc-3152182 .html