您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > (03)第3章 用统计量描述数据
统计学(第三版)2008第3章用统计量描述数据3.1水平的度量3.2差异的度量3.3分布形状的度量3-3统计学STATISTICS(第三版)2008年8月学习目标度量水平的统计量度量差异的统计量度量分布形状的统计量各统计量的的特点及应用场合用Excel和SPSS计算描述统计量3.1水平的度量3.1.1平均数3.1.2中位数和分位数3.1.3用哪个值代表一组数据?第3章用统计量描述数据3.1.1平均数3.1水平的度量3-6统计学STATISTICS(第三版)2008年8月xx平均数(mean)1.也称为均值,常用的统计量之一2.消除了观测值的随机波动3.易受极端值的影响4.根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x3-7统计学STATISTICS(第三版)2008年8月简单算数平均(Simplemean)设一组数据为:x1,x2,…,xn(总体数据xN)样本平均数nxnxxxxniin121NxNxxxNiiN121总体平均数3-8统计学STATISTICS(第三版)2008年8月加权平均数(Weightedmean)设各组的组中值为:M1,M2,…,Mk相应的频数为:f1,f2,…,fknfMffffMfMfMxkiiikkk1212211样本加权平均:总体加权平均:NfMffffMfMfMkiiikkk12122113-9统计学STATISTICS(第三版)2008年8月185120222001nfMxkiii加权平均数(例题分析)某电脑公司销售量数据分组表按销售量分组组中值(Mi)频数(fi)Mifi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计—120222003-10统计学STATISTICS(第三版)2008年8月加权平均数(权数对均值的影响)甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(x):020100人数分布(f):118乙组:考试成绩(x):020100人数分布(f):811)(82108100120101分甲nxxnii)(12101100120801分乙nxxnii统计函数—AVERAGE3.1.2中位数和分位数3.1水平的度量3-12统计学STATISTICS(第三版)2008年8月中位数(median)1.排序后处于中间位置上的值。不受极端值影响Me50%50%2.位置确定21n中位数位置为偶数为奇数nxxnxMnnne12221213.数值确定3-13统计学STATISTICS(第三版)2008年8月中位数的计算(数据个数为奇数)【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位数1080521921n位置3-14统计学STATISTICS(第三版)2008年8月中位数的计算(数据个数为偶数)【例】:10个家庭的人均月收入数据排序:66075078085096010801250150016302000位置:123456789105.5211021n位置102021080960中位数统计函数—MEDIAN3-15统计学STATISTICS(第三版)2008年8月四分位数—用3个点等分数据(quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响QLQMQU25%25%25%25%3-16统计学STATISTICS(第三版)2008年8月四分位数的计算(位置的确定)定义算法434ULnQnQ位置位置3-17统计学STATISTICS(第三版)2008年8月四分位数的计算(数据个数为奇数)【例】:9个家庭的人均月收入数据(4种方法计算)原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:12345678975.649325.249UL位置位置QQ5.79725.0)780850(780LQ5.143775.0)12501500(1250UQ统计函数—QUARTILE3-18统计学STATISTICS(第三版)2008年8月众数(mode)1.一组数据中出现次数最多的变量值2.适合于数据量较多时使用3.不受极端值的影响4.一组数据可能没有众数或有几个众数mo统计函数—MODE3.1.3用哪个值代表一组数据?3.1水平的度量3-20统计学STATISTICS(第三版)2008年8月众数、中位数和平均数的关系左偏分布均值中位数众数对称分布均值=中位数=众数右偏分布众数中位数均值3-21统计学STATISTICS(第三版)2008年8月众数、中位数、平均数的特点和应用1.平均数易受极端值影响数学性质优良,实际中最常用数据对称分布或接近对称分布时代表性较好2.中位数不受极端值影响数据分布偏斜程度较大时代表性接好3.众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好3.2差异的度量3.2.1极差和四分位差3.2.2方差和标准差3.2.3比较几组数据的离散程度:离散系数第3章用统计量描述数据3-23统计学STATISTICS(第三版)2008年8月怎样评价水平代表值?1.假定有两个地区每人的平均收入数据,其中甲地区的平均收入为5000元,乙地区的平均收入为3000元。你如何评价两个地区的收入状况?2.如果平均收入的多少代表了该地区的生活水平,你能否认为甲地区的平均生活水平就高于乙地区呢?3.要回答这些问题,首先需要搞清楚这里的平均收入是否能代表大多数人的收入水平。如果甲地区有少数几个富翁,而大多数人的收入都很低,虽然平均收入很高,但多数人生活水平仍然很低。相反,乙地区多数人的收入水平都在3000元左右,虽然平均收入看上去不如甲地区,但多数人的生活水平却比甲地区高,原因是甲地区的收入差距大于乙地区3-24统计学STATISTICS(第三版)2008年8月怎样评价水平代表值?仅仅知道数据的水平是远远不够的,还必须考虑数据之间的差距有多大。数据之间的差距用统计语言来说就是数据的离散程度。数据的离散程度越大,各描述统计量对该组数据的代表性就越差,离散程度越小,其代表性就越好甲乙3.2.1极差和四分位差3.2差异的度量3-26统计学STATISTICS(第三版)2008年8月极差(range)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布5.计算公式为:R=max(xi)-min(xi)3-27统计学STATISTICS(第三版)2008年8月四分位差(quartiledeviation)1.也称为内距或四分间距2.上四分位数与下四分位数之差:Qd=QU–QL3.反映了中间50%数据的离散程度4.不受极端值的影响5.用于衡量中位数的代表性25%75%3.2.2方差和标准差3.2差异的度量3-29统计学STATISTICS(第三版)2008年8月方差和标准差(varianceandstandarddeviation)1.数据离散程度的最常用测度值2.反映各变量值与均值的平均差异3.根据总体数据计算的,称为总体方差(标准差),记为2();根据样本数据计算的,称为样本方差(标准差),记为s2(s)3-30统计学STATISTICS(第三版)2008年8月样本方差和标准差(samplevarianceandstandarddeviation)未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!1)(122nxxsnii1)(122nfxMskiii1)(12nxxsnii1)(12nfxMskiii3-31统计学STATISTICS(第三版)2008年8月总体方差和标准差(PopulationvarianceandStandarddeviation)未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式NxNii122)(NfMKiii122)(NxNii12)(NfMKiii12)(3-32统计学STATISTICS(第三版)2008年8月自由度(degreeoffreedom)1.自由度的概念由统计学家R.AFisher提出2.是指数据个数与附加给独立的观测值的约束或限制的个数之差3.从字面涵义来看,自由度是指一组数据中可以自由取值的个数4.当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值5.按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k3-33统计学STATISTICS(第三版)2008年8月自由度(degreeoffreedom)1.样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值2.为什么样本方差的自由度为什么是n-1呢?因为在计算离差平方和时,必须先求出样本均值x,而x则是附加给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个3.样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差σ2时,它是σ2的无偏估计量3-34统计学STATISTICS(第三版)2008年8月样本标准差(例题分析)【例】计算计算9名员工的月工资收入的方差和标准差1500750780108085096020001250163018635019)12001630()12001250()12007500()12001500(22222s方差标准差683.4311863502s统计函数—STDEV3-35统计学STATISTICS(第三版)2008年8月标准分数(standardscore)1.也称标准化值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是否有离群点(outlier)4.用于对变量的标准化处理5.均值等于0,方差等于16.计算公式为sxxzii3-36统计学STATISTICS(第三版)2008年8月标准分数(用于数据变换)z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是使该组数据均值为0,标准差为13-37统计学STATISTICS(第三版)2008年8月用SPSS对数据进行标准化第1步:选择【Analyze】下拉菜单,并选择【Descriptivestatistics-Descriptive】选项进入主对话框第2步:在主对话框中将变量选入【Variables】,然后选中【Savestandardizedvaluesasvariables】。点击【OK】(SPSS会将标准化后的变量以“Z”开头存放在原始变量工作表中)用SPSS对数据标准化3-38统计学STATISTICS(第三版)2008年8月标准分数(例题分析)
本文标题:(03)第3章 用统计量描述数据
链接地址:https://www.777doc.com/doc-3708557 .html