您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 社会统计学之集中、离中、偏态与峰态
数据的集中趋势、分散趋势、偏度与峰度数据的概括性度量2.2分布集中趋势的测度2.3分布离散程度的测度2.4分布偏态与峰度的测度数据分布的特征集中趋势(位置)偏态和峰态(形状)离中趋势(分散程度)集中趋势的度量分类数据:众数顺序数据:中位数数值型数据:平均数众数、中位数和平均数比较集中趋势(centraltendency)1.一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据一般水平的代表值/中心值3.不同类型的数据用不同的集中趋势测度值4.低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据分类数据:众数众数(mode)1.一组数据中出现次数最多的变量值2.分布最高峰点所对应的数值即众数3.一种位置代表值,不受极端值的影响,应用场合有限,4.一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和数值型数据众数(不惟一性)无众数原始数据:10591268一个众数原始数据:659855多于一个众数原始数据:252828364242分类数据的众数(例题分析)不同品牌饮料的频数分布饮料品牌频数比例百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值所调查的50人中,购买可口可乐的人数最多,为15人,占被调查总人数的30%,因此众数为“可口可乐”这一品牌,即Mo=可口可乐顺序数据的众数(例题分析)解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo=不满意甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510合计300100.0统计函数—MODE数值型数据的众数(步骤)下限公式:上限公式:dLMo211dUMo212LU△1d△2Mo数值型数据的众数(例题分析)月工资人数350元以下10350-45050450-550120550-650180650-75040750以上30合计430元下限公式5801001406060550211dLMo元上限公式58010014660140650212dUMo顺序数据:中位数和分位数中位数(median)1.排序后处于中间位置上的数据1,4,7,11,13(113)1,4,7,11,13,19Me50%50%2.不受极端值的影响,具有稳健(稳定)性特点3.主要用于顺序数据,也可用数值型数据,但不能用于分类数据中位数(未分组资料)位置确定21n中位数位置为偶数为奇数nxxnxMnnne1222121数值确定数值型数据的中位数(9个数据的算例)【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位数1080521921n位置数值型数据的中位数(10个数据的算例)【例】:10个家庭的人均月收入数据排序:66075078085096010801250150016302000位置:123456789105.5211021n位置102021080960中位数统计函数—MEDIAN顺序数据的中位数(例题分析)解:中位数的位置为(300+1)/2=150.5从累计频数看,中位数在“一般”这一组别中中位数为Me=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—数值型数据的中位数dfSfLMemm12dfSfUMemm12数值型数据的中位数(例题分析)中位数位置:月工资人数向上累积向下累积350元以下1010430350-4505060420450-550120180370550-650180360250650-7504040070750以上3043030合计430---2152/4302/f元44.56910018018021555021dfSfLMemm元44.5691001807021565021dfSfUMemm中位数的性质如果数据大量重复某一数值,此时中位数未必准确,在解释时要特别小心各变量值与中位数的离差绝对值之和最小,即min1eniiMx四分位数(quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响3.主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QLQMQU25%25%25%25%四分位数(位置的确定)方法2:较准确算法4)1(341ULnQnQ位置位置方法1:定义算法434ULnQnQ位置位置四分位数(位置的确定)方法3:其中[]表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上方法4:Excel给出的四分位数位置的确定方法如果位置不是整数,则按比例分摊位置两侧数值的差值2121nQ位置43LnQ位置413UnQ位置顺序数据的四分位数(例题分析)解:QL位置=(300)/4=75QU位置=(3×300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中四分位数为QL=不满意QU=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—数值型数据的四分位数(9个数据的算例)【例】:9个家庭的人均月收入数据(4种方法计算)原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:12345678975.649325.249UL位置位置QQ5.79725.0)780850(780LQ5.143775.0)12501500(1250UQ方法1数值型数据的四分位数(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:1234567895.74)19(35.2419UL位置位置QQ15652163015008152850780ULQQ方法2数值型数据的四分位数(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789321219位置Q1500850ULQQ方法3数值型数据的四分位数(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789方法4741933439UL位置位置QQ850LQ1500UQ统计函数—QUARTILE数值型数据:平均数算术平均数(mean)1.也称为均值2.集中趋势的最常用、最重要的测度值3.分子分母必须属于同一总体5.易受极端值的影响6.有简单平均数和加权平均数之分x简单算术平均数(Simplemean)设一组数据为:x1,x2,…,xn(总体数据xN)简单算术平均数(未分组资料)nxnxxxxniin121例:设有一组大学生的月生活费支出为:150,200,240,300,350,500(单位:元)。则平均月生活费支出=150+200+240+300+350+500=290加权平均数例:有一班级的大学生月生活费支出如下表:月生活费(元)x人数(人)f频率(%)15035.3620058.93240712.503002442.853501628.5750011.79合计56100.00则平均生活费支出?=(150*3+200*5+240*7+300*24+350*16+500*1)/56=293.39(为什么由分组资料计算平均指标不能将各组的标志值简单平均?)加权平均数(Weightedmean)设各组的标志值为:x1,x2,…,xk相应的频数为:f1,f2,…,fknfxffxffffxfxfxxkiiikiiikkk11212211加权平均加权平均数(权数对均值的影响)甲乙两组各有10名学生,考试成绩及其分布数据如下甲组:考试成绩(x):020100人数分布(f):118乙组:考试成绩(x):020100人数分布(f):811)(82108100120101分甲nxxnii)(12101100120801分乙nxxnii统计函数—AVERAGE加权平均数(权数对均值的影响)平均数的大小不仅取决于各组标志值x的大小,同时还受各组次数f多少的影响。各组标志值次数的多少在平均数的计算中具有权衡轻重的作用,因而把各组的次数又称为权数,用各组的次数去乘以各组的标志值,就是对各组的标志值进行加权。所以,用这种方法计算的算术平均数,称为加权算术平均数。如果各组次数完全相同,结果会怎样?实务中给定的权数资料,既可以是绝对数,也可以是相对数,即频率或称权数系数。加权平均数(权数为相对数)月生活费(元)人数(%)1505.362008.9324012.5030042.8535028.575001.79合计100.00ffxffxffxffxxiinn2211加权平均数(组距数列)设各组的组中值为:M1,M2,…,Mk相应的频数为:f1,f2,…,fknfMffMffffMfMfMxkiiikiiikkk11212211加权平均185120222001nfMxkiii加权平均数(例题分析)某电脑公司销售量数据分组表按销售量分组组中值(Mi)频数(fi)Mifi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计—12022200组中值用组中值代表各组实际数据假定各组数据在组中均匀分布各数据与组中值的误差可以相互抵消平均数(数学性质)1.各变量值与平均数的离差之和等于零2.各变量值与平均数的离差平方和最小niixx12min)(niixx10)(3.均值是统计分布的均衡点中位数和平均数数学性质的验证几何平均数(geometricmean)1.n个变量值乘积的n次方根2.适用于对比率数据的平均3.主要用于计算平均增长率、平均发展速度4.计算公式为5.可看作是平均数的一种变形nniinnmxxxxG121nxxxxnGniinm
本文标题:社会统计学之集中、离中、偏态与峰态
链接地址:https://www.777doc.com/doc-3347473 .html