您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 第4章--数据的概括性度量
1-1统计学STATISTICS(第五版)第4章数据的概括性度量1-2统计学STATISTICS(第五版)第4章数据的概括性度量4.1集中趋势的度量4.2离散程度的度量4.3偏态与峰态的度量1-3统计学STATISTICS(第五版)4.1集中趋势的度量4.1.1分类数据:众数4.1.2顺序数据:中位数和分位数4.1.3数值型数据:平均数4.1.4众数、中位数和平均数的比较1-4统计学STATISTICS(第五版)集中趋势1.一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值4.低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据1-5统计学STATISTICS(第五版)分类数据:众数,0M1-6统计学STATISTICS(第五版)众数(mode)1.一组数据中出现次数最多的变量值2.适合于数据量较多时使用3.不受极端值的影响4.一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和数值型数据1-7统计学STATISTICS(第五版)当数据分布存在明显的集中趋势,且有显著的极端值时,适合使用众数;当数据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数众数的原理及应用1-8统计学STATISTICS(第五版)不唯一性无众数原始数据:10591268一个众数原始数据:659855多于一个众数原始数据:2528283642421-9统计学STATISTICS(第五版)分类数据的众数(例题分析)不同品牌饮料的频数分布饮料品牌频数比例百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值Mo=可口可乐1-10统计学STATISTICS(第五版)顺序数据的众数(例题分析)顺序数据。变量为“回答类别”Mo=不满意甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510合计300100.0某车间50名工人月产量的资料如下:月产量(件)工人人数(人)向上累计次数(人)200以下200~400400~600600以上373283104250合计50—计算该车间工人月产量的众数。xf001MMff001MMff0Mf0ML0M0MU021100mmdLM下限公式:1001mmff式中:1002mmff021200mmdUM上限公式:数值型数据某车间50名工人月产量的资料如下:月产量(件)工人人数(人)向上累计次数(人)200以下200~400400~600600以上373283104250合计50—计算该车间工人月产量的众数。xfdLMo211件502200242525400oM1-14统计学STATISTICS(第五版)顺序数据:中位数和分位数1-15统计学STATISTICS(第五版)中位数(median)1.排序后处于中间位置上的值Me50%50%2.不受极端值的影响3.主要用于顺序数据,也可用数值型数据,但不能用于分类数据1-16统计学STATISTICS(第五版)中位数(位置和数值的确定)位置确定21中位数位置n为偶数为奇数nxxnxMnnne1222121数值确定如果统计资料中含有异常的或极端的数据,就有可能得到非典型的甚至可能产生误导的平均数,这时使用中位数来度量集中趋势比较合适。比如有5笔付款:9元,10元,10元,11元,60元平均付款为100/5=20元。很明显,这并不是一个好的代表值,而中位数10元是一个更好的代表值。1-18统计学STATISTICS(第五版)顺序数据的中位数(例题分析)中位数的位置为(300+1)/2=150.5中位数为Me=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—1-19统计学STATISTICS(第五版)数值型数据的中位数(9个数据的算例)【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位数1080521921n位置1-20统计学STATISTICS(第五版)数值型数据的中位数(10个数据的算例)【例】:10个家庭的人均月收入数据排序:66075078085096010801250150016302000位置:123456789105.5211021n位置102021080960中位数某车间50名工人月产量的资料如下:月产量(件)工人人数(人)向上累计次数(人)200以下200~400400~600600以上373283104250合计50—计算该车间工人月产量的中位数。xf组距数列共个单位2f共个单位2f共个单位1mS共个单位1mSLU中位数组组距为d共个单位mf假定该组内的单位呈均匀分布共有单位数12mSf中位数下限公式为dfSfLMmme12该段长度应为dfSfmm12向上累计共个单位2f共个单位2f共个单位1mS共个单位1mSLU中位数组组距为d共个单位mf假定该组内的单位呈均匀分布共有单位数12mfS中位数上限公式为12memfSMUdf该段长度应为12mmfSdf向下累计1-24统计学STATISTICS(第五版)某车间50名工人月产量的资料如下:月产量(件)工人人数(人)向上累计次数(人)200以下200~400400~600600以上373283104250合计50—计算该车间工人月产量的中位数。xfdfSfLMmme12件75.4934006003210250400eM1-25统计学STATISTICS(第五版)四分位数(quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响3.主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QLQMQU25%25%25%25%1-26统计学STATISTICS(第五版)四分位数(位置的确定)方法2:较准确算法4)1(341ULnQnQ位置位置方法1:定义算法434ULnQnQ位置位置1-27统计学STATISTICS(第五版)四分位数(位置的确定)方法3:其中[]表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上方法4:Excel给出的四分位数位置的确定方法如果位置不是整数,则按比例分摊位置两侧数值的差值2121nQ位置43LnQ位置413UnQ位置1-28统计学STATISTICS(第五版)顺序数据的四分位数(例题分析)解:QL位置=(300)/4=75QU位置=(3×300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中四分位数为QL=不满意QU=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—1-29统计学STATISTICS(第五版)数值型数据的四分位数(9个数据的算例)【例】:9个家庭的人均月收入数据(4种方法计算)原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:12345678975.649325.249UL位置位置QQ5.79725.0)780850(780LQ5.143775.0)12501500(1250UQ方法11-30统计学STATISTICS(第五版)数值型数据的四分位数(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:1234567895.74)19(35.2419UL位置位置QQ15652163015008152850780ULQQ方法21-31统计学STATISTICS(第五版)数值型数据的四分位数(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789321219位置Q1500850ULQQ方法31-32统计学STATISTICS(第五版)数值型数据的四分位数(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789方法4741933439UL位置位置QQ850LQ1500UQ1-33统计学STATISTICS(第五版)数值型数据:平均数1-34统计学STATISTICS(第五版)平均数(mean)1.也称为均值,一组数据相加后除以数据的个数得到的结果2.集中趋势的最常用测度值3.一组数据的均衡点所在4.易受极端值的影响5.有简单平均数和加权平均数之分6.根据总体数据计算的,记为;根据样本数据计算的,称为样本平均数,记为xx1-35统计学STATISTICS(第五版)简单平均数-未分组数据(Simplemean)设一组数据为:x1,x2,…,xn(总体数据xN)样本平均数nxnxxxxniin121NxNxxxNiiN121总体平均数1-36统计学STATISTICS(第五版)平均每人日销售额为:520600480750440527905585xxN元某售货小组5个人,某天的销售额分别为520元、600元、480元、750元、440元,则【例】1-37统计学STATISTICS(第五版)加权平均数-分组数据(Weightedmean)设各组的组中值为:M1,M2,…,Mk相应的频数为:f1,f2,…,fknfMffffMfMfMxkiiikkk1212211样本加权平均总体加权平均NfMffffMfMfMkiiikkk12122111-38统计学STATISTICS(第五版)加权平均数(权数对均值的影响)甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(x):020100人数分布(f):118乙组:考试成绩(x):020100人数分布(f):811)(82108100120101分甲nxxnii)(12101100120801分乙nxxnii【例】某企业某日工人的日产量资料如下:日产量(件)工人人数(人)xf101112131470100380150100合计800计算该企业该日全部工人的平均日产量。算术平均数的计算方法1110701410070100971012.1375(800miiimiixfxf件)解:算术平均数的计算方法上述资料为组距数列,则应取各组的组中值作代表值用于计算;此时求得的算术平均数只是其真值的近似值。说明
本文标题:第4章--数据的概括性度量
链接地址:https://www.777doc.com/doc-4547650 .html