您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 统计学数据的概括性度量
第4章数据的概括性度量1集中趋势的度量2离散程度的度量3偏态与峰态的度量甲、乙两个班的统计学成绩序号成绩序号成绩序号成绩序号成绩序号成绩173108119882880377527711792090298538873781275218230743951461137122953174407457314892376328541966921584248933744277778166925953482439188117862686358244829791876275936824572序号成绩序号成绩序号成绩序号成绩序号成绩1869461792256933752641079189026893496383117719862779357947412732098287436885581385216429853794693148122923067387177115642391318439558691675248732824095请对两个班的成绩进行对比分析,你会从哪几个方面着手?两班成绩的对比分析指标数值平均79.66667标准误差1.378405中位数80众数82标准差9.246621方差85.5峰度1.31565偏度-0.70131最小值51最大值96求和3585观测数45指标数值平均79标准误差1.923872中位数80众数64标准差12.16763方差148.0513峰度0.037583偏度-0.62146最小值46最大值98求和3160观测数40甲班成绩的描述性指标乙班成绩的描述性指标学习目的和重难点提示•本章学习目的•领会数据分布的各种特征:集中趋势、离散趋势、偏斜程度和峰度。•掌握数据分布特征各测定值的计算方法、特点及其应用场合。•本章重难点提示•数据分布特征的描述方法,如何使用一些统计量来对数据进行概括性测定。•数据分布特征各测定值的计算方法、特点及其应用场合。数据分布的特征和测度峰度偏度数据的特征和测度分布的形状集中趋势离散程度众数中位数离散系数方差和标准差四分位差异众比率位置平均数数值平均数算术平均数调和平均数几何平均数4.1集中趋势的度量1.一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据一般水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值4.低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据5.选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定集中趋势(位置)集中趋势指标的种类从总体各单位变量值中抽象出具有一般水平的量,这个量是根据各个单位的具体标志值计算出来的,有算术平均数、调和平均数、几何平均数等形式。数值平均数取得集中趋势代表值方法的不同,可分为数值平均数和位置平均数。先将总体各单位的变量值按一定顺序排列,然后取某一位置的变量值来反映总体各单位的一般水平。位置平均数有众数、中位数、四分位数等形式。位置平均数4.1.1众数1.定义:出现次数最多的变量值。是集中趋势的测度值之一,不受极端值的影响。因而在实际工作中有时有它特殊的用途。诸如,要说明一个企业中工人最普遍的技术等级,说明消费者需要的内衣、鞋袜、帽子等最普遍的号码,说明农贸市场上某种农副产品最普遍的成交价格等,都需要利用众数适用:主要用于定类数据,也可用于定序数据和数值型数据注意:有些数据可能没有众数或有几个众数0m众数(众数的不唯一性)无众数原始数据:10591268一个众数原始数据:659855多于一个众数原始数据:252828364242众数的计算方法**品质变量的众数——观察次数,出现次数最多的变量值就是众数。例如:企业的所有制结构分布、人口的城乡分布。**数值变量的众数未分组资料——观察次数,出现次数最多的数据就是众数。分组资料(1)单项式数列——直接观察,次数最多的组的变量值即为众数。if定类数据的众数表4-1某城市居民关注广告类型的频数分布广告类型人数(人)比例频率(%)商品广告服务广告金融广告房地产广告招生招聘广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100【例】根据表4-1中的数据,计算众数解:这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即Mo=商品广告定序数据的众数【例】根据表4-2中的数据,计算众数解:这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo=不满意表4-2甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510合计300100.0[例]单项式变量数列确定众数实例表4-3某市居民家庭按家庭人口数分组家庭人口数(人)家庭数(千户)比重(%)19.85.76227.516.18394.655.65419.211.29510.96.4168.04.71合计170.0100.00由上表可以看出,家庭人口数为3人的家庭数最多,因此本例中家庭人口数的众数为3人。数值型分组数据的众数1.众数的值与相邻两组频数的分布有关该公式假定众数组的频数在众数组内均匀分布2.相邻两组的频数相等时,众数组的组中值即为众数Mo3.相邻两组的频数不相等时,众数采用下列近似公式计算MoMo算例某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—01481205(148)(1410)123()M个4.1.2顺序数据:中位数和分位数1.中位数me集中趋势的测度值之一排序后处于中间位置上的值不受极端值的影响主要用于定序数据,也可用数值型数据,但不能用于定类数据各变量值与中位数的离差绝对值之和最小,即1minnieiXMMe50%50%原始数据:2422212620位置:12345中位数的计算排序:2021222426原始数据:10591268位置:123456排序:56891012中位数=(8+9)/2=8.5计算公式1212212NeNNXNMXXN当为奇数时当为偶数时未分组数据的中位数数值型分组数据的中位数12memNSMLdf例:某企业50名工人加工零件中位数计算表,计算50名工人日加工零件数的中位数按零件数分组(个)频数(人)向上累计(人)向下累计(人)105~1103350110~1155847115~12081642120~125143034125~130104020130~13564610135~1404504Sm-1Sm+1)(21.12351416250120件eM2.四分位数人们经常会将数据划分为4个部分,每一个部分大约包含有1/4即25%的数据项。QLQMQU25%25%25%25%1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值3.不受极端值的影响4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据四分位数(位置的确定)未分组数据:组距分组数据:下四分位数(QL)位置=N+14上四分位数(QU)位置=3(N+1)4下四分位数(QL)位置=N4上四分位数(QL)位置=3N4甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—计算甲城市家庭对住房满意状况评价的四分位数解:下四分位数(QL)的位置为:QL位置=(300)/4=75上四分位数(QL)的位置为:QU位置=(3×300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。因此QL=不满意QU=一般原始数据:23213032282526排序:21232526283032位置:1234567QL=23N+17+1QL位置=4=4=2QU位置=3(N+1)43(7+1)4==6QU=30数值型未分组数据的四分位数原始数据:232130282526排序:212325262830位置:123456QL=21+0.75(23-21)=22.5QL位置=N+14=6+14=1.75QU位置=3(N+1)43(6+1)4==5.25QU=28+0.25(30-28)=28.5数值型分组数据的四分位数(计算公式)上四分位数:34UUUUUNSQLdf4LLLLLNSQLdf下四分位数:计算50名工人日加工零件数的四分位数某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—QL位置=50/4=12.5QU位置=3×50/4=37.5)(81.117588450115个LQ)(75.128510304503125个UQ4.1.3数值型数据:均值1.集中趋势的测度值之一2.最常用的测度值3.一组数据的均衡点所在4.易受极端值的影响5.用于数值型数据,不能用于定类数据和定序数据均值的种类及计算1.算术平均数**(1)概念算术平均数又称平均值,是用一组数据中所有值之和除以该组数据的个数。(2)基本公式总体单位总量总体标志总量算术平均数平均数计算公式设一组数据为:X1,X2,…,XN简单均值的计算公式为设分组后的数据为:X1,X2,…,XK相应的频数为:F1,F2,…,FK加权均值的计算公式为NXNXXXXNiiN121KiiKiiiNNNFFXFFFFXFXFXX11212211简单均值(算例)原始数据:105913685.868613951066543211XXXXXXNXXNii加权均值(算例4.7)(1)算术平均数的大小,不仅取决于研究对象的变量值(x),而且受各变量值重复出现的频数(f)或频率(f/∑f)大小的影响,频数或频率较大,该组数据的大小对算术平均数的影响就大,反之则小。(2)权数的表现形式问题:绝对权数与相对权数XXXff==ff注意事项是非标志的平均数•是非标志:如果按照某种标志把总体只能分为具有某种特征的单位和不具有该种特征的单位两部分,这个标志就是是非标志。•平均数的计算:把具有某种特征的用“1”表示,不具有该种特征的用“0”表示。是非标志x单位数f比重10合计N10N1NffpNN1qNN0PNN0N1fxfx01是加权平均数(权数对平均数的影响)甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(X):020100人数分布(F):118乙组:考试成绩(X):020100人数分布(F):811X甲0×1+20×1+100×8n10i=1Xi82(分)X乙0×8+20×1+100×1n10i=1Xi12(分)平均数(数学性质)1.各变量值与均值的离差之和等于零2.各变量值与均值的离差平方和最小1()0niiXX21()minniiXX性质(3、4)•3、给每个变量值增加或减少一个任意数A,则算术平均数也相应增增加或减少这个任意数A。•4、给每个变量值乘以或除以一个任意数A,则算术平均数也相应扩大或缩小A倍。AxnAxAxffAxxAnAxxA1nAxxAfAxfxA1ffAx2.调和平均数(1)概念:调和平均数又称倒数平均数,是
本文标题:统计学数据的概括性度量
链接地址:https://www.777doc.com/doc-2064578 .html