您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 统计学PPT第二章:描述
本章重点尺度形态分位数箱线图位置詹姆斯312527381913211923332829363222312538262522493725612436182718352829152030322428352522384331343230352525223424331830252226731172142271517212532303219222926241317263213233630262130222717173734332139杜兰特3132254342293037182825253827282654333038313327513731363436242536273528263729292015262335422633243333281538302833301727333930282938414832323727362842433221302523403331273636482824333642293441462431191342詹姆斯020406080100102030405060nojames杜兰特02040608010020304050nodurant詹姆斯jamesFrequency01020304050600510152025分布形态jamesDensity1020304050600.000.010.020.030.040.05钟型分布(bellshaped)钟型分布中间观测值分布多,越往两侧分布越少。因其形状像钟而得名。根据分布的对称性,钟型分布又可分为对称分布、左偏分布和右偏分布对称分布(symmetry)对称分布左偏(leftskewed)左偏右偏(rightskewed)右偏正态分布(normaldistribution)也叫高斯分布(gaussiandistribution)是一种完美的、对称的钟型分布,可以用函数精确地表达出来实践中大量的变量逼近正态分布,换而言之,一个变量大约成正态分布才是正常(normal)的杜兰特durantFrequency0102030405060051015202530对比jamesFrequency0102030405060010203040durantFrequency0102030405060010203040双直方图(bi-histogram)30201001020305.000000020.000000035.000000050.000000065.0000000jamesdurant对比jamesFrequency0102030405060010203040durantFrequency0102030405060010203040garnettFrequency0102030405060010203040描述位置(location):中心(center)尺度(scale):差异(variability)或离散(spread)形态(shape)第一节位置均值(mean)众数(mode)中位数(median)分位数(quantile)均值nxx观测值之和除以观测值数目62.31,13.27djxx中位数中间位置上的数•观测值从小到大排列•中间位置:(n-1)/2+1中位数排序:中间位置:(n-1)/2+1=(101-1)/2+1=51中位数:3131~,26~djxx众数分布次数(频数)最多的观测值•次数分布•找到分布最多的观测值众数不一定存在,也不一定唯一事实上,连续型变量很难精确地找到众数众数位置分布02468jamesfrequency7131720232629323538424961众数位置:最多分布为9众数:3333,25djxx分位数q分位数:观测值从小到大排序后,q等分,处于分界点上的数•二分位数(中位数)•三分位数(tertiles)•四分位数(quartiles)•五分位数(quintiles)•六分位数(sextiles)•十分位数(deciles)•十二分位数(duo-deciles)•二十分位数(vigintiles)•百分位数(percentiles)•千分位数(permilles)四分位数观测值按大小顺序排列后,均分为四部分,处于分界点上的数•2/4位置:中位数•1/4位置:下四分位数•3/4位置:上四分位数四分位数詹姆斯:杜兰特:32,22ulQQ36,27ulQQ月薪从某公司随机抽取13位职工,调查他们的月薪如下:2000260035001800250048002800300022003300520046004000四分位数位置176543213121110984710十分位数位置176543213121110982.23.44.65.878.29.410.611.8分位数位置第k个q分位数的位置:11qnkqk,,2,1,0位置汇总均值:27.13中位数:26众数:25下四分位数:22上四分位数:32均值:31.62中位数:31众数:33下四分位数:27上四分位数:36练习求30家经销商销量均值、中位数、众数、四分位数、十分位数524854614736515843396947496843475954684653342820384173475178第二节尺度绝对平均差(averageabsolutedeviation)方差(variance)标准差(standarddeviation)全距(range)四分位距(inter-quartilerange)绝对中位差(medianabsolutedeviation)散点图020406080100102030405060nojames均值差异(离散)020406080100noscorex27.16121824303642485460中心化(centering)xxx中心化020406080100-20-100102030nojamesc合计0xx2x合计不为0绝对值0204060801000102030noabs(jamesc)绝对平均差nxnxxAAD96.5,31.6djAADAAD平方020406080100-20002004006008001000nojamesc^2方差11222nxnxxs0.59,3.6722dssj自由度计算样本方差时应除以n-1,而不是n122nxxs这里n-1叫自由度(degreeoffreedom),表示样本可自由取值的数目自由度?如果某班只有1位学生,身高为172如果从某班抽取1位学生调查其身高为172122nxxsNXX1N1n1172172nxx1172172111721722?NXX22117217220总体无差异无法获知总体差异标准差2ss68.7,20.8djss变异系数(coefficientofvariation)xsv243.0,302.0djvv标准差只能度量绝对差异,而不能度量相对差异变异系数全距)min()max(xxR41,54djRR四分位距luQQIQR9,10djIQRIQR绝对中位差)~(xxmedianMAD5,5djMADMAD尺度汇总绝对平均差:6.31方差:67.3标准差:8.20变异系数:0.302全距:54四分位距:10绝对中位差:5绝对平均差:5.96方差:59.0标准差:7.68变异系数:0.243全距:41四分位距:9绝对中位差:5总体均值和方差为总体单位数其中NNxNxNiiNii,1221sxˆ,ˆ假设知道总体的数据,则可计算总体均值和方差因为总体是唯一的,总体均值和方差也是唯一的,故也称总体参数(parameter)实际中只能用样本均值和方差去估计总体练习求10家经销商销量的绝对平均差、方差、标准差、变异系数、全距、四分位距、绝对中位差52485461483651584339极端值(extremes)也叫离群值(outliers),指明显偏离主体数据的值。极端值应给予特别关注:•观测错误•特殊情况判定3倍标准差1.5倍四分位距准则极小值极大值3x33标准化(无尺度化)极小值极大值sxxx*033准则极小值极大值IQR5.1xIQR5.1lQuQIQR5.1讨论判断30家经销商销量的极端值52485461473651584339694749684347595468160533428103841734751278月薪正常数据有极大值数据incomeFrequency020006000100000510152025incomeFrequency0100003000050000051015202530右偏正常右偏月薪正常数据有极小值数据incomeFrequency35000450005500065000051015incomeFrequency02000040000600000510152025左偏正常左偏月薪正常数据既有极大值,又有极小值数据incomeFrequency35000450005500065000051015incomeFrequency0400008000012000001020304050尖峰(厚尾)正常尖峰(厚尾)销量正常数据有极大值数据位置描述均值:50.1中位数:48.5众数:47均值:63.9中位数:50众数:47正常极大值尺度描述正常极大值绝对平均差:9.87方差:171.4标准差:13.1变异系数:0.26全距:58四分位距:10绝对中位差:6.5绝对平均差:28.85方差:5768.5标准差:76.0变异系数:1.19全距:440四分位距:10绝对中位差:8.5稳健(robust)诸如中位数、四分位距、绝对中位差的只受主体数据影响不受极端值影响的统计量成为稳健统计量稳健统计量意味着缺乏敏感性调整均值中间均值(mid-mean):用25%——75%分位数之间的数据计算均值切尾均值(trimmedmean):用5%——95%分位数之间的数据计算均值缩尾均值(winsorizedmean):将5%分位数之前的数据替为5%分位数,95%之后的数据替为95%分位数,再计算均值讨论求30家经销商销量均值、中间均值、切尾均值、缩尾均值5248546147365158433969474968434759546846053342820384173475178第三节形态偏度(skewness)峰度(kurtosis)中心化数据(一次方)020406080100-20-100102030nojamesc二次方02040608010002004006008001000nojamesc^2三次方020406080100-10000010000200003000040000nojamesc^3四次方02040608010002000006000001000000nojamesc^4汇总图020406080100-20-100102030nojamesc02040608010002006001000nojamesc^2020406080100-1000001000030000nojamesc^302040608010004000001000000nojamesc^4中心矩(centralmoment)二阶中心矩即为方差三阶中心矩可度量偏度四阶中心矩可度量峰度),4,3,2,1(;1)(knxxmkk偏度标准化(无尺度化)三阶中心矩偏度大于0为右偏,小于0为左偏33smsk峰度标准化(无尺度化)四阶中心矩正态分布的峰度为3,因此峰度大于3为尖峰(厚尾),小于3为平峰(薄尾)。超额峰度(excesskurtosis):44mkus443mkus形态偏度:0.705峰度
本文标题:统计学PPT第二章:描述
链接地址:https://www.777doc.com/doc-4222834 .html