您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > xin第3章 描述统计学Ⅱ :数值方法
应用统计学项目管理工程硕士学位课程1西安工程大学管理学院第3章描述统计学Ⅱ:数值方法西安工程大学管理学院2位置的度量——平均数zz3西安工程大学管理学院位置的度量——中位数z中位数(median):由小到大排序后,处于“中间位置”的数据。z如果是奇数个观测值时,中位数是中间那个数。z如果是偶数个观测值时,中位数是中间两个的平均值。西安工程大学管理学院4位置的度量——众数z众数(Mode):出现频率最高的那个样本值。z注:众数可能会有多个,适用于分类型和数量型数据。西安工程大学管理学院5均值、中位数和众数的比较z1)数据的分布是单峰对称时,三者重合;z2)偏斜分布时,相对于众数,中位数朝尾巴方向偏离了一些,均值偏离得更远;z3)一般情况下,中位数居中,众数和均值处在两边;z4)众数是最高峰对应的横坐标。西安工程大学管理学院6某商品价格西安工程大学管理学院7男生身高西安工程大学管理学院8男生身高西安工程大学管理学院9众数中位数均值10均值中位数众数歌手大赛z电视台举办业余歌手大赛,11名评委对某位歌手的评分分别是:z9.99.39.39.39.28.98.88.88.78.58.4z众数=9.3,中位数=8.9,均值=9.01z假定复赛还是这11名评委,给分是:z9.99.39.39.29.28.88.88.88.78.58.4z众数=8.8,中位数=8.8,均值=8.99西安工程大学管理学院11歌手大赛z再假定,工作人员粗心,将8.4写成了0.4,z则z众数=8.8,中位数=8.8,均值=8.26z均值对异常值敏感。西安工程大学管理学院12四分位数z第一四分位数(quartiles)把排序后的数据分成左右两部分,左边包含四分之一数据观测值,右边包含四分之三的数据观测值。第二四分位数处于观测值数目的中间位置(中位数)。第三四分位数(quartiles)把排序后的数据分成左右两部分,左边包含四分之三数据观测值,右边包含四分之一的数据观测值。西安工程大学管理学院1314第一四分位数的计算–将数据由小到大排列,记排列后的数据为–令:–其中表示向上取整,如。则第一四分位数就是,即约有1/4的数据比小,3/4的数据比大。如果i是整数,则第p百分位数是第i项和第i+1项的平均值。nxxx,,,21L⎥⎥⎤⎢⎢⎡×=ni10025⎡⎤⎡⎤⎡⎤55,61.5==ixixix15第三四分位数的计算–将数据由小到大排列,记排列后的数据为–令:–其中表示向上取整,如。则第一四分位数就是,即约有1/4的数据比大,3/4的数据比小。如果i是整数,则第p百分位数是第i项和第i+1项的平均值。nxxx,,,21L⎥⎥⎤⎢⎢⎡×=ni10075⎡⎤⎡⎤⎡⎤55,61.5==ixixix百分位数z第p百分位数把数据分成左右两部分,大约有p%的观测值比它小,而(1-p)%的观测值比它大。计算办法与四分位数类似。第25百分位数就是第一四分位数。西安工程大学管理学院1617百分位数的计算–将数据由小到大排列,记排列后的数据为–令:–其中表示向上取整,如。则第p百分位数就是。–如果i是整数,则第p百分位数是第i项和第i+1项的平均值。nxxx,,,21L⎥⎥⎤⎢⎢⎡×=npi100⎡⎤⎡⎤⎡⎤55,61.5==ix18例子z例2.8某班30名MBA学生的年龄按上升顺序排列如下表。请计算这组数据的众数、中数、平均数、第一四分位数和第三四分位数。z众数为27和28;分别出现5次z中位数为(27+28)/2=27.5z平均数为27.67z第一四分位数x8=26,第三四分位数为x23=30z极大值为32极小值为24z第10百分位数为25,第90百分位数为31242425252525262626262727272727282828282829293030303031313132计算机输出西安工程大学管理学院19变异程度的度量z极差(range):最大值与最小值之差。z四分位数间距(inter-quartilerange):是中间50%的数据的极差。z四分位数间距能够克服极端值的影响。西安工程大学管理学院20变异程度的度量:方差z总体方差(populationvariance)z样本方差(Samplevariance)z标准差(standarddeviation)z标准差系数(coefficientofvariance)西安工程大学管理学院21样本方差和样本标准差西安工程大学管理学院22总体方差和总体标准差西安工程大学管理学院23222)(σσμσ=−=∑总体标准差:总体方差:Nxi标准差系数CV西安工程大学管理学院24%100/×=xsCV几种变异程度度量的比较z极差:容易计算。但最不稳定,特别容易受极端值的影响。z四分位数间距:稳定性较弱,对极端值不敏感。z方差和标准差:计算时要用到全部数据,能比较合理地反映不同数据对离散度量的作用。容易受极端值的影响。z变异系数:比较两组或两组以上数据集的离散程度时,应采用无量度单位的变异系数CV。z注:描述样本数据的分布中心常用样本均值,描述样本数据的分布形状常用样本标准差。西安工程大学管理学院25分布形态:对称钟形西安工程大学管理学院26分布形态:向右偏西安工程大学管理学院27分布形态:向左偏西安工程大学管理学院28Z-分数z度量数据集中一个特定的数据距均值有多远,用标准差度量。西安工程大学管理学院29.样本标准差—样本均值;—分数;的是—式中,sxzxzsxxziiii−−=班级人数的例子z某大学5个班级组成一个样本,每个班的学生人数如下:z4654424632z计算离差、标准差、Z-分数z均值=44;方差=64;标准差=8.西安工程大学管理学院30班级人数:手工计算西安工程大学管理学院31班级人数:软件输出西安工程大学管理学院32标准误计算公式西安工程大学管理学院33样本个数标准差标准误==NσMeanofStd.Error班级人数z-分数西安工程大学管理学院34切比雪夫定理z对任何分布的数据,都有:z至少有75%的数据值与均值的距离在z=2个标准差之内。z至少有89%的数据值与均值的距离在z=3个标准差之内。z至少有94%的数据值与均值的距离在z=4个标准差之内。西安工程大学管理学院35经验法则z对于具有钟形分布的数据,有:z68.3%的数据与平均数的距离在1个标准差之内;z95.4%的数据与平均数的距离在2个标准差之内;z99.7%的数据与平均数的距离在3个标准差之内。西安工程大学管理学院36例子z某校同学的身高为钟形分布,平均值为170cm,标准差为10cm。问:z1)高于平均数1.5个标准差的同学身高是多少?z2)162cm身高的同学距平均数有几个标准差?z3)75%的同学身高会在什么范围内?西安工程大学管理学院37例子z解1:Xi≥170+1.5*10=185cmz解2:Z=(162-170)/10=-0.8;z解3:xi=x-z*s=170-2*10=150zxi=x+z*s=170+2*10=190(150~190)z因为“至少有75%的数据值与均值的距离在z=2个标准差之内。”西安工程大学管理学院38切比雪夫定理_一般表述z与平均数的距离在z个标准差之内的数据z值所占比例至少为(),其中z是z大于1的任意实数。西安工程大学管理学院39211z−考试成绩z假定有100名大学生的统计学课程考试成绩的平均分是70分,标准差为5分。那么有多少学生的考试成绩在58-82分?z(58-70)/5=-2.4,(82-70)/5=2.4,这样z=2.4,z于是,z结论:至少有82.6%的成绩在58-82之间。西安工程大学管理学院40826.0)4.211()11(22=−=−z检测异常值z用z-分数检测异常值。根据钟形分布的经验法则,将z-分数大于3和小于-3的观察值视为异常值。西安工程大学管理学院41探索性数据分析:五数概括法z用5个数来汇总数据:z1)最小值z2)第一四分位数z3)中位数z4)第三四分位数z5)最大值z这5个数把变量的所有观测值分成4部分。西安工程大学管理学院42箱形图(boxplot)z用矩形表示箱体,左右边分别代表第一、第三四分位数;矩形中间画一条线,代表中位数;箱体左边向左画一条线,到最左边,代表四分位数间距的1.5倍的位置,右边也一样。左右两条横线叫触须线。z箱形图也可以检测异常值。西安工程大学管理学院43箱形图西安工程大学管理学院44四分位数间距IQR第一四分位数第三四分位数1.5IQR1.5IQR中位数数据轴(按上升排列)商学院毕业生起始月薪(美元)西安工程大学管理学院45月薪的五数概括西安工程大学管理学院46月薪的箱形图西安工程大学管理学院47两变量间关系的度量:协方差z假定有两个变量和的观测数据:z这两个变量的样本协方差定义为:西安工程大学管理学院48),).......(,(),,(),,(332211nnyxyxyxyx1))((−−−=∑nyyxxsiixyxy总体协方差定义西安工程大学管理学院49Nyxyixixy∑−−=))((μμσ总体协方差的解释:音响店西安工程大学管理学院503=x51=yⅠⅡⅢⅣ相关系数z皮尔逊样本相关系数的定义:西安工程大学管理学院51的样本标准差表示的样本标准差表示ysxssssryxyxxyxy=总体相关系数的定义西安工程大学管理学院52的总体标准差表示的总体标准差;表示yxyxyxxyxyσσσσσρ=加权平均数:需要加权的例子z以下是过去3个月购买5批次原材料的样本。z价格的平均数就要用数量做权重。西安工程大学管理学院53加权平均数的计算公式西安工程大学管理学院54∑∑=iiiwxwx原材料加权平均数的计算西安工程大学管理学院55分组数据z有时候得到的是分组数据,那么求均值和样本方差就要利用加权公式。西安工程大学管理学院56分组数据计算样本方差西安工程大学管理学院571)(22−−=∑nxMfsii计算机输出西安工程大学管理学院58
本文标题:xin第3章 描述统计学Ⅱ :数值方法
链接地址:https://www.777doc.com/doc-6123678 .html