您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第10讲 数据的统计分析与描述
数学建模与数学实验数据的统计描述和分析统计的基本概念参数估计假设检验数据的统计描述和分析一、统计量1.表示位置的统计量—平均值和中位数.平均值(或均值,数学期望):niiXnX11中位数:将数据由小到大排序后位于中间位置的那个数值.2.表示变异程度的统计量—标准差、方差和极差.标准差:2112])(11[niiXXns它是各个数据与均值偏离程度的度量.方差:标准差的平方.极差:样本中最大值与最小值之差.2020/1/264几种分布的数学期望和方差:正态分布N(u,σ^2):E(x)=uD(x)=σ^2泊松分布:E(x)=D(x)=均匀分布X~U(a,b):E(x)=a+b/2D(x)=二项分布X~b(n,p):E(x)=npD(x)=np(1-p))(~X122)^(ab3.表示分布形状的统计量—偏度和峰度偏度:niiXXsg1331)(1峰度:niiXXsg1442)(1偏度反映分布的对称性,g10称为右偏态,此时数据位于均值右边的比位于左边的多;g10称为左偏态,情况相反;而g1接近0则可认为分布是对称的.峰度是分布形状的另一种度量,正态分布的峰度为3,若g2比3大很多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据,因而峰度可用作衡量偏离正态分布的尺度之一.4.k阶原点矩:nikikXnV11k阶中心矩:nikikXXnU1)(1二、分布函数的近似求法直方图法:1.整理资料:把样本值x1,x2,…,xn进行分组,先将它们依大小次序排列,得**2*1nxxx.在包含],[**1nxx的区间[a,b]内插入一些等分点:,''2'1bxxxan注意要使每一个区间],('1'iixx(i=1,2,…,n-1)内都有样本观测值xi(i=1,2,…,n-1)落入其中.2.求出各组的频数和频率:统计出样本观测值在每个区间],('1'iixx中出现的次数in,它就是这区间或这组的频数.计算频率nnfii.3.作频率直方图:在直角坐标系的横轴上,标出''2'1,,,nxxx各点,分别以],('1'iixx为底边,作高为'iixf的矩形,1,,2,1,''1'nixxxiii,即得频率直方图.2020/1/267例:下面给出了84个伊特斯坎人男子的头颅的最大宽度(mm),现在来画这些数据的”频率直方图”.1411481321381541421501461551581501401471481441501491451491581431411441441261401441421411401451351471461411361401461421371481541371391431401311431411491481351481521431441411431471461501321421421431531491461491381421491421371341441461471401421401371521452020/1/268解:这些数据杂乱无章,按第一个步骤先要将它们进行整理.这些数据的最小值,最大值分别为126,158,即所有数据落在区间[126,158]上,现取区间[124.5,159.5],它能覆盖区间[124.5,159.5]等分为7个小区间,小区间的长度记为△,△=(159.5-124.5)/7=5.△成为组距,小区间的端点称为组限.数出落在每个小区间内的数据的频数fi,算出频率fi/n(n=84,i=1,2…..,7)如下表2020/1/269组限124.5~129.5129.5~134.5134.5~139.5139.5~144.5144.5~149.5149.5~154.5154.5~159.5频数fi1410332493频率fi/n0.01190.04760.11910.39290.28570.10710.0357累积频率0.01190.05950.17850.57150.85720.952412020/1/2610现在自左向右依次在各个小区间上以(fi/n)/△为高的小矩形.显然这种小矩形的面积就等于数据落在该小区间的频率fi/n.由于当n很大时该频率接近于概率因而一般来说每个小区间上的小矩形面积接近于概率密度曲线之下该小区间之上的曲边梯形的面积于是一般来说直方图的外轮廓曲线接近于总体X的概率密度曲线从本例的直方图看(图1),它有一个峰,中间高,两头底,比较对称.看起来样本很像来自某一正态总体X.从直方图上还可以估计X落在某一区间的概率,例如从图上看到有51.2%的人最大头颅宽度落在区间(134.5,144.5)之内,最大头颅宽度小于129.5的仅占1.1%等等.图1三、几个在统计中常用的概率分布-4-2024600.050.10.150.20.250.30.350.41.正态分布),(2smN密度函数:222)(21)(smsxexp分布函数:dyexFyx222)(21)(sms其中m为均值,2s为方差,x.标准正态分布:N(0,1)密度函数2221)(xexjdyexyx2221)(F分布函数0510152000.020.040.060.080.10.120.140.162.2分布2(n)若随机变量X1,X2,…,Xn相互独立,都服从标准正态分布N(0,1),则随机变量Y=22221nXXX服从自由度为n的2分布,记为Y~2(n).Y的均值为n,方差为2n.2分布具有以下性质(1设2~2(n),则E(2)=n,D(2)2n.(2(2分布的可加性)设~),(~2222121XnX)n(22,21,22X相互独立,则)(~2121222nn3.t分布t(n)若X~N(0,1),Y~2(n),且相互独立,则随机变量nYXT服从自由度为n的t分布,记为T~t(n).t(20)分布的密度函数曲线和N(0,1)的曲线形状相似.理论上n时,T~t(n)N(0,1).-6-4-2024600.050.10.150.20.250.30.350.44.F分布F(n1,n2)若X~2(n1),Y~2(n2),且相互独立,则随机变量21nYnXF服从自由度为(n1,n2)的F分布,记作F~F(n1,n2).由F分布的定义可以得到F分布的一个重要性质:若F~F(n1,n2),则),(~112nnFF00.511.522.5300.10.20.30.40.50.60.70.80.91返回F(10,50)分布的密度函数曲线无论总体X的分布函数F(x;k,,,21)的类型已知或未知,我们总是需要去估计某些未知参数或数字特征,这就是参数估计问题.即参数估计就是从样本(X1,X2,…,Xn)出发,构造一些统计量(ˆiX1,X2,…,Xn)(i=1,2,…,k)去估计总体X中的某些参数(或数字特征)i(i=1,2,…,k).这样的统计量称为估计量.1.点估计:构造(X1,X2,…,Xn)的函数(ˆiX1,X2,…,Xn)作为参数i的点估计量,称统计量iˆ为总体X参数i的点估计量.2.区间估计:构造两个函数(1iX1,X2,…,Xn)和(2iX1,X2,…,Xn),把(21,ii)作为参数i的区间估计.一、点估计的求法(一)矩估计法假设总体分布中共含有k个参数,他们往往是一些原点矩或一些原点矩的函数,例如,数数学学期期望望是是一一阶阶原原点点矩矩....................,方方差差是是二二阶阶原原点点矩矩与与一一阶阶原原点点矩矩平平方方之之差差等等.......................................因此,要想估计总体的某些参数i(i=1,2,…,k),由于k个参数一定可以表为不超过k阶原点矩的函数,很自然就会想到用样本的r阶原点矩去估计总体的r阶原点矩,用样本的一些原点矩的函数去估计总体的相应的一些原点矩的函数,再将k个参数反解出来,从而求出各个参数的估计值.这就是矩估计法,它是最简单的一种参数估计法.2020/1/2617样本k阶原点矩nikikXnV11总体k阶原点矩)(kkXE基本思想是用样本矩代替总体矩.样本k阶中心矩nikikXXnU1)(1总体k阶中心矩kEXXE)(2020/1/2618矩估计法的步骤(1)计算总体X的r阶原点矩E(Xr),并记E(Xr)=gr(θ1,θ2,…,θk)(r=1,2,…,k);(2)用样本r阶原点矩替换总体r阶原点矩,列出方程组:,1),...,,(............,1),...,,(,1),...,,(121122121211nikkknikniikiiXngXngXng2020/1/2619(3)解方程组,得θr=hr(X1,X2,…,Xn)(r=1,2,…,k);则以hr(X1,X2,…,Xn)作为θr的估计量,并称hr(X1,X2,…,Xn)为θr的矩法估计量,而称hr(x1,x2,…,xn)为θr的矩法估计值。2020/1/2620例1.设总体X~N(μ,σ2),其中μ,σ2是未知参数。试求μ,σ2的矩估计量。解:因为总体X的分布中有两个未知参数,所以应该考虑一,二阶原点距.V1=E(X)=μ,V2=E(X2)=D(X)+[E(X)]2=σ2+u2.niiniiXnXEXXnXE1222211)(1)(msm212211)(1ˆˆSnnXXnnXXXniinsm总体期望、方差的矩估计量分别是样本均值和样本二阶中心矩。2020/1/2621当总体只含一个未知参数时,用方程XXE)(即可解出未知参数的估计量;当总体只含两个未知参数时,用方程组21)()(SnnXDXXE即可解出未知参数的估计量。2020/1/2622练习:设总体X~b(n,p),其中n已知。试求p的矩估计量。2020/1/2623解:E(X)=np.XXnnpXEnii11)(nXpˆ(二)极大似然估计法极大似然法的想法是:若抽样的结果得到样本观测值x1,x2,…,xn,则我们应当选取参数i的值,使这组样本观测值出现的可能性最大.即构造似然函数:)()()(),,,(),,,(2211221121nnnnkxXPxXPxXPxXxXxXPL1121111(,,,)(,,,)(,,,)(,,,)nkknkikipxpxpxpx使),,(1kL达到最大,从而得到参数i的估计值iˆ.此估计值称为极大似然估计值.函数),,(1kL称为似然函数.求极大似然估计值的问题,就是求似然函数),,(1kL的最大值问题,则0iLki,,2,1即ln0iLki,,2,12020/1/2625求极大似然估计量的步骤:(1)根据f(x;Ө),写出似然函数niixfL1);()((2)对似然函数取对数niixfL1);(ln)(ln(3)写出方程0lnL若方程有解,求出L(Ө)的最大值点),...,,(ˆ21nxxx。XXXn的极大似然估计量即为于是),...,,(ˆˆ212020/1/2626例4设总体X的概率密度为x1,x2,…,xn为样本观测值,求未知参数(0)的极大似然估计量.解似然函数为取对数得:对求导得:的极大似然估计值为xxnndLd1ˆ0lnX1ˆ极大似然估计量为0,00,),(xxexfx2020/1/2627二、估计量的评价标准任何统计量都可以作为未知参数的估计量。到底采用哪个估计量好呢?确定估计量好坏必须在大量观察的基础上从统计的意义来评价。2020/1/2628常用的几条
本文标题:第10讲 数据的统计分析与描述
链接地址:https://www.777doc.com/doc-3323511 .html