您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第12讲 数据的统计分析与描述
2020/4/261数据的统计描述和分析实验目的实验内容2、掌握用数学软件包求解统计问题。1、直观了解统计基本内容。1、统计的基本理论。3、实验作业。2、用数学软件包求解统计问题。2020/4/263统计的基本概念参数估计假设检验数据的统计描述和分析2020/4/2641、表示位置的统计量—平均值和中位数平均值(或均值,数学期望):niiXnX11中位数:将数据由小到大排序后位于中间位置的那个数值.2、表示变异程度的统计量—标准差、方差和极差标准差:2112])(11[niiXXns它是各个数据与均值偏离程度的度量.方差:标准差的平方.极差:样本中最大值与最小值之差.一、统计量2020/4/2653.表示分布形状的统计量—偏度和峰度偏度:niiXXsg1331)(1峰度:niiXXsg1442)(1偏度反映分布的对称性,g10称为右偏态,此时数据位于均值右边的比位于左边的多;g10称为左偏态,情况相反;而g1接近0则可认为分布是对称的.峰度是分布形状的另一种度量,正态分布的峰度为3,若g2比3大很多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据,因而峰度可用作衡量偏离正态分布的尺度之一.4.k阶原点矩:nikikXnV11k阶中心矩:nikikXXnU1)(12020/4/266二、分布函数的近似求法1、整理资料:把样本值x1,x2,…,xn进行分组,先将它们依大小次序排列,得**2*1nxxx.在包含],[**1nxx的区间[a,b]内插入一些等分点:,''2'1bxxxan注意要使每一个区间],('1'iixx(i=1,2,…,n-1)内都有样本观测值xi(i=1,2,…,n-1)落入其中.2、求出各组的频数和频率:统计出样本观测值在每个区间],('1'iixx中出现的次数in,它就是这区间或这组的频数.计算频率nnfii.3、作频率直方图:在直角坐标系的横轴上,标出''2'1,,,nxxx各点,分别以],('1'iixx为底边,作高为'iixf的矩形,1,,2,1,''1'nixxxiii,即得频率直方图.2020/4/267三、几个在统计中常用的概率分布-4-2024600.050.10.150.20.250.30.350.41.正态分布),(2smN密度函数:222)(21)(smspxexp分布函数:dyexFyx222)(21)(smsp其中m为均值,2s为方差,x.标准正态分布:N(0,1)密度函数2221)(xexpjdyexyx2221)(Fp,分布函数2020/4/2680510152000.020.040.060.080.10.120.140.162、2分布2(n)若随机变量X1,X2,…Xn相互独立,都服从标准正态分布N(0,1),则随机变量Y=22221nXXX服从自由度为n的2分布,记为Y~2(n).Y的均值为n,方差为2n.2020/4/2693、t分布t(n)若X~N(0,1),Y~2(n),且相互独立,则随机变量nYXT服从自由度为n的t分布,记为T~t(n).t分布t(20)的密度函数曲线和N(0,1)的曲线形状相似.理论上n时,T~t(n)N(0,1).-6-4-2024600.050.10.150.20.250.30.350.42020/4/26104.F分布F(n1,n2)若X~2(n1),Y~2(n2),且相互独立,则随机变量21nYnXF服从自由度为(n1,n2)的F分布,记作F~F(n1,n2).由F分布的定义可以得到F分布的一个重要性质:若F~F(n1,n2),则),(~112nnFF00.511.522.5300.10.20.30.40.50.60.70.80.91返回F分布F(10,50)的密度函数曲线2020/4/2611无论总体X的分布函数F(x;k,,,21)的类型已知或未知,我们总是需要去估计某些未知参数或数字特征,这就是参数估计问题.即参数估计就是从样本(X1,X2,…,Xn)出发,构造一些统计量(ˆiX1,X2,…,Xn)(i=1,2,…,k)去估计总体X中的某些参数(或数字特征)i(i=1,2,…,k).这样的统计量称为估计量.1.点估计:构造(X1,X2,…,Xn)的函数(ˆiX1,X2,…,Xn)作为参数i的点估计量,称统计量iˆ为总体X参数i的点估计量.2.区间估计:构造两个函数(1iX1,X2,…,Xn)和(2iX1,X2,…,Xn)做成区间,把这(21,ii)作为参数i的区间估计.2020/4/2612一、点估计的求法(一)矩估计法假设总体分布中共含有k个参数,它们往往是一些原点矩或一些原点矩的函数,例如,数学期望是一阶原点矩,方差是二阶原点矩与一阶原点矩平方之差等.因此,要想估计总体的某些参数i(i=1,2,…k),由于k个参数一定可以表为不超过k阶原点矩的函数,很自然就会想到用样本的r阶原点矩去估计总体相应的r阶原点矩,用样本的一些原点矩的函数去估计总体的相应的一些原点矩的函数,再将k个参数反解出来,从而求出各个参数的估计值.这就是矩估计法,它是最简单的一种参数估计法.2020/4/2613(二)极大似然估计法极大似然法的想法是:若抽样的结果得到样本观测值x1,x2,…,xn,则我们应当这样选取参数i的值,使这组样本观测值出现的可能性最大.即构造似然函数:)()()(),,,(),,,(2211221121nnnnkxXPxXPxXPxXxXxXPL),,(),,(),,,(),,(1111211kniiknkkxpxpxpxp使),,(1kL达到最大,从而得到参数i的估计值iˆ.此估计值叫极大似然估计值.函数),,(1kL称为似然函数.求极大似然估计值的问题,就是求似然函数),,(1kL的最大值的问题,则0iLki,,2,1即0iLnLki,,2,12020/4/2614设总体X的分布中含有未知参数,若对于给定的概率1(10),存在两个统计量(ˆ1X1,X2,…,Xn)和(ˆ2X1,X2,…,Xn),使得1)ˆˆ(21P则称随机区间()ˆ,ˆ21为参数的置信水平为1的置信区间,1ˆ称为置信下限,2ˆ称为置信上限.二、区间估计的求法2020/4/2615设样本(X1,X2,…,Xn)来自正态母体X,已知方差2sDX,EX在置信水平1-下的置信区间为],[2121nuXnuXss.1、已知DX,求EX的置信区间2.未知方差DX,求EX的置信区间EX在置信水平1-下的置信区间为],[2121nstXnstX.(一)数学期望的置信区间(二)方差的区间估计DX在置信水平1-下的置信区间为])1(,)1([2222212snsn.返回2020/4/26161.参数检验:如果观测的分布函数类型已知,这时构造出的统计量依赖于总体的分布函数,这种检验称为参数检验.参数检验的目的往往是对总体的参数及其有关性质作出明确的判断.对总体X的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设.2.非参数检验:如果所检验的假设并非是对某个参数作出明确的判断,因而必须要求构造出的检验统计量的分布函数不依赖于观测值的分布函数类型,这种检验叫非参数检验.如要求判断总体分布类型的检验就是非参数检验.2020/4/2617假设检验的一般步骤是:1.根据实际问题提出原假设H0与备择假设H1,即说明需要检验的假设的具体内容;2.选择适当的统计量,并在原假设H0成立的条件下确定该统计量的分布;3.按问题的具体要求,选取适当的显著性水平,并根据统计量的分布查表,确定对应于的临界值.一般取0.05,0.01或0.104.根据样本观测值计算统计量的观测值,并与临界值进行比较,从而在检验水平条件下对拒绝或接受原假设H0作出判断.2020/4/2618(一)单个正态总体均值检验一、参数检验设取出一容量为n的样本,得到均值X和标准差s,现要对总体均值m是否等于某给定值0m进行检验.记00:mmH;01:mmH称H0为原假设,H1为备择假设,两者择其一:接受H0;拒绝H0,即接受H1.2020/4/2619用u检验,检验的拒绝域为}{21uzW即}{2121uzuzW或用样本方差2s代替总体方差2s,这种检验叫t检验.总体方差2s已知统计量z=nXsm0总体方差2s未知统计量tnsX0mH0H1在显著水平下拒绝H0,若Ⅰ0mm0mm21uz)1(21nttⅡ0mm0mm1uz)1(1nttⅢ0mm0mm1uz)1(1ntt1、总体方差2s已知2.总体方差2s未知2020/4/2620(二)单个正态总体方差检验设X1,X2,…,Xn是来自正态总体),(2smN的样本,欲检验假设:2020:ssH2021:ssH(或202ss或202ss)这叫2检验.均值m已知统计量212202)(1msniiX均值m未知统计量212202)(1XXniisH0H1在显著水平下拒绝H0,若Ⅰ202ss202ss)(222n或)(2212n)1(222n或)1(2212nⅡ202ss202ss)(212n)1(212nⅢ202ss202ss)(22n)1(22n(三)两个正态总体均值检验构造统计量222121nnYXzss.1、21s与22s已知时2、21s与22s未知但相等时构造统计量212121222211)2()1()1(nnnnnnsnsnYXt,方差2221,ss已知统计量z方差2221,ss未知但相等统计量tH0H1在显著水平下拒绝H0,若Ⅰ21mm21mm21uz)2(2121nnttⅡ21mm21mm1uz)2(211nnttⅢ21mm21mm1uz)2(211nntt(四)两个正态总体方差检验设样本X1,X2,…,Xn1与Y1,Y2,…,Yn2分别来自正态总体),(211smN与),(222smN,检验假设:22210:ssH22211:ssH(或2221ss或2221ss)均值21,mm已知统计量0F均值21,mm未知统计量FH0H1在显著水平下拒绝H0,若Ⅰ2221ss2221ss),(21210nnFF或),(112210nnFF)1,1(2121nnFF或)1,1(11221nnFFⅡ2221ss2221ss),(2110nnFF)1,1(211nnFFⅢ2221ss2221ss),(11210nnFF)1,1(1121nnFF21122212110)(1)(1niiniiYnXnFmm,2221ssF(设2221ss)2020/4/2623(一)皮尔逊2拟合检验法二、非参数检验(二)概率纸检验法概率纸是一种判断总体分布的简便工具.使用它们,可以很快地判断总体分布的类型.概率纸的种类很多.如果一个总体的分布F(X)是正态的,则(x,F(x))点在正态概率纸上应呈一条直线.设X1,X2,…,Xn是从正态总体中抽得的样本观测值,将它们按大小排列后,记作X(1)X(2)…X(n).则当n较大时,样本的经验分布函数Fn(x)和理论分布F(x)很接近.因此,如果用(x,F(x))画图,则必应近
本文标题:第12讲 数据的统计分析与描述
链接地址:https://www.777doc.com/doc-5058232 .html