您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 实验五数据的统计分析
实验五(2)数据的统计分析现实生活中的许多数据都是随机产生的,如考试分数、月降雨量、灯泡寿命等。从数理统计角度来看,这些数据其实都是符合某种分布的,这种规律就是统计规律。本实验主要通过对概率密度函数曲线的直观认识和数据分布的形态猜测,以及密度函数的参数估计,进行简单的正态假设检验,揭示日常生活中随机数据的一些统计规律。问题背景和实验目的Matlab相关命令介绍pdf概率密度函数y=pdf(name,x,A)y=pdf(name,x,A,B)或y=pdf(name,x,A,B,C)返回由name指定的单参数分布的概率密度,x为样本数据name用来指定分布类型,其取值可以是:'beta'、'bino'、'chi2'、'exp'、'ev'、'f'、'gam'、'gev'、'gp'、'geo'、'hyge'、'logn'、'nbin'、'ncf'、'nct'、'ncx2'、'norm'、'poiss'、'rayl'、't'、'unif'、'unid'、'wbl'。返回由name指定的双参数或三参数分布的概率密度Matlab相关命令介绍例:x=-8:0.1:8;y=pdf('norm',x,0,1);y1=pdf('norm',x,1,2);plot(x,y,x,y1,':')注:y=pdf('norm',x,0,1)y=normpdf(x,0,1)相类似地,y=pdf('beta',x,A,B)y=betapdf(x,A,B)y=pdf('bino,x,N,p)y=binopdf(x,N,p)…………Matlab相关命令介绍normfit正态分布中的参数估计[muhat,sigmahat,muci,sigmaci]=normfit(x,alpha)对样本数据x进行参数估计,并计算置信度为1-alpha的置信区间alpha可以省略,缺省值为0.05,即置信度为95%load从matlab数据文件中载入数据S=load('数据文件名')hist绘制给定数据的直方图hist(x,m)Matlab相关命令介绍table=tabulate(x)绘制频数表,返回值table中,第一列为x的值,第二列为该值出现的次数,最后一列包含每个值的百分比。ttest(x,m,alpha)假设检验函数。此函数对样本数据x进行显著性水平为alpha的t假设检验,以检验正态分布样本x(标准差未知)的均值是否为m。Matlab相关命令介绍normplot(x)统计绘图函数,进行正态分布检验。研究表明:如果数据是来自一个正态分布,则该线为一直线形态;如果它是来自其他分布,则为曲线形态。wblplot(x)统计绘图函数,进行Weibull分布检验。Matlab相关命令介绍其它函数cdf系列函数:累积分布函数inv系列函数:逆累积分布函数rnd系列函数:随机数发生函数stat系列函数:均值与方差函数例:p=normcdf(-2:2,0,1)x=norminv([0.0250.975],0,1)n=normrnd(0,1,[15])n=1:5;[m,v]=normstat(n'*n,n'*n)常见的概率分布二项式分布Binomialbino卡方分布Chisquarechi2指数分布ExponentialexpF分布Ff几何分布Geometricgeo正态分布Normalnorm泊松分布PoissonpoissT分布Tt均匀分布Uniformunif离散均匀分布DiscreteUniformunid连续分布:正态分布正态分布(连续分布)如果随机变量X的密度函数为:22X2e()2(1)fx0,x则称X服从正态分布。记做:2~(,)XN标准正态分布:N(0,1)正态分布也称高斯分布,是概率论中最重要的一个分布。如果一个变量是大量微小、独立的随机因素的叠加,那么它一定满足正态分布。如测量误差、产品质量、月降雨量等正态分布举例x=-8:0.1:8;y=normpdf(x,0,1);y1=normpdf(x,1,2);plot(x,y,x,y1,':')例:标准正态分布和非标准正态分布密度函数图形连续分布:均匀分布均匀分布(连续分布)如果随机变量X的密度函数为:则称X服从均匀分布。记做:~[,]XUab均匀分布在实际中经常使用,譬如一个半径为r的汽车轮胎,因为轮胎上的任一点接触地面的可能性是相同的,所以轮胎圆周接触地面的位置X是服从[0,2r]上的均匀分布。1)0,(,axbfxba其他均匀分布举例x=-10:0.01:10;r=1;y=unifpdf(x,0,2*pi*r);plot(x,y);连续分布:指数分布指数分布(连续分布)如果随机变量X的密度函数为:则称X服从参数为的指数分布。记做:~Exp()X在实际应用问题中,等待某特定事物发生所需要的时间往往服从指数分布。如某些元件的寿命;随机服务系统中的服务时间;动物的寿命等都常常假定服从指数分布。,00,0()xfxexx0指数分布具有无记忆性:{|}{}PXstXsPXt指数分布举例x=0:0.1:30;y=exppdf(x,4);plot(x,y)例:=4时的指数分布密度函数图离散分布:几何分布几何分布是一种常见的离散分布在贝努里实验中,每次试验成功的概率为p,设试验进行到第次才出现成功,则的分布满足:其右端项是几何级数的一般项,于是人们称它为几何分布。11kkpq1()1,2,kpqPkkx=0:30;y=geopdf(x,0.5);plot(x,y)例:p=0.5时的几何分布密度函数图离散分布:二项式分布二项式分布属于离散分布如果随机变量X的分布列为:则称这种分布为二项式分布。记做:~(,)Xbnp(1()0,1,,)knknppPXkkknx=0:50;y=binopdf(x,500,0.05);plot(x,y)例:n=500,p=0.05时的二项式分布密度函数图离散分布:Poisson分布泊松分布也属于离散分布,是1837年由发个数学家Poisson首次提出,其概率分布列为:记做:~()XP!()0,1,2,,0kPekkXk泊松分布是一种常用的离散分布,它与单位时间(或单位面积、单位产品等)上的计数过程相联系。如:单位时间内,电话总机接到用户呼唤次数;1平方米内,玻璃上的气泡数等。Poisson分布举例x=0:50;y=poisspdf(x,25);plot(x,y)例:=25时的泊松分布密度函数图离散分布:均匀分布如果随机变量X的分布列为:21()1,,,PXkknn则称这种分布为离散均匀分布。记做:~[1,2,,]XUnn=20;x=1:n;y=unidpdf(x,n);plot(x,y,'o-')例:n=20时的离散均匀分布密度函数图抽样分布:2分布设随机变量X1,X2,…,Xn相互独立,且同服从正态分布N(0,1),则称随机变量n2=X12+X22+…+Xn2服从自由度为n的2分布,记作,亦称随机变量n2为2变量。22~()nnx=0:0.1:20;y=chi2pdf(x,4);plot(x,y)例:n=4和n=10时的2分布密度函数图x=0:0.1:20;y=chi2pdf(x,10);plot(x,y)抽样分布:F分布设随机变量,且X与Y相互独立,则称随机变量22~(),~()XmYnx=0.01:0.1:8.01;y=fpdf(x,4,10);plot(x,y)例:F(4,10)的分布密度函数图//FXmYn为服从自由度(m,n)的F分布。记做:~(,)FFmn抽样分布:t分布设随机变量,且X与Y相互独立,则称随机变量2~(0,1),~()XNYnx=-6:0.01:6;y=tpdf(x,4);plot(x,y)例:t(4)的分布密度函数图/TXYn为服从自由度n的t分布。记做:~()Ttn频数直方图或频数表对于给定的数据集,假设它们满足以上十种分布之一,如何确定属于哪种分布?x=load('data1.txt');x=x(:);hist(x)例1:某次笔试的分数见data1.txt,试画出频数直方图绘制频数直方图,或列出频数表从图形上看,笔试成绩较为接近正态分布频数直方图或频数表x=load('data2.txt');x=x(:);hist(x)例2:某次上机考试的分数见data2.txt,试画出频数直方图从图形上看,上机考试成绩较为接近离散均匀分布x=load('data3.txt');x=x(:);hist(x)例3:上海1998年来的月降雨量的数据见data3.txt,试画出频数直方图从图形上看,月降雨量较为接近2分布频数直方图或频数表在重复数据较多的情况下,我们也可以利用Matlab自带的tabulate函数生成频数表,并以频数表的形式来发掘数据分布的规律。x=load('data4.txt');x=x(:);tabulate(x)hist(x)例4:给出数据data4.txt,试画出其直方图,并生成频数表频数直方图或频数表x=load('data5.txt');x=x(:);hist(x)fiugrehistfit(x)%加入较接近的正态分布密度曲线例5:现累积有100次刀具故障记录,当故障出现时该批刀具完成的零件数见data5.txt,试画出其直方图。从图形上看,较为接近正态分布参数估计当我们可以基本确定数据集X符合某种分布后,我们还需要确定这个分布的参数。由于正态分布情况发生的比较多,故我们主要考虑正态分布的情形。对于未知参数的估计,可分两种情况:点估计区间估计参数估计:点估计构造样本X与某个统计量有关的一个函数,作为该统计量的一个估计,称为点估计。Matlab统计工具箱中,一般采用最大似然估计法给出参数的点估计。泊松分布P()的最大似然估计是X指数分布Exp()的最大似然估计是1X点估计举例正态分布N(,2)中,最大似然估计是,2的最大似然估计是ˆX2211ˆniiXXnx=load('data1.txt');x=x(:);[mu,sigma]=normfit(x)例6:已知例1中的数据服从正态分布N(,2),试求其参数和的值。使用normfit函数参数估计:区间估计构造样本X与某个统计量有关的两个函数,作为该统计量的下限估计与上限估计,下限与上限构成一个区间,这个区间作为该统计量的估计,称为区间估计。Matlab统计工具箱中,一般也采用最大似然估计法给出参数的区间估计。区间估计举例x=load('data1.txt');x=x(:);[mu,sigma,muci,sigmaci]=normfit(x)例7:已知例1中的数据服从正态分布N(,2),试求出和2的置信度为95%的区间估计。x=load('data6.txt');x=x(:);[mu,sigma,muci,sigmaci]=normfit(x,0.01)例8:从自动机床加工的同类零件中抽取16件,测得长度值见data6.txt,已知零件长度服从正态分布N(,2),试求零件长度均值和标准差的置信度为99%的置信区间。假设检验对总体的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设,这就是假设检验问题。以正态假设检验为例,来说明假设检验的基本过程。正态假设检验正态假设检验的一般过程:假设检验:利用Matlab统计工具箱给出的常用的假设检验方法的函数ttest,进行显著性水平为alpha的t假设检验,以检验正态分布样本x(标准差未知)的均值是否为m。运行结果中,当h=1时,表示拒绝零假设;当h=0时,表示不能拒绝零假设。对比正
本文标题:实验五数据的统计分析
链接地址:https://www.777doc.com/doc-2531443 .html