您好,欢迎访问三七文档
当前位置:首页 > 高等教育 > 大学课件 > 概率论样本描述参数估计假设检验方差分析
《数学实验》7概率论方差分析假设检验参数估计样本描述利用MATLAB统计工具箱,可以进行基本概论和数理统计分析,以及进行比较复杂的多元统计分析。7.1概率论2/257.1.1分布率和概率密度函数(P132表7-1)以正态分布为例,用normpdf函数计算其概率密度函数,调用格式为:Y=normpdf(X,MU,SIGMA)计算数据X中各值处参数为MU和SIGMA的正态概率密度函数的值。其中参数SIGMA必须为正。[例7-1]计算参数为mu和1的正态分布概率密度函数在1.5处的值,其中mu为1到2之间以0.2为间隔的小数。3/25mu=[0:0.2:2];y=normpdf(1.5,mu,1)7.1.2分布函数若X为随机变量,x为任意实数,则函数(){}FxpXx为X的分布函数。如果知道X的分布函数,就可以知道落在任一区间(x1,x2)上的概率。y=0.12950.17140.21790.26610.31230.35210.38140.39700.39700.38140.3521用normcdf函数计算正态分布的分布函数,调用格式为:计算参数为MU和SIGMA的正态分布分布函数在数据X中每个值处的值。其中参数SIGMA必须为正。4/25p=normcdf(X,MU,SIGMA)[例7-2]求标准正态分布的一个观察量落在区间[-11]中的值。p=normcdf([-1,1]);p(2)-p(1)ans=0.6872[M,V]=binostat(N,P)[M,V]=expstat(MU)[M,V]=normstat(MU,SIGMA)C=cov(X)返回X的协方差或协方差矩阵C=cov(X,Y)返回X与Y的协方差矩阵R=corrcoef(X)返回源于矩阵的相关系数矩阵M=moment(X,order)返回X的order阶中心矩5/257.1.3随机变量的数字特征返回相应分布的数学期望和方差[例7-3]生成一个6行5列的随机矩阵,然后计算每列数据的3阶中心矩。X=randn([6,5]);M=moment(X,3)返回每一列的3阶中心矩描述样本数据集中趋势的统计量有算术平均值、中位数、众数、几何均值、调和均值和截尾均值等。7.2样本描述6/257.2.1集中趋势样本数据x1,x2,…,xn的(1)几何均值11nniimxm=geomean(X)(2)调和均值11niinmxm=harmmean(X)7/25(3)算术平均值11niixxnm=mean(X)(4)中值m=median(X)(5)截尾均值m=trimmean(X,percent)对样本数据进行排序后,去掉两端的部分极值,然后对剩下的数据求算术平均值,得到截尾均值。剔除测量值中最大和最小percent%的数据后,计算样本X的均值。8/257.2.2离中趋势描述离散趋势的统计量包括均值绝对差、极差、方差和标准差。(1)均值绝对差y=mad(X)若X为矢量,则y用mead(abs(X-mean(X)))计算;若X为矩阵,则y为包含X中每列数据均值绝对差的行矢量。mad(X,0):与mad(X)相同,使用均值。mad(X,1):基于中值计算y,即:median(abs(X-median(X))).(2)极差y=range(X)返回X中数据的最小值与最大值之间的差值。9/25(3)方差y=var(X)(4)标准差y=std(X)7.3参数估计7.3.1点估计:用单个数值作为参数的估计(1)矩法:用总体的样本矩来估计总体的同阶矩。[例7-13]随机取8个活塞环,测得它们的直径为(以mm计):74.00174.00574.00374.00174.00073.99874.00674.002,设环直径的测量值服从正态分布,现估计总体的方差。解:因为样本的2阶中心矩是总体方差的矩估计量,所以可以用moment函数进行估计。X=[74.00174.00574.00374.00174.00073.99874.00674.002];moment(X,2)10/25(2)最大似然法p=mle(‘dist’,data)使用data矢量中的样本数据,返回dist指定的分布的最大似然估计。[例7-14]用最大似然估计法解例7-3。X=[74.00174.00574.00374.00174.00073.99874.00674.002];p=mle(‘norm’,X);p(2)*p(2)7.3.2区间估计:区间估计不仅仅给出了参数的近似取值,还给出了取该值的误差范围。11/25[phat,pci]=mle(‘dist’,data):返回最大似然估计和95%置信区间。[phat,pci]=mle(‘dist’,data,alpha):返回指定分布的最大似然估计值和100(1-alpha)置信区间。[phat,pci]=mle(‘dist’,data,alpha,p1):该形式仅用于二项分布,其中p1为试验次数。[例7-15]从一批灯泡中随机地取5只作寿命试验,测得寿命(以小时计)为:10501100112012501280,设灯泡寿命服从正态分布,求灯泡寿命平均值的95%置信区间.X=[10501100112012501280];[p,ci]=mle(‘norm’,X,0.05)p=1.0e+003*ci=1.0e+003*1.16000.08921.08180.03391.23820.144512/257.3.3常见分布的参数估计(P142表7-4)Matlab统计工具箱还提供了具体函数的参数估计函数。如用normfit函数对正态分布总体进行参数估计:[例7-16]用normfit函数求解例7-6。X=[10501100112012501280];[muhat,sigmahat,muci,sigmaci]=normfit(X,0.05)muhat=1160sigmahat=99.7497muci=1.0e+003*sigmaci=59.76331.0361289.63641.2839[muhat,sigmahat,muci,sigmaci]=normfit(X,alpha):进行参数估计并计算100(1-alpha)置信区间。[muhat,sigmahat,muci,sigmaci]=normfit(X):对于给定的服从正态分布的数据矩阵X,返回参数和的估计值nuhat和sigmahat。muci和sigmaci为和的95%置信区间。[muhat,sigmahat,muci,sigmaci]=normfit(X):对于给定的服从正态分布的数据矩阵X,返回参数和的估计值nuhat和sigmahat。muci和sigmaci为和的95%置信区间。[muhat,sigmahat,muci,sigmaci]=normfit(X):对于给定的服从正态分布的数据矩阵X,返回参数和的估计值nuhat和sigmahat。muci和sigmaci为和的95%置信区间。[muhat,sigmahat,muci,sigmaci]=normfit(X):对于给定的服从正态分布的数据矩阵X,返回参数和的估计值nuhat和sigmahat。muci和sigmaci为和的95%置信区间。在均方差未知时,用t统计量检验样本均值的显著性函数:ttest;调用格式:•ttest(x,m)在0.05的显著水平上检验矢量样本x的均值为m的假设(零假设),返回结果为0,表示接受零假设,为1,则拒绝零假设。•h=ttest(x,m,alpha)自定义显著水平alpha,其余同上•[h,sig,ci]=ttest(x,m,alpha,tail)tail取0,1,-1分别表示备择假设为均值不等于,大于,小于m。(注意此时的零假设)sig为与t统计量有关的p值,ci为均值真值的1-alpha置信区间。7.4.1单个正态总体均值的假设检验13/257.4假设检验检验关于分布或参数未知的总体的假设是否合理x=[159280101212224379179264222362168250149260485170];[例7-17]某电子元件寿命x(以小时计)服从正态分布,μ和σ2均未知。现测得16只元件的寿命如下:159,280,101,212,224,379,179,264,222,362,168,250,149,260,485,170。问是否有理由认为元件的平均寿命大于225(小时)?[h,p,ci]=ttest(x,225,0.05,1)h=0p=0.2570ci=198.2321Inf14/25返回结果h为0,接受零假设;h为1,则拒绝零假设。在0.05的显著性水平上接受μ≤225的零假设不能认为元件的平均寿命大于225小时7.4.1两个正态总体均值差的检验对两个独立同方差(方差未知)正态总体的样本均值差异进行t检验•h=ttest2(x,y)•[h,significance,ci]=ttest2(x,y,alpha)•ttest2(x,y,alpha,tail)tail取0,1,-1分别表示备择假设为μx≠μy,μxμy,μxμy。[例7-18]在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率,试验是在同一个平炉上进行的。每炼一炉钢,除操作方法外其它条件都尽可能做到相同。先用标准方法炼一炉,然后函数:ttest2;调用格式:15/25用建议的新方法炼一炉,以后交替进行,各炼10炉,其钢的得率分别为:16/25标准方法78.172.476.274.377.478.476.075.576.777.3新方法79.181.077.379.180.079.179.177.380.282.1设这两个样本相互独立,且分别来自正态总体,均值和方差都未知。问建议的新操作方法是否能提高钢的得率?x=[78.172.476.274.377.478.476.075.576.777.3];y=[79.181.077.379.180.079.179.177.380.282.1];[h,sig,ci]=ttest2(x,y,0.05,1)h=0sig=0.9998ci=-4.4917Infμx≤μy17/25h=ttest2(x,y,0.05,0)h=1综合以上得μxμy,新方法得钢率比标准方法高。7.4.3基于成对数据的检验还是用ttest函数进行t检验,具体见P145例7-197.4.4分布拟合检验q-q图:用qqplot函数生成两个样本的q-q(quan-tile分位数)图。若两样本来自同一分布,图中数据点呈直线关系,否则为曲线关系。调用格式为:•qqplot(X):显示X的样本值与服从正态分布的理论数据之间的q-q图。μx≠μy18/25•qqplot(X,Y):显示X和Y两个样本的q-q图。•h=qqplot(X,Y,pvec):返回直线的句柄到h中。[例7-18]x=normrnd(0,1,100,1);y=normrnd(0.5,2,50,1);z=weibrnd(2,0.5,100,1);subplot(2,2,1)qqplot(x)holdonsubplot(2,2,2)qqplot(x,y)holdonsubplot(2,2,3)qqplot(z)holdonsubplot(2,2,4)qqplot(x,z)holdoff生成两个不同均值,方差的正态样本生成一个服从威布尔分布的样本19/25由第一个子图看出X服从正态分布。由第二个子图看出X和Y可看作同分布的。由第三个子图看出Z不服从正态分布。由第四个子图看出X和Z不是同分布的。基于数据样本的偏度和峰度,评价给定数据服从未知均值和方差正态分布的假设是否成立。函数:jbtest,调用格式为:•H=jbtest(X):以0.05的显著水平对数据矢量X进行Jarque-Bera检验,返回值H=0,接受X服从正态分布的假设,H=1,则拒绝该假设。•H=jbtest(X,alpha):指定显著水
本文标题:概率论样本描述参数估计假设检验方差分析
链接地址:https://www.777doc.com/doc-8686472 .html