您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第17讲 数据的统计分析与描述-Matlab
2020/1/301数据的统计描述和分析实验目的实验内容2、掌握用数学软件包求解统计问题。1、直观了解统计基本内容。1、统计的基本理论。3、实验作业。2、用数学软件包求解统计问题。2020/1/303统计的基本概念参数估计假设检验数据的统计描述和分析2020/1/304统计工具箱中的基本统计命令1.数据的录入、保存和调用2.基本统计量3.常见概率分布的函数4.频数直方图的描绘5.参数估计6.假设检验7.综合实例返回2020/1/305一、数据的录入、保存和调用例1上海市区社会商品零售总额和全民所有制职工工资总额的数据如下年份78798081828284858687职工工资总额(亿元)23.827.631.632.433.734.943.252.863.873.4商品零售总额(亿元)41.451.861.767.968.777.595.9137.4155.0175.0统计工具箱中的基本统计命令2020/1/3061、年份数据以1为增量,用产生向量的方法输入。命令格式:x=a:h:bt=78:872、分别以x和y代表变量职工工资总额和商品零售总额。x=[23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4]y=[41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]3、将变量t、x、y的数据保存在文件data中。savedatatxy4、进行统计分析时,调用数据文件data中的数据。loaddataToMATLAB(txy)2020/1/3071、输入矩阵:data=[78,79,80,81,82,83,84,85,86,87,88;23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]2、将矩阵data的数据保存在文件data1中:savedata1data3、进行统计分析时,先用命令:loaddata1调用数据文件data1中的数据,再用以下命令分别将矩阵data的第一、二、三行的数据赋给变量t、x、y:t=data(1,:)x=data(2,:)y=data(3,:)若要调用矩阵data的第j列的数据,可用命令:data(:,j)ToMATLAB(data)返回2020/1/308二、基本统计量对随机变量x,计算其基本统计量的命令如下:均值:mean(x)中位数:median(x)标准差:std(x)方差:var(x)偏度:skewness(x)峰度:kurtosis(x)例对例1中的职工工资总额x,可计算上述基本统计量。ToMATLAB(tjl)返回2020/1/309三、常见概率分布的函数常见的几种分布的命令字符为:正态分布:norm指数分布:exp帕松分布:poiss分布:beta威布尔分布:weib2分布:chi2t分布:tF分布:FMatlab工具箱对每一种分布都提供五类函数,其命令字符为:概率密度:pdf概率分布:cdf逆概率分布:inv均值与方差:stat随机数生成:rnd(当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.)2020/1/3010例2画出正态分布)1,0(N和)2,0(2N的概率密度函数图形.在Matlab中输入以下命令:x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);plot(x,y,x,z)1、密度函数:p=normpdf(x,mu,sigma)(当mu=0,sigma=1时可缺省)ToMATLAB(liti2)如对均值为mu、标准差为sigma的正态分布,举例如下:2020/1/3011例3.计算标准正态分布的概率P{-1X1}.命令为:P=normcdf(1)-normcdf(-1)结果为:P=0.6827ToMATLAB(liti3)3、逆概率分布:x=norminv(P,mu,sigma).即求出x,使得P{Xx}=P.此命令可用来求分位数.2、概率分布:P=normcdf(x,mu,sigma)例4取05.0,求21u21u的含义是:)1,0(~NX,P{X21u}=2105.0时,P=0.975,975.0unorminv(0.975)=1.96ToMATLAB(liti4)2020/1/3012ToMATLAB(liti5)4、均值与方差:[m,v]=normstat(mu,sigma)例5求正态分布N(3,52)的均值与方差.命令为:[m,v]=normstat(3,5)结果为:m=3,v=255、随机数生成:normrnd(mu,sigma,m,n).产生mn阶的正态分布随机数矩阵.例6命令:M=normrnd([123;456],0.1,2,3)结果为:M=0.95672.01252.88543.83345.02886.1191ToMATLAB(liti6)此命令产生了23的正态分布随机数矩阵,各数分别服从N(1,0.12),N(2,22),N(3,32),N(4,0.12),N(5,22),N(6,32)返回2020/1/30131、给出数组data的频数表的命令为:[N,X]=hist(data,k)此命令将区间[min(data),max(data)]分为k个小区间(缺省为10),返回数组data落在每一个小区间的频数N和每一个小区间的中点X.2、描绘数组data的频数直方图的命令为:hist(data,k)四、频数直方图的描绘返回2020/1/3014五、参数估计1、正态总体的参数估计设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得:[muhat,sigmahat,muci,sigmaci]=normfit(X,alpha)此命令在显著性水平alpha下估计数据X的参数(alpha缺省时设定为0.05),返回值muhat是X的均值的点估计值,sigmahat是标准差的点估计值,muci是均值的区间估计,sigmaci是标准差的区间估计.2020/1/30152、其它分布的参数估计有两种处理办法:一.取容量充分大的样本(n50),按中心极限定理,它近似地服从正态分布;二.使用Matlab工具箱中具有特定分布总体的估计命令.(1)[muhat,muci]=expfit(X,alpha)-----在显著性水平alpha下,求指数分布的数据X的均值的点估计及其区间估计.(2)[lambdahat,lambdaci]=poissfit(X,alpha)-----在显著性水平alpha下,求泊松分布的数据X的参数的点估计及其区间估计.(3)[phat,pci]=weibfit(X,alpha)-----在显著性水平alpha下,求Weibull分布的数据X的参数的点估计及其区间估计.返回2020/1/3016六、假设检验在总体服从正态分布的情况下,可用以下命令进行假设检验.1、总体方差sigma2已知时,总体均值的检验使用z-检验[h,sig,ci]=ztest(x,m,sigma,alpha,tail)检验数据x的关于均值的某一假设是否成立,其中sigma为已知方差,alpha为显著性水平,究竟检验什么假设取决于tail的取值:tail=0,检验假设“x的均值等于m”tail=1,检验假设“x的均值大于m”tail=-1,检验假设“x的均值小于m”tail的缺省值为0,alpha的缺省值为0.05.返回值h为一个布尔值,h=1表示可以拒绝假设,h=0表示不可以拒绝假设,sig为假设成立的概率,ci为均值的1-alpha置信区间.2020/1/3017例7Matlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格(price1,price2分别是一,二月份的油价,单位为美分),它是容量为20的双样本.假设一月份油价的标准偏差是一加仑四分币(=4),试检验一月份油价的均值是否等于115.解作假设:m=115.首先取出数据,用以下命令:loadgas然后用以下命令检验[h,sig,ci]=ztest(price1,115,4)返回:h=0,sig=0.8668,ci=[113.3970116.9030].检验结果:1.布尔变量h=0,表示不拒绝零假设.说明提出的假设均值115是合理的.2.sig-值为0.8668,远超过0.5,不能拒绝零假设3.95%的置信区间为[113.4,116.9],它完全包括115,且精度很高..ToMATLAB(liti7)2020/1/30182、总体方差sigma2未知时,总体均值的检验使用t-检验[h,sig,ci]=ttest(x,m,alpha,tail)检验数据x的关于均值的某一假设是否成立,其中alpha为显著性水平,究竟检验什么假设取决于tail的取值:tail=0,检验假设“x的均值等于m”tail=1,检验假设“x的均值大于m”tail=-1,检验假设“x的均值小于m”tail的缺省值为0,alpha的缺省值为0.05.返回值h为一个布尔值,h=1表示可以拒绝假设,h=0表示不可以拒绝假设,sig为假设成立的概率,ci为均值的1-alpha置信区间.2020/1/3019返回:h=1,sig=4.9517e-004,ci=[116.8120.2].检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的假设油价均值115是不合理的.2.95%的置信区间为[116.8120.2],它不包括115,故不能接受假设.3.sig-值为4.9517e-004,远小于0.5,不能接受零假设.ToMATLAB(liti8)例8试检验例8中二月份油价Price2的均值是否等于115.解作假设:m=115,price2为二月份的油价,不知其方差,故用以下命令检验[h,sig,ci]=ttest(price2,115)2020/1/30203、两总体均值的假设检验使用t-检验[h,sig,ci]=ttest2(x,y,alpha,tail)检验数据x,y的关于均值的某一假设是否成立,其中alpha为显著性水平,究竟检验什么假设取决于tail的取值:tail=0,检验假设“x的均值等于y的均值”tail=1,检验假设“x的均值大于y的均值”tail=-1,检验假设“x的均值小于y的均值”tail的缺省值为0,alpha的缺省值为0.05.返回值h为一个布尔值,h=1表示可以拒绝假设,h=0表示不可以拒绝假设,sig为假设成立的概率,ci为与x与y均值差的的1-alpha置信区间.2020/1/3021返回:h=1,sig=0.0083,ci=[-5.8,-0.9].检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的假设“油价均值相同”是不合理的.2.95%的置信区间为[-5.8,-0.9],说明一月份油价比二月份油价约低1至6分.3.sig-值为0.0083,远小于0.5,不能接受“油价均相同”假设.ToMATLAB(liti9)例9试检验例8中一月份油价Price1与二月份的油价Price2均值是否相同.解用以下命令检验[h,sig,ci]=ttest2(price1,price2)2020/1/30224、非参数检验:总体分布的检验Matlab工具箱提供了两个对总体分布进行检验的命令:(1)h=normplot(x)(2)h=weibplot(x)此命令显示数据矩阵x的正态概率图.如果数据来自于正态分布,则图形显示出直线性形态.而其它概率分布函数显示出曲线形态.此命令显示数据矩阵x的Weibull概率图.如果数据来自于Weibull分布,则图形将显示出直线性形态.而其它概率分布函数将显示出曲线形态.返回2020/1/3023例10一道工序用自动化车床连续加工某种零件,由于
本文标题:第17讲 数据的统计分析与描述-Matlab
链接地址:https://www.777doc.com/doc-3395274 .html