您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业文化 > 09实验九 数据的统计与分析
1实验九数据的统计与分析一、统计作图二、参数估计三、假设检验四、回归分析21、频率直方图将数据的取值范围等分为若干个小区间,以每个小区间为底,以落在这个区间内数据的个数(频数)为高作小矩形,这若干个小矩形组成的图形称为频率直方图。用MATLAB软件作直方图,首先将数据按行或列写入一个数据文件备用,然后用hist函数作出图形。一、统计作图在实际问题中,要求某一随机变量的概率分布,往往建立在试验的基础上,即根据随机变量的部分观测值用频率或频数直方图、样本分布函数图,分别近似代替概率密度图和分布函数图。3函数功能figure(h)创建图形窗口figure(h)有两种情况,当h为已存在图形的句柄时,则打开这一图形作为当前图形,供后续绘图命令输出。当h不为句柄且为整数时,则figure(h)可建立一图形窗口,并给它分配句柄hhist(s,k)s表示数组(行或列),k表示将以数组s的最大和最小值为端点的区间等分为k份.hist(s,k)可以绘制出以每个小区间为底,以这个小区间的频数为高的小矩形组成的直方图。4例1某厂一流水线生产大批220伏,25瓦的白炽灯泡,其光通量(单位:流明)用X表示,X即是总体。现在从总体X中抽取容量n=120为的样本(由于个体数量很大,可用不放回抽样),进行一次观测得光通量的120个数据,它们就是容量为n=120的样本观测值,数据列于下表:216203197208206209206208202203206213218207208202194203213211193213208208204206204206208209213203206207196201208207213208210208211211214220211203216224211209218214219211208221211218218190219211208199214207207214206217214201212213211212216206210216204221208209214214199204211201216211209208209202211207202205206216206213206207200198200202203208216206222213209219根据表中的数据作出总体X的频数直方图,样本分布函数图。5(1)频数直方图A=[216203197208206209206208202203206213218207208202194203213211193213208208204206204206208209213203206207196201208207213208210208211211214220211203216224211209218214219211208221211218218190219211208199214207207214206217214201212213211212216206210216204221208209214214199204211201216211209208209202211207202205206216206213206207200198200202203208216206222213209219]在命令窗口中输入:6figure(1),hist(A,12)↙figure(1),hist(A,20)↙figure(1),hist(A,10)↙7由上面三个图形可见,k的大小要根据数据的取值范围而定。为了更清楚地反映出总体X的特性,通常每个小区间至少包含2~4个数据。另外,把频数直方图的纵坐标上的频数换为相应小区间上的频率,频数直方图即为频率直方图。(2)样本分布函数图编写程序把数据按大小排列起来fori=1:119forj=120:-1:i+1ifA(j)A(j-1)y=A(j);A(j)=A(j-1);A(j-1)=y;endendenddispA↙8作频数累积图x=linspace(189.5,224.5,30),%在189.5与224.5之间等间隔地产生30个点y=[12345681013182428294148626971838593100107108112115116118119120];plot(x,y)↙9作样本分布函数图c=[y/120];x=linspace(189.5,224.5,30);plot(x,c)↙由频数累积图和样本分布图可见,它们的形状是完全相同的,只要把频数累积图纵坐标上的频数换为相应的累积频率,就得到了样本分布函数图。10niixnx1_1niixxns12211数理统计中常用的统计量有:2、统计量(1)样本均值和中值将nxxx,,21由小到大排序后位于中间的那个数称为中位数。(2)样本方差﹑样本标准差和极差样本方差样本标准差211211niixxns极差nnxxxxxxR,,,min,,,max212111常用的函数函数功能及格式mean(x)求x阵列的均值。格式:M=mean(x)median(x)求x阵列的中值。格式:M=median(x)range(x)求x阵列的极差。格式:R=range(x)var(x),var(x,1)求x阵列的方差。格式:V=var(x)std(x),std(x,1)求x阵列的标准差。格式:S=std(x)在例1中,A的均值﹑中位数﹑极差﹑方差﹑标准差分别为:M=[mean(A)median(A)range(A)var(A)std(A)]↙M=208.8167208.000034.000039.98296.3232123、几个重要概率分布函数功能normpdf(x,mu,sigma)均值为mu﹑标准差为sigma的正态分布在x的密度函数。x可以是标量﹑数组或矩阵。当mu=0,sigma=1时可以缺省。normcdf(x,mu,sigma)是均值为mu﹑标准差为sigma的正态分布在x的分布函数。x可以是标量﹑数组或矩阵。当mu=0,sigma=1时可以缺省。chi2pdf(x,n)自由度为n的x2分布在x的密度函数。x可以是标量﹑数组或矩阵。chi2cdf(x,n)自由度为n的x2分布在x的分布函数。x可以是标量﹑数组或矩阵。tpdf(x,n)自由度为n的t分布在x的密度函数。x可以是标量﹑数组或矩阵。tcdf(x,n)自由度为n的t分布在x的分布函数。x可以是标量﹑数组或矩阵。fpdf(x,n1,n2)第一自由度为n1,第二自由度为n2的F分布的概率密度。fcdf(x,n1,n2)第一自由度为n1,第二自由度为n2的F分布函数。正态分布﹑分布﹑t分布﹑F分布是经常用到的四种分布。213x=-5:0.01:5;p1=normpdf(x,0,0.8);p2=normpdf(x,0,1);p3=normpdf(x,-1,1);p4=normpdf(x,1,1.6);figure(1),plot(x,p1,x,p2,x,p3,x,p4)↙概率密度图20,120,0.821,1.621,1例2在同一张图上作出正态分布的概率密度图。222N(0,0.8),N(0,1),N(1,1)2N(1,1.6)14比较概率密度图中这四条曲线,观察参数mu,参数sigma的意义是什么?mu表示数据的分布中心,sigma表示数据对于mu的离散程度。15(2)进行n次重复独立的掷硬币实验,分别用nXXX,,,21表示这n次试验的结果,求它们的均值及方差。例3通过计算机模拟掷硬币实验。用1代替徽花向上,0代替徽花向下,n表示试验次数。(1)随着试验次数的增加,观察徽花向上的一面频率的变化情况。(3)设nnXXXn21,其中.5.0,5.0得到的结果称为这次试验的结果。做N次这样的试验,将进行n次重复独立的掷硬币试验,对来说称为一次试验,所得结果记为N,,,21,取足够大的N和n,观察随机变量的分布函数的变化情况并与标准正态分布函数相比较。16n=1000,p=0.5090;n=10000,p=0.5007解:(1)n=100x=rand(1,100);y=fix(2*x);p=0;fori=1:100;p=p+y(1,i);enddisp(p/100)↙0.5700通过模拟试验可见,随着试验次数的增大,徽花向上的频率逐渐逼近它的概率0.5,从直观上验证了频率的稳定性。%fix(A)对A中的元素进行朝零方向取整。%rand(1,100)产生(0,1)之间的均匀分布列。在命令窗口输入:把上述程序中的n换为1000,10000,可得17(2)取n=10000x=rand(1,10000);y=fix(2*x);a=[mean(y)var(y)]↙a=0.50070.2500(3)取n=2500,当N=500时,取的500个样本观测值x=zeros(1,500);y=fix(2*rand(500,2500));fori=1:500forj=1:2500;x(1,i)=x(1,i)+y(i,j);endx(1,i)=(2*(x(1,i)-1250))/50;enddisp(x)↙18disp(x)↙取适当的数d,对任意实数x(最好不超出样本观测值的最大2,2dxdx内的样本观测值值和最小值),计算出落在区间xN,用NNx在x的概率密度。做的频数作为随机变量的概率密度与标准正态分布的概率密度图。将的500个样本观测值排序fori=1:499;forj=500:-1:i+1;ifx(1,j)x(1,j-1);t=x(1,j);x(1,j)=x(1,j-1);x(1,j-1)=t;endendend19x=-3:0.3:3;y1=[1613324879117147183211222204199146977235231084]/500;y2=normpdf(x);plot(x,y1,x,y2)↙n=2500,N=1000,的概率密度图20n=10000,N=500的概率密度和标准正态分布的概率密度图。容量N=500不变,而中所含随机变量的个数n由2500增大至10000时,态分布的概率密度函数。这一事实从直观上验证了中心极限定理。而的概率密度函数当n及N足够大时,程度会更好。与标准正态分布的概率密度函数逼近的概率密度函数逐渐逼近标准正21二、参数估计参数估计问题分为两类:一类是用某一函数值作为总体未知参数的估计值,即点估计。点估计又分为矩估计和极大似然估计。另一类是区间估计,就是对于未知参数给出一个范围,并且在一定的可靠度下使这个范围包含未知参数的真值。MATLAB统计工具箱中,给出了计算总体均值、标准差和区间估计的函数。22函数功能[mu,sigma,muci,sigmaci]=normfit(x,alpha)正态均值为mu﹑标准差为sigma的最大似然估计mu和sigma,返回显著性水平alpha的均值、标准差的置信区间muci和sigmaci,x是样本(数组或矩阵),当alpha缺省时设定为0.05[mu,muci]=exfit(x,alpha)指数分布的最大似然点估计,返回显著性水平alpha的置信区间muci.x是样本(数组或矩阵),当alpha缺省时设定为0.05.[a,b,aci,bci]=unifit(x,alpha)均匀分布的最大似然点估计,返回显著性水平alpha的置信区间aci,bci.x是样本(数组或矩阵),当alpha缺省时设定为0.05[p,pci]=binofit(x,n,alpha)二项分布的最大似然点估计,返回显著性水平alpha的置信区间pci.x是样本(数组或矩阵),当alpha缺省时设定为0.05[lambda,lambdaci]=poissfit(x,alpha)泊松分布的最大似然点估计,返回显著性水平alpha的置信区间lambdaci.x是样本(数组或矩阵),当alpha缺省时设定为0.0523例4从一批零件中,抽取9个零件,测
本文标题:09实验九 数据的统计与分析
链接地址:https://www.777doc.com/doc-3573099 .html