您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 实验一数据的统计分析基础
实验一数据的统计分析基础一、实验目的在日常生活中我们会在很多事件中收集到一些数据(比如:考试分数、窗口排队人数、月用电量、灯泡寿命、测量误差、产品质量、月降雨量等数据),这些数据的产生一般都是随机的.这些随机数据乍看起来并没有什么规律,但通过数理统计的研究发现:这些随机数还是符合着某种分布规律的,这种规律被称为统计规律.本实验旨在通过对概率密度函数曲线的直观认识、对数据分布的形态猜测、对某些概率分布的密度函数的参数估计(以正态为例)以及进行简单的正态假设检验,来揭示生活中的随机数据的一些统计规律.二、相关函数(命令)及简介1.概率密度函数pdf系列.以normpdf()为例,调用格式:y=normpdf(x,mu,sigma),计算参数为mu和sigma的样本数据x的正态概率密度函数.参数sigma必须为正.其中:mu为均值,sigma为标准差.2.参数估计fit系列.以normfit()为例,调用格式:[muhat,sigmahat,muci,sigmaci]=normfit(x,alpha),对样本数据x进行参数估计,并计算置信度为100(1-alpha)%的置信区间.如alpha=0.01时,则给出置信度为99%的置信区间.不写明alpha,即表示alpha取0.05.3.load()函数.调用格式:S=load('数据文件')将纯数据文件(文本文件)中的数据导入Matlab,S是双精度的数组,其行数、列数与数据文件相一致.4.hist(x,m)函数:画样本数据x的直方图,m为直方图的条数,缺省值为10.5.tabulate()函数:绘制频数表.返回table矩阵,第一列包含x的值,第二列包含该值出现次数,最后一列包含每个值的百分比.6.ttest(x,m,alpha)函数:假设检验函数.此函数对样本数据x进行显著性水平为alpha的t假设检验,以检验正态分布样本x(标准差未知)的均值是否为m.h=1表示拒绝零假设,h=0表示不能拒绝零假设.7.normplot(x)或weibplot(x)函数:统计绘图函数,进行正态分布检验8.累积分布函数cdf系列,如:normcdf().9.逆累积分布函数inv系列,如:norminv().10.随机数发生函数rnd系列,如:normrnd().11.均值与方差函数stat系列,如:normstat().三、实验内容1.常见的概率分布的密度函数及其图形常见概率分布的密度函数序号中文函数名英文函数名英文简写备注1二项分布Binomialbino2卡方分布Chisquarechi23指数分布Exponentialexp4F分布Ff5Gamma分布Gammagam6几何分布Geometricgeo7正态分布Normalnorm8泊松分布Poissonpoiss9瑞利分布Rayleighrayl10T分布Tt11均匀分布Uniformunif12离散均匀分布DiscreteUniformunid1.1常见连续分布的密度函数说明(1)正态分布若连续型随机变量X的密度函数为:22(x)21()e,,02fxx则称X为服从正态分布的随机变量,记作),(~2NX.特别地,称1,0时的正态分布)1,0(N为标准正态分布,其概率分布的密度函数参见图1.一个非标准正态分布的密度函数参见图2中的虚线部分(1,2).正态分布是概率论与数理统计中最重要的一个分布,高斯(Gauss)在研究误差理论时首先用正态分布来刻画误差的分布,所以正态分布又称高斯分布.一个变量如果是由大量微小的、独立的随机因素的叠加效果,那么这个变量一定是正态变量.比如测量误差、产品质量、月降雨量等都可用正态分布描述.x=-8:0.1:8;y=normpdf(x,0,1);y1=normpdf(x,1,2);plot(x,y,x,y1,':');-8-6-4-20246800.050.10.150.20.250.30.350.4-8-6-4-20246800.050.10.150.20.250.30.350.4图1标准正态分布图2标准正态与非标准正态(2)均匀分布(连续)若随机变量X的密度函数为1,()0,axbfxba其他则称X服从区间[,]ab上的均匀分布(连续),记作~[,]XUab,其概率分布的密度函数见参见图3)2,0(ba.均匀分布在实际中经常使用,譬如一个半径为r的汽车轮胎,因为轮胎上的任一点接触地面的可能性是相同的,所以轮胎圆周接触地面的位置X是服从[0,2]r上的均匀分布,这只要看一看报废轮胎四周磨损程度几乎是相同的就可明白均匀分布的含义了.x=-10:0.01:10;r=1;y=unifpdf(x,0,2*pi*r);plot(x,y);-10-8-6-4-2024681000.020.040.060.080.10.120.140.1605101520253000.050.10.150.20.25图3均匀分布(连续)图4指数分布(3)指数分布若连续型随机变量X的密度函数为:,0()0,0xexfxx其中0,则称X为服从参数为的指数分布的随机变量,记作~Exp()X.在实际应用问题中,等待某特定事物发生所需要的时间往往服从指数分布.如某些元件的寿命;某人打一个电话持续的时间;随机服务系统中的服务时间;动物的寿命等都常假定服从指数分布.指数分布的重要性还在于它是具有无记忆性的连续型随机变量.即:设随机变量X服从参数为的指数分布,则对任意的实数0,0ts,有{|}{},PXstXsPXt其概率分布的密度函数参见见图4)4(.x=0:0.1:30;y=exppdf(x,4);plot(x,y)1.2常见离散分布的密度函数(1)几何分布在一个贝努里实验中,每次试验成功的概率为p,失败的概率为1qp(01)p,设试验进行到第次才出现成功,则的分布列为:,2,1,)(1kpqkPk容易看到1(1,2,)kpqk是几何级数11kkpq的一般项,于是人们称它为几何分布,其概率分布的密度函数参见图5)5.0(p.x=0:30;y=geopdf(x,0.5);plot(x,y)05101520253000.050.10.150.20.250.30.350.40.450.50510152025303540455000.010.020.030.040.050.060.070.080.09图5几何分布图6二项分布(2)二项分布如果随机变量X的分布列为:nkppknkXPknk,,1,0,)1()(则这个分布称为二项分布,记为),(~pnbX.当1n时的二项分布又称为0-1分布,分布律为X01P1pp一般的二项分布的密度函数参见图6)05.0,500(pn.x=0:50;y=binopdf(x,500,0.05);plot(x,y);(3)泊松(Poisson)分布泊松分布是1837年由法国数学家泊松(PoissonS.D.1781-1840)首次提出的,其概率分布列是:(),0,1,2,,0!kPXkekk记为)(~PX,其概率分布的密度函数参见图7)25(.泊松分布是一种常用的离散分布,它与单位时间(或单位面积、单位产品等)上的计数过程相联系,譬如:单位时间内,电话总机接到用户呼唤次数;1平方米内,玻璃上的气泡数;一铸件上的砂眼数;在单位时间内,某种放射性物质分裂到某区域的质点数等等.x=0:50;y=poisspdf(x,25);plot(x,y);注:对比二项分布的概率密度函数图可以发现,当二项分布的np与泊松分布充分接近时,两图拟合程度非常高(图6与图7中的20np),直观地验证了泊松定理(泊松分布是二项分布的极限分布),请对比图6与图7.0510152025303540455000.010.020.030.040.050.060.070.0802468101214161820-1-0.500.511.5图7泊松分布图8均匀分布(离散)(4)均匀分布(离散)如果随机变量X的分布列为:1(),1,2,,PXkknn则这个分布称为离散均匀分布,记为~([1,2,,])XUn,其概率分布的密度函数参见图8(20)n.n=20;x=1:n;y=unidpdf(x,n);plot(x,y,'o-');1.3三大抽样分布的密度函数(1)2分布设随机变量nXXX,,2,1相互独立,且同服从正态分布)1,0(N,则称随机变量222212nnXXX服从自由度为n的2分布,记作)(~22nn,亦称随机变量2n为2变量.其概率分布的密度函数参见图9(4)n、图10(10)n,2分布的密度函数解析式参见本章的附录表格.x=0:0.1:20;x=0:0.1:20;y=chi2pdf(x,4);y=chi2pdf(x,10);plot(x,y);plot(x,y)0246810121416182000.020.040.060.080.10.120.140.160.180.20246810121416182000.010.020.030.040.050.060.070.080.090.1图92分布(4)n图102分布(10)n(2)F分布设随机变量2~()Xm,2~()Yn,且X与Y相互独立,则称随机变量nYmXF//服从自由度为),(nm的F分布,记作),(~nmFF,其概率分布的密度函数参见图11,即)10,4(F,F分布的密度函数解析式参见本章的附录表格.x=0.01:0.1:8.01;y=fpdf(x,4,10);plot(x,y)012345678900.10.20.30.40.50.60.7-6-4-2024600.050.10.150.20.250.30.350.4图11F分布图12t分布(3)t分布设随机变量)(~),1,0(~2nYNX,且X与Y相互独立,则称随机变量nYXT/服从于自由度为n的t分布,记作)(~ntT,其概率分布的密度函数参见图12,即)4(t.t分布的密度函数解析式参见本章的附录表格.值得说明的是,图12的t分布图与图1、图2的正态分布十分相似.可以证明:当n时,t分布趋于标准正态分布)1,0(N.x=-6:0.01:6;y=tpdf(x,4);plot(x,y)2.对给定数据画频数直方图(Histogram)或频数表(FrequencyTable)假定有若干个给定的数据集,它们满足上述10种分布之一,我们现在的任务就是利用画频数直方图等手段,确定它们到底服从哪一类分布.例1:某一次书面考试的分数罗列如下,试画频数直方图.鉴于数据的数量较大(包含有120个数据),可以先在一个文本文件中输入,保存为data1.txt.7569100807074785972736379698162878066867570858564786569677872605057837779787467837167717484748375737460916569806386677380746872809561778582718076836987767269668674875981887583717781886767767176797990628085817572579491837866747974827987768168x=load('data1.txt');x=x(:);hist(x)结果参见图13.从图形形态上来看,图13较为接近图2所示的正态分布.50556065707580859095100051015202530505560657075808590951000246810121416图13例1的频数直方图图14例2的频数直方图例2:某一次上机考试的分数罗列如下(data2.txt,包含有130个数据),试画频数直方图.5170959170838396
本文标题:实验一数据的统计分析基础
链接地址:https://www.777doc.com/doc-2530879 .html