您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > matlab与统计回归分析
一Matlab作方差分析方差分析是分析试验(或观测)数据的一种统计方法。在工农业生产和科学研究中,经常要分析各种因素及因素之间的交互作用对研究对象某些指标值的影响。在方差分析中,把试验数据的总波动(总变差或总方差)分解为由所考虑因素引起的波动(各因素的变差)和随机因素引起的波动(误差的变差),然后通过分析比较这些变差来推断哪些因素对所考察指标的影响是显著的,哪些是不显著的。【例1】(单因素方差分析)一位教师想要检查3种不同的教学方法的效果,为此随机地选取水平相当的15位学生。把他们分为3组,每组5人,每一组用一种方法教学,一段时间以后,这位教师给15位学生进行统考,成绩见下表1。问这3种教学方法的效果有没有显著差异。表1学生统考成绩表方法成绩甲7562715873乙7185689290丙7379607581Matlab中可用函数anova1(…)函数进行单因子方差分析。调用格式:p=anova1(X)含义:比较样本m×n的矩阵X中两列或多列数据的均值。其中,每一列表示一个具有m个相互独立测量的独立样本。返回:它返回X中所有样本取自同一总体(或者取自均值相等的不同总体)的零假设成立的概率p。解释:若p值接近0(接近程度有解释这自己设定),则认为零假设可疑并认为至少有一个样本均值与其它样本均值存在显著差异。Matlab程序:Score=[7562715873;8185689290;7379607581]’;P=anova1(Score)输出结果:方差分析表和箱形图ANOVATableSourceSSdfMSFProbFColumns604.93332302.46674.25610.040088Error852.81271.0667Total1457.73331412360657075808590ValuesColumnNumber由于p值小于0.05,拒绝零假设,认为3种教学方法存在显著差异。例2(双因素方差分析)为了考察4种不同燃料与3种不同型号的推进器对火箭射程(单位:海里)的影响,做了12次试验,得数据如表2所示。表2燃料-推进器-射程数据表推进器1推进器2推进器3燃料158.256.265.3燃料249.154.151.6燃料360.170.939.2燃料475.858.248.7在Matlab中利用函数anova2函数进行双因素方差分析。调用格式:p=anova2(X,reps)含义:比较样本X中两列或两列以上和两行或两行以上数据的均值。不同列的数据代表因素A的变化,不同行的数据代表因素B的变化。若在每个行-列匹配点上有一个以上的观测量,则参数reps指示每个单元中观测量的个数。返回:当reps=1(默认值)时,anova2将两个p值返回到向量p中。H0A:因素A的所有样本(X中的所有列样本)取自相同的总体;H0B:因素B的所有样本(X中的所有行样本)取自相同的总体。当reps1时,anova2还返回第三个p值:H0AB:因素A与因素B没有交互效应。解释:如果任意一个p值接近于0,则认为相关的零假设不成立。Matlab程序:disp1=[58.256.265.3;49.154.151.6;60.170.939.2;75.858.248.7]’;p=anova2(disp1,1)输出结果:方差分析表ANOVATableSourceSSdfMSFProbFColumns157.59352.530.430590.73875Rows223.84672111.92330.917430.44912Error731.986121.9967Total1113.416711由于燃料和推进器对应的p值均大于0.05,所以可以接受零假设H0A和H0B,认为燃料和推进器对火箭的射程没有显著影响。例3(双因素方差分析)设火箭的射程在其它条件基本相同时与燃料种类及推进器型号有关。现在考虑4种不同的燃料及3种不同型号的推进器,对于每种搭配个发射了火箭两次,得数据见表3。问各自变量和自变量的交互效应是否对火箭的射程有显著影响?表3燃料-推进器-射程数据表推进器1推进器2推进器3燃料158.252.656.241.265.360.8燃料249.142.854.150.551.648.4燃料360.158.370.973.239.240.7燃料475.871.558.251.048.741.4Matlab程序:disp2=[58.252.649.142.860.158.375.871.5;56.241.254.150.570.973.258.251.0;65.360.851.648.439.240.748.741.4]’;p=anova2(disp2,2)输出结果:方差分析表ANOVATableSourceSSdfMSFProbFColumns370.98082185.49049.39390.003506Rows261.675387.2254.41740.025969Interaction1768.69256294.782114.92886.1511e-005Error236.951219.7458Total2638.298323显著。方差分析上机练习为研究广告的效果,考察4种广告方式:当地报纸(paper)、当地广播(radio)、店内销售员(people)和店内展示(display)的效果。共设有144个销售点,每种广告随机抽取36个销售点记录销售额,分布在6个地区的144个销售点的销售情况生成的数据集ADS见下表。数据集ADS中有3个变量:AD表示广告的类型、AREA表示地区、SALES表示销售额(单位:千元)。请完成以下练习:(1)概括下列数据:用箱形图、条形图直观地呈现四种广告方式下销售量的分布情况;计算四种广告方式下销售量的均值、方差、标准差、最大和最小值;(2)进行单因素方差分析:检验四种广告方式下销售量数据是否服从正态分布,方差是否相等;检验四种广告方式下的销售量是否有显著差异(0.01);若四种广告方式下的销售量有显著差异,指出哪些类型的广告效果有显著的不同?(3)在设计广告效果的试验时,虽然地区差异对销售量的影响并不是我们感兴趣的,但希望排除这一因素的影响。数据集ADS记录了各个销售点所在的地区AREA。试用双因素方差分析方法分析销售数据,并指出广告方式和地区对销售量是否有显著影响(0.01,0.1)?广告方式(AD)与地区(AREA)之间有无交互效应?表ADS数据集中的数据广告方式(变量:AD)销售额(单位:千元)(变量SALES)地区1地区2地区3地区4地区5地区6当地报纸(paper)755776687583777572666676768163708662945470885686876565847778796275806270当地广播(radio)69511005478799077608374693379736875651006168705373686383796665767374815765店内销售员(people)636785588278808762877077707540686155644067767077516175427165645062783783店内展示(display)526161414486765752757563336960526143616641694351655850605255444558524560参考答案(1)箱形图:boxplot(ads)结果:有异常值。(其它:略)(2)正态性检验Paper:Hist(X1,6)50556065707580859095024681012频数直方图分布的正态性检验:normplot(X1)5560657075808590950.010.020.050.100.250.500.750.900.950.980.99DataProbabilityNormalProbabilityPlot均服从正态分布。单因素方差分析ANOVATableSourceSSdfMSFProbFColumns5866.083331955.361113.48318.8495e-008Error20303.2222140145.023Total26169.3056143P=8.8495e-0080.01,四种广告方式下的销售量是否有显著差异。对应的箱形图为:123430405060708090100Salespaperradiopeopledisplay当地媒体和电台广播与点内展示有显著不同。(3)ANOVATableSourceSSdfMSFProbFColumns1444.22225288.84441.95820.089763Rows5866.083331955.361113.25591.5637e-007Interaction11581577.20.523360.92341Error17701120147.5083Total26169.3056143从以上分析结果可知:0.05P1=0.0897630.1,地区对检验水平有一定影响,但不显著。P2=1.5637e-0070.010.1,无论哪种检验水平,广告方式对销售量都有显著影响;P3=0.923410.1,地区和广告方式对销售量无交互效应。二Matlab作回归分析回归分析的相关数学理论可以参见《概率论与数理统计教程》,下面仅以示例说明如何利用matlab处理回归分析。1.一元线性回归分析【例1】为了了解百货商店销售额x与流通费率(反映商业活动的一个质量指标,指每元商品流转额所分摊的流通费用)y之间的关系,收集了九个商店的有关数据,见下表1.试建立流通费率y与销售额x的回归方程。表1销售额与流通费率数据样本点销售额x(万元)流通费率y11.57.024.54.837.53.6410.53.1513.52.7616.52.5719.52.4822.52.3925.52.2【分析】:首先绘制散点图以直观地选择拟合曲线,这项工作可结合相关专业领域的知识和经验进行,有时可能需要多种尝试。选定目标函数后进行线性化变换,针对变换后的线性目标函数进行回归建模与评价,然后还原为非线性回归方程。【Matlab数据处理】:【Step1】:绘制散点图以直观地选择拟合曲线x=[1.54.57.510.513.516.519.522.525.5];y=[7.04.83.63.12.72.52.42.32.2];plot(x,y,'-o')输出图形见图1。5101520250510图1销售额与流通费率数据散点图根据图1,初步判断应以幂函数曲线为拟合目标,即选择非线性回归模型,目标函数为:(0)byaxb其线性化变换公式为:ln,lnvyux线性函数为:lnvabu【Step2】:线性化变换即线性回归建模(若选择为非线性模型)与模型评价%线性化变换u=log(x)';v=log(y)';%构造资本论观测值矩阵mu=[ones(length(u),1)u];alpha=0.05;%线性回归计算[b,bint,r,rint,states]=regress(v,mu,alpha)输出结果:b=[2.1421;-0.4259]表示线性回归模型lnvabu中:lna=2.1421,b=-0.4259;即拟合的线性回归模型为2.14210.4259yx;bint=[2.06142.2228;-0.4583-0.3934]表示拟合系数lna和b的100(1-alpha)%的置信区间分别为:[2.06142.2228]和[-0.4583-0.3934];r=[-0.02350.0671-0.0030-0.0093-0.0404-0.0319-0.00160.01680.0257]表示模型拟合残差向量;rint=[-0.07000.02300.02020.1140-0.08730.0813-0.09390.0754-0.11540.0347-0.10950.0457-0.08370.0805-0.06210.0958-0
本文标题:matlab与统计回归分析
链接地址:https://www.777doc.com/doc-2881905 .html