您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 数学建模 相关分析与回归分析 清华大学
第六章相关与回归分析(一)相关关系的概念前面介绍的描述统计量都是对单个变量的特征进行描述,当数据集含有多个变量时,除分别描述每个变量外,描述这些变量之间的关系也是十分重要的,尤其是确定标量之间的线性关系是更为常见。现象之间的相互依存关系1)函数关系——用函数表达式表示一一对应关系。2)相关关系——变量之间确实存在着数量上的关系,但关系值是不确定的。(二)相关关系的种类1)根据依存关系:(1)因果关系:单向因果关系互为因果关系(2)分不清因果的依存关系2)自变量的多少来分(1)单相关:只有一个自变量(2)复相关:有两个及以上的自变量3)形式不同(1)线性相关(直线相关)(2)非线性相关(曲线相关)4)根据相关关系的方向来分(1)正相关:指两个变量之间的变化方向一致,都是增长趋势或下降趋势。(2)负相关:两个变量的变化趋势相反。******r=+1*********r=-1***********************r0*****************************r0r=1表示X,Y之间存在线性关系:Y=aX+br0表示大体上Y随着X增加而递增。r0表示大体上Y随着X增加而递减。*****************************r0r=0表示Y与X之间没有线性关系(不排斥Y与X之间存在非线性关系)(三)相关分析的步骤相关分析(广义)一方面:研究变量之间关系的密切程度。[相关分析(狭义)]另一方面:研究自变量和因变量之间的变动关系,用数学方程式来表达。(称为回归分析)步骤:1)判断现象之间有无相关关系存在及呈现的形态。(相关表和相关图)2)确定相关关系的密切程度。(计算相关系数)3)对具有相关关系的变量建立数学模型并求解方程参数。4)进行相关性检验。用过程PLOT将这三组变量的数据分别画在直角坐标系里,以便对数据的分布和相关系数的大小有一个直观的了解。PLOTOFMAXPULSE*RUNPULSEPLOTOFOXYGEN*RUNTIMEPLOTOFRSTPULSE*WEIGHT(四)相关系数若为变量X,Y的n个观测值,则相关系数计算公式为:yxyxyxnn,,,,,2211niniiNiiXYYYXXYXriiYX11221LxyLxxLyy相关系数进行相关程度的判断标准:r在0.3以下,不存在直线相关;r在0.3---0.5之间是低度直线相关;r在0.5---0.8之间是显著相关;r在0.8以上是高度相关;计算出的相关系数是否真的能判断出两个变量之间存在相关关系,可进行线性相关性和显著性检验。方法如下:1)计算自由度f=n-k-1(其中n--样本容量;k--自变量个数)2)选取显著性水平,通常取=0.05或0.013)查表。根据和f,查相关系数临界值表4)判断。当时,则x与y之间显著线性相关。frfrr银行雇员数据,分析的目的是要观察起始工资(salbegin)和现工资(salary)与雇员本人各方面条件的关系。变量有:salary(当前工资)、age(年龄)、jobtime(工作时间)、prevexp(以前工作经验)。职务等级输出结果:1、现在工资平均值比起始工资高。2、现工资差别大。安徽省国民收入与城乡居民存款余额数据。问:余额与收入之间线性关系?例:某地区1985—1996年人均月收入和商品销售额资料如下,计算相关系数并检验。年份人均月收入商品销售额x2y2xy198548022023040048400105600198656028031360078400156800198760030036000090000180000198861032037210010240019520019896203303844001089002046001990650335422500112225217750199167034044890011560022780019927003524900001239042464001993750380562500144400285000199478040060840016000031200019958204056724001640253321001996850425722500180625361250合计80904087558770014288792824500根据公式:408780902214288791255877001240878090282450012r=0.985取=0.05,f=n-1-1=12-2=10,得r0.05(10)=0.5760由于rr0.05(10)=0.5760,所以x与y之间存在线性关系且关系显著。模块BASE中的过程CORR可方便地用于计算变量之间的相互关系:计算数据集FITNESS中OXYGEN,MAXPULSE,RSTPULSE三个变量和另三个变量RUNTIME,RUNPULSE,WEIGHT之间的相关系数。以下可看出变量MAXPULSE和RUNPULSE有最大的正相关,OXYGEN和RUNTIME负相关的绝对值最大,RSTPLUSE和WEIGHT的相关的绝对值最小。线性回归研究变量间的联系的目的是要确定变量之间的联系关系式,并用一些变量的值去预测、控制另一些变量的取值。在数理统计中属于回归分析的内容。在回归分析中建立变量间关系时往往区分两种不同的变量。独立变量相依变量例:只考虑一个独立和一个相依变量(总体的、一般的)。BXAY其中:表示随机误差建立一个以初始工资、工作经验、受教育年限等为自变量,当前工资为因变量的回归模型。Graphs—Scatter—SimpleSalbegin—Ysalary--XAnalyze—Regression—LinearSalary—DependentSalbegin,Prevexp,jobtime,jobcat,educ--Independent总体的线性回归模型是通过已知的x、y的一组样本观测值(x1,y1),(x2,y2),…(xn,yn)即样本回归模型来估计的,由此可得样本回归模型:ebxyiiia直线在y轴上的截距直线的斜率条件限制:1。正态性2。独立性若使回归直线的代表性强,则需使每一点eI越小越好,考虑误差平方和xbayyyeiiiibai222.,ˆ=最小值对a,b求一价偏导数,并令其等于零:020211xxyxyiniiiniiibabbaa得正规方程组:xybxayxbnax2得系数:xbynxbyayyxxnyxxynbLLxxxxxxxy1222例:以前例人均收入与商品销售额关系(可通过散点图),且r=0.985故配合直线回归模型。其求解a,b的标准方程组:xbxaxyxbnay2将有关数据代入方程中,得4087=12a+8090b2824500=8090x+5587700b3.880905175.040871215175.08090558770012408780902824500122ab则所求回归方程为:xy5175.03.8ˆ当人均月收入增加1元时,该地区商品销售额平均增加5175元。将x=480,560,…,850依次代入所求回归方程中,得到商品销售额的理论值(追溯预测值),分别为240,281.5,…,431.575.例:为了研究人体吸收和消耗氧的功能而对一部分人进行耗氧测试,数据收集了31位测试者的记录。作OXYGEN与RUNTIME的回归分析输出结果:所求解线性回归为:Y(OXYGEN)=-3.310555x(RUNTIME)+82.421773(二)一元线性回归模型的显著性检验由于在建模时使用假设条件,为了保证其合理性和有效性,需对模型进行检验。回归模型的显著检验包括1)相关系数显著性检验2)回归系数的显著性检验3)回归方程显著性检验4)回归模型符合有关假设条件的检验1.检验回归系数的显著性(1)t检验检验x与y之间是否真正存在线性关系(具体表现为回归系数是否为0?)一般步骤:1)假设样本来自没有线性关系的总体,即H0:B=0H1:B=0计算回归系数b的t值:Stbbb式中:xxSSyb22回归系数b的标准差回归估计标准误差22nxybyaySy2)根据给定的水平和自由度n-2,查t分布表相应临界值。3)若t2ttb2则拒绝H0,得出B=0的结论;ttb2若则不能拒绝H0。例:对前例进行t检验:假设商品销售价额与人均月收入无线性关系。H0:b=0H1:b=0计算回归系数b的t值:StbbbxxyxxSSnnxybyayb222222/02897.012/80905587700212/28245005175.04087)3.8(1428879286.1702897.05175.0tb取=0.05,自由度n-2=12-2=10,查t分布表,得:228.22t2、F检验目的:检验所得到的线性回归方程在整体上是否显著成立,进一步检验x,y之间是否存在线性关系。步骤:1)假设回归方程不显著H0:方程不显著H1:方程显著2)计算回归方程的F统计量2/1/ˆ2ˆ2nyyyyF=回归平方和/自由度(f1)剩余平方和/自由度(f2)3)给定显著性水平和两个自由度,查F分布表,得到相应临界值F4)若FF,拒绝H0,回归方程显著;若FF,不能拒绝H0,x与y之间的关系不明显或无关系,回归方程不显著例:检验前例回归方程显著性假设:1)H0:方程不显著H1:方程显著2)则有:907.31810/35.1122566.357922/1/ˆ2ˆ2nFyyyy3)取=0.05,查F分布表,得临界值F0.05=4.964)由于F=318.907F0.05(1,10)=4.96所以拒绝H0,接受H1,说明线性回归方程显著成立。3、D.W检验(用于序列相关性检验)在建立回归模型时有假设条件:随机变量是独立的即COV(ei,ej)=0(i=j)。如果回归模型中不满足假设条件,就称为具有序列相关(或自相关)设ei的一价自回归形式为tetet1假设:1)H0:=0(et不存在一价自相关)H1:=0(et存在一价自相关)2)构造D.W统计量d并计算D.W统计量为:nieinieieid122123)给定显著性水平,根据自变量个数k和样本数据个数n,查DW表,找出临界值dL和du。4)将d与dL、du比较判断d落在哪个区间内。当dud4-du时,无序列相关;0ddL时,则有正序列相关;4-dLd4时,则有负序列相关;dLddu或4-dud4-dL时,处于不确定区间无法识别有无序列相关性。正自相关区不确定区间无自相关区不确定区间负自相关区0dLdu24-du4-dL4D.W检验示意图表示:由于iiiee1(i可忽略)eeii1由于ˆ12d其中niiiniieee1212ˆ因为1ˆ所以0d4当0ˆ时,2de不存在自相关1ˆ1ˆ0d4d时,e存在正自相关存在完全负自相关一般当d接近1或3时,认为存在某种程度的自相关。统计分析(三)判定系数和估计标准误差研究回归方程拟合的情况——进行拟合优度的检验检验方法计算相关系数r判定系数r2估计标准误差Syr2和Sy的测定yyˆyyˆyyyxyybxayˆ变差分解图无法用回归直线所解释的变差数额由回归直线所解释的变差数额图中可看到:yyyyyyˆˆ观察值与均值的离差回归变差剩余变差、残差对于全部的次观察
本文标题:数学建模 相关分析与回归分析 清华大学
链接地址:https://www.777doc.com/doc-3537509 .html