您好,欢迎访问三七文档
当前位置:首页 > 建筑/环境 > 工程监理 > SAS应用基础6-2
1相关分析相关分析是讨论分析变量之间是否有明显相关关系的重要工具,主要用于测定两变量在数量关系上的密切程度和性质。相关关系是指在一定范围内,一个变量任一取值xi,虽然没有另一变量的某个确定值yi与之对应,但却有一个特定的yi的条件概率分布与之对应,只要有这种关系存在,我们就称变量x,y有相关关系。相关模型中,没有自变量与依变量的区别,不具有预测特性,仅表示两变量的偕同变异。SAS系统的CORR过程能计算变量间的相关系数,包括Pearson,Spearman,Hoeffding,Kendall等相关系数及其他统计量。2三种相关系数Pearson相关系数:线性相关系数。它一般用字母r表示.Kendallτ相关系数:把所有的样本点配对,看每一对中的x和y是否都增加来判断总体模式.Spearman秩相关系数:把点的坐标换成各自样本的秩.3CORR过程一般格式:PROCCORRDATA=数据集名称[选项];VAR变量表;/*列出相关矩阵上部出现的变量*/[WITH变量表;]/*列出相关矩阵左侧出现的变量*/[PARTIAL变量表;]/*指明求偏相关时受控制的变量*/[WEIGHT变量;][FREQ变量;][BY变量;]RUN;注意:在SAS分析家中Descriptive-Correlations…选项下,可交互式的完成corr过程。4CORR过程示例例:利用SCORE数据集计算语文成绩与英语成绩的相关关系。程序如下:proccorrdata=sasuser.score;varchineseenglish;run;结果可以分为2个部分,第1部分是简单统计量,第2部分是相关系数及其P值。相关系数以矩阵的形式给出,变量与自身的相关系数当然为一,不为1的地方,上面的值是相关系数,下面的是P值。例如语文成绩与英语成绩的相关系数为0.72379,相关系数为0的概率值为0.0015。5相关分析示例某学校随机抽取18名学生,测定其智商(IQ),连同当年数学和语文成绩,数据见下表。6示例的SAS程序dataiq;inputnomathchineseIQ@@;cards;178839528476100361701004525875593821056897897798891108989512096561761073759211485361124543601367708814757896159597125168892113179992125188188102run;symbol1v=dotcv=redh=1;symbol2v=starcv=greenh=2;procgplot;plotchinese*IQ=1math*IQ=2/overlay;run;proccorrpearsonkendallspearman;varmathchineseIQ;run;7三种相关系数的说明•分析变量中两两之间的简单相关分析,用corr过程;•当两变量都服从正态分布时,计算pearson相关系数;•当变量不服从正态分布或为等级数据时,应采用Kendall或Spearman相关系数;•Spearman相关可用于双向有序分类变量之间是否有关联的分析,也称为秩相关。8偏相关去除第三个变量对两变量之间相关的影响proccorrnosimple;varchinese;withmath;run;proccorrnosimple;varmathchinese;partialIQ;run;9回归分析回归分析是统计分析的一项重要内容,它可以帮助我们找出变量之间的数量关系.SAS/STAT中提供的关于回归的过程很多包括(REG)回归过程、(RSREG)二次响应面回归过程、(ORTHOREG)病态数据回归过程、(NLIN)非线性回归过程、(TRANSREG)变换回归过程、(CALIS)线性结构方程和路径分析过程、(GLM)一般线性回归过程、(GENMOD)广义线性回归过程等等。10一元线性回归模型1:收集数据:n个样本点(x1,y1),(x2,y2),…,(xn,yn).即(xi,yi),i=1,2,…,n.2:散点图scatter:05101520253035404550024683:观察散点图,变量x,y具有明显的线性关系。故经过这些样本点画一条适当的直线。11一元线性回归的概念与术语y=0+1x+εY称为被解释变量,x称为解释变量ε表示除x外,影响y的其他一切因素.ε(error,disturbance)是不可观测的,称为随机误差项或随机干扰项y与x之间的关系用两部分来描述:a.一部分0+1x,由x的变化引起y变化b.另一部分ε,由除x外的其他一切因素引起y变化1称为回归系数(slope)0称为回归常数(intercept)12回归方程的参数估计参数0,1的估计方法:普通最小二乘估计OLSE(ordinaryleastsquareestimation)目的:利用样本数据得到0,1的理想估计值原则:使n个样本点最靠近回归直线例:随机抽样某地区5个家庭的年收入x与年消费y(千元)的资料如表:收入x811966消费y7.49.885.35.713示例的散点图LinearRegression6.007.008.009.0010.0011.00x6.007.008.009.00yy=0.40+0.86*xR-Square=0.9914回归线的直观意义要使样本点最靠近回归直线,考虑观测值yi与回归值(即平均值)E(yi|xi)=0+1xi的离差的平方和思考:为什么不考虑∑(yi-E(yi)),及∑|yi–E(yi)|?15最小二乘法名称的由来•样本点最靠近回归直线,就是使离差平方和最小。niiiniiixyEyyQ12101210)()(),(•所谓的最小二乘法,就是寻找参数0,1的估计值,使定义的离差平方和达到极小210,2101010)(min)ˆˆ()ˆ,ˆ(ˆˆ10iiiixyxyQ,满足,即寻找16最小二乘估计公式的推导利用二元微积分求极值的知识知:0、1作为极值问题解的必要条件是:在0、1取值时,Q(0,1)关于0,1的偏导数必须为0:0)ˆˆ(20)ˆˆ(210ˆ110ˆ01100iiiiixxyQxyQ以上方程组称为firstorderconditions(FOC)17回归参数估计公式由FOC整理可得正则方程(Normalequations):iiiiiiyxxxyxn12010ˆ)(ˆ)(ˆ)(ˆ利用克莱姆法则,得出普通最小二乘估计(OLSE:ordinaryleastsquareestimators)222110)()()())((ˆˆˆxnxyxnyxxxyyxxxyiiiiii18REG过程最常用的回归过程是REG过程,它的使用方法是:PROCREGDATA=输入数据集[选项];VAR变量列表;MODEL因变量自变量列表;[PRINT输出结果;][PLOT诊断图形;]RUN;19Reg示例对数据集stock分析股价price与每股收益eps、流通量scale的线性关系。调用REG过程:procregdata=stock;varepsscaleprice;modelprice=epsscale;run;RootMSE:残差标准差,反映回归方程的精度,其值越小说明回归效果越好;R-square:说明所有自变量能解释Y变化的百分比,其值越接近1,说明模型越好。20Reg示例的结果21分析结果解释回归的结果在最后一部分,第1行是常数项,也叫做截距项,估计值为16.09763,P值为0.0001。第2行是某股收益eps的系数,估计值为18.30654,P值为0.1465。第3行是流通盘scale的系数,估计值为-0.00050472,P值为0.0001。因为eps的P值大于0.05,所以不能拒绝零假设,即eps变量的作用是不显著的。为了得到更好的拟和结果,应当去掉eps变量重新进行回归。22Reg的补充说明实际上,REG过程中提供了自动选择最优自变量的选项。在MODEL语句中加上SELECTION=优化方法就可以自动挑选变量,可供选择的优化方法有NONE(全用)、FORWARD(前进法,逐步引入法)、BACKWARD(后退法,逐步消去法)、STEPWISE(逐步法,智能消除法)等等。如果对上面的问题使用STEPWISE方法procregdata=sasuser.stock;varscalepriceeps;modelprice=scaleeps/selection=stepwise;run;23常用的三种逐步回归法FORWARD前进法:从模型中没有变量开始,每次将一个最显著的变量引入模型,直到模型以外的变量不再有显著的下值为止;BACKWAND后退法:从模型中含所有自变量开始,每次从模型中剔除一个贡献最小的变量,直到模型中只剩下均为显著的变量为止;STEPWISE逐步法:每次引入模型一个最显著的变量,然后考虑从模型中剔除一个最不显著的变量,直到既没有变量引入也没有变量剔除为止。24NLIN过程非线性回归(NLIN)也是一种重要的回归方法。所谓非线性回归,就是指因变量的表达式是非线性的。可以用非线性回归过程对上面的问题进行回归。由于非线性回归的模型比较复杂,为了估计系数而需要进行的计算量也很大,所以在过程中需要指明模型的表达式并且给定系数的初值。25NLIN过程示例例:对数据集stock,利用非线性回归过程进行回归分析。首先假设模型为:price=b0*eps+b1*scale+b2*eps*scale+b3设定参数b0b1b2b3的初值分别为11110然后编辑过程如下:procnlindata=sasuser.stock;modelprice=b0*eps+b1*scale+b2*eps*scale+b3;parametersb0=1b1=1b2=1b3=10;run;26计算结果输出表计算结果包括5个表格,它们的含义如下:•IterativePhase:主要介绍计算中的迭代情况,给出了迭代序号以及每次迭代中的系数值。在此例中一共只迭代了两次。•EstimationSummary:回归过程的总结,使用了什么方法,哪些数据。•方差分析表:介绍各部分方差的来源,给出回归模型的P值,可以检验回归出的模型是否有效。在此例子中,回归模型的P值是0.0004,小于0.05,所以说模型是显著的。•近似系数表:给出系数的估计值、估计标准差、95%的置信上限、95%的置信下限。•近似相关系数矩阵:给出模型中参数的相关系数矩阵的估计值。27用交互界面进行回归分析使用SAS/INSIGHT、SAS/ANALYST模块都可以通过交互式图形界面的操作方便地进行回归分析。在INSIGHT或ANALYST界面下有各种菜单,提供常用的一些回归分析方法让用户快速的在相应对话框中填写必要的参数,即可自动进行分析。28方差分析方差分析是用来研究试验因素对试验结果的影响。方差分析在实际中具有重要意义,科研生产中很多问题都要用到方差分析。例如,在农业试验中,对两块种有小麦的完全相同的土地,第1块施以化肥A,第2块施以化肥B;第1块使用种子C,第2块使用种子D。在两块土地中,又分别分为10小块,这样经过一段时间后得到了20个不同的亩产值。如何通过这些值来判断化肥、种子是否具有明显差异呢?这就是一个典型的方差分析问题。化肥、种子便是其中的因素,每个因素的取值只有几个。使用方差分析,可以找出哪些因素对于实验结果具有明显影响,还可以确定因素的哪个取值导致的结果更好一些。29方差分析的核心思想方差分析的核心思想是,把样本与平均值的离差平方和分解为两部分,一部分来源于不同因素之间的差异,另一部分来源于同组之内的差异。如果来自于不同因素之间的差异占到一个比较大的比例,那么
本文标题:SAS应用基础6-2
链接地址:https://www.777doc.com/doc-3869810 .html