您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > SAS-多变量统计分析
生态学统计分析方法与实践郝彦宾中国科学院研究生院第八章多变量统计分析多变量统计分析(multivariatestatisticalanalysis)统计资料中有多个变量(或称因素、指标)同时存在时的统计分析,是统计学的重要分支,是单变量统计的发展。-多元回归分析逐步回归、岭回归、多项式回归和分类数据-主成分分析-因子分析-典型相关分析-聚类分析-判别分析§8.1多元回归分析多元回归分析(MultipleRegressionAnalysis)研究一个依变量对两个或多个自变量(且自变量均为一次项)依存关系的统计分析方法。解决的问题:①确定各个自变量对于某一依变量的综合效应②在大量自变量中,选择仅对依变量有显著效应的自变量,建立最优的多元回归方程③评定各个自变量对于依变量的相对重要性④确定各个自变量对某一依变量的各自效应(偏回归系数)§8.1.1一般线性回归分析过程REG过程格式PROCREG[选择项];model依变量表=自变量表/选择项;by变量表;var变量表;Outputout=输出数据集关键字=新变量表;PROCREG[选择项]说明:Data=数据集Outsscp=数据集储存变量的平方和与叉积矩阵指定输出的统计信息:Simple输出每个变量的基本统计量Corr输出model语句或var语句中所列变量的相关矩阵Usscp输出过程所用变量的平方和与叉积矩阵All输出所有可能的统计信息。Model语句:Noint指定拟合回归模型中不包括截距项(常数)Stb输出标准偏回归系数Collin进行自变量之间的共线性分析Predicted或P输出实际观察值、预测值及其残差等Residual或R进行残差分析DW检验回归方程中是否存在自相关CLM输出依变量平均数的95%的置信区间上下限CLI输出依变量预测值95%置信区间上下限OUTPUT语句P、R、U95、L95、student(学生氏残差)例题:测定某生态系统土壤含氮量(x1,%)、含磷量(x2,%)和其生产力的关系(y,g/m2),得结果如下,试做二元回归方程。土壤含氮、磷量与生产力X1X2Y26.731.330.433.934.633.830.427.033.330.431.533.134.073.459.065.958.264.664.662.171.464.564.161.156.059.810089591051102210971103992945107410291004995104522'iiixbby标准偏回归系数:结果回归方程的显著水平达到了0.0001,说明各个自变量的综合对依变量y有真实的回归关系,且自变量x1和x2对依变量y的偏回归显著水平分别达到0.0001和0.0003,说明x1和x2对依变量y有真实的回归关系。回归方程:y=-351.74+24.80x1+9.36x2由标准偏回归系数的分析结果表明,土壤含N量每增加一个标准差单位,生产力平均增加1.3166个标准差单位;土壤含P每增加一个标准差单位,生产力平均增加0.9580个标准差单位。所以,N的增加比P的增加效应要大一些。除非自变量全部取值为0,或者截距项的估计值与0相差很小(在一元回归中反映为拟合直线可能通过原点),在线性回归分析中我们不用考虑对截距项(常数项)的显著性检验是否能通过。例题:某生态系统的生产力大小受到光照时数、平均年温度、降雨量和降雨时数的影响,根据多年的观测的结果,试拟合预测模型。年份日照时数空气温度降雨量降雨天数生产力195260721.4183.78.643.56195372723.1222.912.390.44195476525.5262.415.999.07195580722.927219.9100.36195688824.4287.426.7155.28195793524.9310.235.2143.321958111733.9387.652.22691959127443.8487.168.3349.721960126439.6572.366.3388.691961101319.2356.155.4127.42196294810.4313.641.171.261963104717.5342.345.798.161964118422.2399.555.5144.121965134727.1473.365.2179.611966153530.6558.772.3209.421967142821.3419.473.9140.171968140921.1361.378.3113.061969153723.2526.875.9200.831970187632.9662.979.5312.551971200834.1744.790.3340.841972205231.6766.6105.2327.981973225232.9809.7121.2338.11974229132.3783.1136.5347.711975245133.9815.6149.6409.321976242430.9776.6159.1376.441977257332.3874.5181.6382.371978297536.51121.1210.6500.991979335634.61103.3281523.481980368631.61085.2399.5558.891981388728.51089.5523.7442.9119824254291124675.4555.53…..共线性是指某一指标量值可以表示成其它几个指标量值的线性组合.评估指标间存在共线性的影响是导致评估结果推断上的不稳定的原因并造成较大的推断误差.回归方程达到极显著水平suntime和pday的偏回归系数不显著,可从方程中剔除比较条件指数最大值所在行的系数,系数较大的那些个自变量具有加大的共线性可能出现共线性的情况:1.偏回归系数的大小和方向明显与常识不同2.从专业角度看对应变量有影响的因素,却不能入选3.去掉一两个变量,方程的回归系数值发生剧烈的变化4.整个Model的检验有统计学意义,而model包含的所有自变量均无统计学意义221(1)inpniRRnp其中当有截距项时为1,否则为0;是用于拟合模型的观测个数;是模型中参数的个数。在回归分析中,当所处理的数据与时间序列有关时,其预测误差往往是前后关联的。检验这种相关程度的大小,可选用DUEBIN-WATSON统计量。DW=2:误差间完全没有相关程度的大小。DW=0orDW=4:误差间有正或负的线性相关。Adjrsq:决定系数准则。Cp准则:从预测观点出发,基于残差平方和的一个准则。按Cp准则应选择除全模型外,Cp值与P(P个自变量)最接近的模型。VIF:方差膨胀因子。如果VIF10多重共线性就会严重影响参数估计值。VIF=1,表示自变量xi与其他变量间不存在线性相关。AIC信息量准则:应选择使AIC最小的模型。AIC=nln(SSEp/n)+2p多重共线性对于模型Yi=0+1X1i+2X2i++kXki+ii=1,2,…,n(2.8.1)其基本假设之一是解释变量X1,X2,…,Xk是互相独立的。如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。back完全共线性下参数估计量不存在多元线性模型YX的普通最小二乘参数估计量为:()XXXY1(2.6.4)如果存在完全共线性,则(X’X)-1不存在,无法得到参数的估计量。例如:对一个离差形式的二元回归模型2211xxy如果两个解释变量完全相关,如12xx,则有221212212121221221211iiiiiiiiiiixxxxxxxxxxxXX1121iiiiiiyxyxyxYX该回归模型的正规方程为YXBX)Xˆ(或iiiiiyxxxx1212211ˆˆiiiiiyxxxx2222121ˆˆ解该线性方程组得:00ˆ2122121212121211221221212222111iiiiiiiiiiiiiiiiiiiiiiixxxxxyxxyxxxxxxxxyxxxyx1ˆ为不定式;同理,2ˆ也为不定式,其值无法确定。事实上,当12xx时,原二元回归模型退化为一元回归模型:121)(xy只能确定综合参数21的估计值:21121ˆˆiiixyx…..例:研究耗氧量模型。这是有关身体适应性测试的例子,肺活量与一些简单的锻炼测试数据的拟合,目的是为了在锻炼测试的基础上而不是在昂贵笨重的氧气消耗测试的基础上得到方程来预测适应性。这是一个对31位成年人心肺功能的调查结果,它包含的变量和测试的各项数据见表:测试数据ageweightoxygenruntimerstpulserunpulsemaxpulse4489.4744.60911.37621781824075.0745.31310.07621851854485.8454.2978.65451561684268.1559.5718.17401661723889.0249.8749.22551781804777.4544.81111.63581761764075.9845.68111.95701761804381.1949.09110.85641621704481.4239.44213.08631741763881.8760.0558.63481701864473.0350.54110.13451681684587.6637.38814.03561861924566.4544.75411.12511761764779.1547.27310.60471621645483.1251.85510.33501661704981.4249.1568.95441801855169.6340.83610.95571681725177.9146.67210.00481621684891.6346.77410.25481621644973.3750.38810.08761681685773.3739.40712.63581741765479.3846.08011.17621561655276.3245.4419.63481641665070.8754.6258.92481461555167.2545.11811.08481721725491.6339.20312.88441681725173.7145.79010.47591861885759.0850.5459.93491481554976.3248.6739.40561861884861.2447.92011.50521701765282.7847.46710.5053170172通过在SAS/Insight软件中绘制散点图矩阵,操作步骤为:在SAS命令框中键入insight后按Enter,在SAS/Insight:Open对话单中,选择work.fitness数据集后单击Open按钮,将在屏幕的窗口中显示当前打开的数据集work.fitness内容,再选择菜单上的Analyze/ScatterPlot(YX)命令,在出现的ScatterPlot(YX)对话单中,把fitness数据集中的7个变量依上面的次序全部加入Y轴和X轴的列表框中,最后单击OK。Age的变化范围ss1是按model语句中自变量的排列顺序依次计算每个自变量的平方和,也称为第一类平方和或称顺序平方和,ss2是把model语句中每个自变量排到变量列表的最后,所计算的一类平方和,称为第二类平方和。通过分析每个自变量的这两类平方和,能知道回归模型总的平方和的构成和各个自变量所贡献的平方和,进而能知道哪些自变量是最重要的回归变量,哪些回归变量可能是无关紧要的,
本文标题:SAS-多变量统计分析
链接地址:https://www.777doc.com/doc-4875926 .html