您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 7第八章相关分析和回归分析
第八章相关分析和回归分析8.1相关分析和回归分析概述8.2相关分析8.3直线回归8.4多元线性回归8.5逐步回归8.6非线性回归8.1相关、回归分析概述相关分析计算反映各变量之间相关密切程度和性质的统计数。8.1.1相关分析概述简单相关:研究两变量直线相关的密切程度和性质,也称直线相关。偏相关:排除其余的影响因子,求出x与y的纯相关,这种相关称偏相关。复相关:研究一个变量与一组变量之间的相关性关系。典型相关:研究两组变量的相关性。8.1.2回归分析概述由自变数预测因变数的问题都叫回归分析。相关分析反映各变量间相关密切程度,回归分析反映因变量(Y)和自变量(X)之间的数量关系,用回归方程表示。回归模型不一定是因果关系,自变量可多于一个。回归分析依自变量个数的多少分为:一元回归和多元回归因变量和自变量间关系的性质分:线性回归和非线性回归回归分析的SAS过程:主要有REG(回归分析)GLM(广义线性模型)如由温度表水银柱高度(X)来估计温度(Y)时,自变量实际上是依赖于因变量。1简单相关2偏相关3复相关8.2相关分析(AnalysisofCorrelation)补:秩相关1简单相关简单相关:是对有联系的两类事物(x与y)表面关系密切程度的衡量。(SimpleCorrelation)一、简单相关系数yxssyxyyxxyyxxr),cov()()())((221||r相关系数r(无单位)的取值:即:11r二、简单相关系数r的显著性测验由d.f=n-2查出相关系数的临界值r0.05、r0.01(degreeoffreedom)SAS直接输出prob|r|概率值,记为a.统计假设H0:总体相关系数ρ=0若a0.05,接受H0,相关不显著,即总体x与y间不存在相关关系。若0.01a0.05,拒绝H0,相关显著,即总体x与y间存在相关关系。若a0.01,接受H0,相关极显著,即总体x与y间存在相关关系。P175datas;inputxy@@;cards;778.8647.9…733.5;例8.3橡胶树幼苗期刺检干胶产量(x,毫克)与正式割胶量(y,克)如下表,试求x与y的相关系数并画出y关于x的散点图。xy7764627271837994104966190811228.87.98.97.78.68.19.15.68.57.64.98.112.015.7xy111160188819280631058973130656.515.317.75.910.68.36.08.510.13.511.111.9三、简单相关实例proccorr;varxy;/*求r*/Procchart;ploty*x;/*散点图*/run;CorrelationAnalysis2'VAR'Variables:XYSimpleStatisticsVariableNMeanStdDevSumX2692.038530.44272393.0000Y269.11153.3269236.9000VariableMinimumMaximumX61.0000188.0000y3.500017.7000SAS输出结果:PearsonCorrelationCoefficients/Prob|R|underHo:Rho=0/N=26XYX1.000000.710190.00.0001Y0.710191.000000.00010.0结论:因r=0.71019,其出现的概率=0.00010.01,极显著,表示刺检干胶量与正式割胶量存在极显著的简单相关关系。y3456789101112131415161718x607080901001101201301401501601701801902偏相关(PartialCorrelation)1.一级偏相关系数简单相关是数字间的表面联系,如需了解x与y的本质联系,必须排除其余的影响因子,以得出x与y的纯相关,这种相关称偏相关。如果考查xi、xj、xk三个变数,则固定xk后,xi与xj之间的相关称为一级偏相关。)1)(1(22.jkikjkikijkijrrrrrr通式:其显著性由df=n-3查r0.05及r0.01确定。如果有xi,xj,xk,xl四个变数,则用统计方法固定xk,xl后,xi与xj之间的相关称为二级偏相关。)1)(1(2.2.....kjlkilkjlkilkijklijrrrrrr通式:其显著性由df=n-4查r0.05及r0.01确定。2.二级偏相关系数如:r13.2表示固定x2后,求x1与x3的偏相关系数。r13.24表示固定x2、x4后,x1与x3的偏相关系数。(Multiplecorrelation)3复相关(或多重相关)总平方和回归平方和22...12.)()ˆ(yyyyRKY研究一个变量与一组变量之间的相关关系,即多元相关或复相关分析。意义:复相关是因变数关于若干个自变数间关系密切程度的衡量。并以决定系数R2为衡量的标准。一般,y关于x1,x2,…,xk的复相关系数:10R数值范围:(2).R的显著性测验)(1122是自变数个数pppnRRFDf1=pdf2=n-p-1复相关系数及显著性测验将在多元线性回归方程的SAS程序中输出。P167例8.1橡胶树白粉病最终病情指数(x1)与最冷月的平均温度(x2)及一月份平均温度(x3)十三年记录资料如表5.2,试求简单相关系数、偏相关系数r12.3及r13.2。年份病情指数(x1)最冷月平均温度(x2)一月份平均温度(x3)19630.415.315.3196452.315.816.4196511.815.215.2…………19760.413.115.1表8.2橡胶树病情指数与温度表procgplot;plotx1*x2;procgplot;plotx1*x3;proccorr;/*简单相关*/proccorr;varx1x2;partialx3;/*r12.3*/proccorr;varx1x3;partialx2;/*r13.2*/run;datatemp;inputx1x2x3@@;cards;0.415.315.352.315.816.411.815.215.251.617.617.942.716.316.341.515.515.533.715.815.812.515.015.036.615.815.850.716.016.02.513.713.735.216.216.60.413.115.1;x10102030405060x2131415161718x10102030405060x3131415161718主要的输出结果如下:CORR过程3变量:x1x2x3简单统计量变量N均值标准偏差总和最小值最大值x11328.6076920.18875371.900000.4000052.30000x21315.484621.13420201.3000013.1000017.60000x31315.738460.99544204.6000013.7000017.90000Pearson相关系数,N=13当H0:Rho=0时,Prob|r|x1x2x3x11.000000.799490.00100.775490.0018x20.799490.00101.000000.869310.0001x30.775490.00180.869310.00011.00000CORR过程1Partial变量:x32变量:x1x2简单统计量变量N均值标准偏差总和最小值最大值偏方差偏标准偏差x31315.738460.99544204.6000013.7000017.90000x11328.6076920.18875371.900000.4000052.30000177.2425913.31325x21315.484621.13420201.3000013.1000017.600000.342840.58552Pearson偏相关系数,N=13当H0:PartialRho=0时,Prob|r|x1x2x11.000000.401690.1956x20.401690.19561.00000统计结论:r12=0.79949p=0.0010.01相关极显著r13=0.77549p=0.00180.01相关极显著r23=0.86931p=0.00010.01相关极显著r12.3=0.40169p=0.19560.05相关不显著r13.2=0.27108p=0.271080.05相关不显著实例:p170例8.2腰果分期播种试验,采用10天播种一次,每次播种10粒。1986年4月至1987年3月,共进行33次分期播种。表11是腰果种子发芽“普遍期”天数、平均气温、平均最低气温、及平均最高气温的观察资料。试求简单相关系数及二级偏相关系数。普遍天数平均气温平均最低气温平均最高气温1229.024.234.61527.823.632.6…………4219.214.925.2表8.3腰果种子“普遍期”天数与气温表datacashew;inputx1x2x3x4@@;cards;1229.024.234.6....4219.214.925.2;proccorr;varx1x2x3x4;proccorr;varx3x4;partialx2;proccorr;varx1x4;partialx2x3;run;CorrelationAnalysis2'PARTIAL'Variables:X2X32'VAR'Variables:X1X4PearsonPartialCorrelationCoefficients/Prob|R|underHo:PartialRho=0/N=33X1X4X11.000000.075170.00.6878X40.075171.000000.68780.0统计结论:r34.2=-0.8031p=0.00010.01相关极显著r14.23=0.07517p=0.68780.05相关不显著部分输出结果:组合代号X1X2X3Y110.3729.5633.3110.520210.4734.2529.0510.07039.6735.2537.6512.79049.8729.2531.529.23058.2037.8533.6210.36068.6737.7838.0912.570710.0340.9730.4212.56089.0046.0029.1011.388910.0739.7332.0612.830实习四实习作业:21个小麦双列杂交组合F1的单株产量y(克),每株穗数x1,每穗的粒数x2,千粒重x3(克)数据如下:组合代号X1X2X3Y1010.5736.3030.5911.800118.7337.1027.178.7301210.2035.6732.2111.790138.9335.4433.2210.420149.8334.2828.409.830158.6033.3135.4910.920168.8335.1027.548.440178.8034.4534.2010.500188.8030.6529.477.940199.4031.2030.758.8302010.0339.2729.2111.330试求ry1、ry3、ry1.2、ry1.23,并确定其显著性。&8.3直线回归分析(一元线性回归)一、直线回归方程正相关r0曲线相关负相关r0无相关X与Y值的对应情况用点式图表示:bxayˆ样本总体xY总体回归系数总体回归截距回归系数回归截距::::bax:自变数y:因变数1)直线上方各点离直线的距离等于下方各点离直线的距离;0)ˆ(yy3)残差平方和取最小值;2)ˆ(yyQ2)直线经过点),(yx根据极值原理,分别对a、b求导且等于0,即求出22)()ˆ(bxayyyQ使最小拟使直线方程的要求:回归系数2)())((xxyyxxb回
本文标题:7第八章相关分析和回归分析
链接地址:https://www.777doc.com/doc-4449810 .html