您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > 回归分析SPSS操作
回归分析回归分析基本概念1一元线性回归分析2多元线性回归分析3回归分析基本概念1回归分析主要解决以下几方面的问题:通过分析大量的样本数据,确定变量之间的数学关系式。对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。2.1统计学上的定义和计算公式定义:一元线性回归分析是分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。一元线性回归分析2研究问题合成纤维的强度与其拉伸倍数有关,测得试验数据如表9-1所示。求合成纤维的强度与拉伸倍数之间是否存在显著的线性相关关系。2.2SPSS中实现过程表1强度与拉伸倍数的试验数据序号拉伸倍数强度(kg/mm2)12.01.622.52.432.72.543.52.754.03.564.54.275.25.086.36.497.16.5108.07.3119.08.01210.08.1实现步骤图1在菜单中选择“Linear”命令图2“LinearRegression”对话框因变量自变量指定回归方法全部选入图3“LinearRegression:statistics”对话框与回归系数相关的统计量提供决定系数、估计标准误、ANOVA表等异常值诊断报告残差超过2个标准差的被试图4“LinearRegression:Plots”对话框调整预测值标准化预测值标准化残差剔除残差学生化残差学生化剔除残差输出标准化残差相对于因变量的散布图标准化残差图直方图正态概率图对应x值的残差图ˆyyx0良好模式ˆyyx0方差不齐ˆyyx0不满足线性回归假设图5“LinearRegression:Save”对话框预测值残差本对话框用来定义存储进入数据文件的新变量预测区间均数的置信区间个体的容许区间222,2)(1ˆxnxxxnstYievi222,2)(11ˆxnxxxnstYievi学生化残差标准化残差未标准化残差(1)输出的结果文件中的第一部分:X与Y的简单相关系数2.3结果和讨论2)ˆ(222nyyneSiiie估计标准误1)决定系数R2它表示在因变量y的总变异中可由回归方程所解释部分的比例。0R2≤1,越接近于1,说明回归方程效果越好。SSTSSESSTSSRR122)校正的决定系数AdjR20AdjR2≤1,越接近于1,说明回归方程效果越好。即使自变量对Y无显著意义,R2也随方程中的变量个数增加而增加。AdjR2可以惩罚复杂模型。MSTMSERAdj12F=t2截距回归系数标准化回归系数结果显示:回归方程显著,即合成纤维的强度受拉伸倍数的显著影响XYssrb1xYrzzˆxYzzˆ(2)第二部分异常值分析ˆiistandardizedyyresidswheresstddevofresiduals如果标准化残差超过2/-2,称为异常值outliers。当样本量比较小,异常值又会影响回归系数的估计时,应该关注异常值的影响。2ˆ12nyysniii异常值a不影响异常值b影响第i个观察值的学生化残差))()(1(1ˆˆ22ˆxxxxnsyySyyresidiiiiyyiidstudentizeii2ˆ12nyysniii考虑了用来计算残差的值有不同的方差。这种调整能够使残差分析更加敏感地发现方差不齐。学生化残差超过2和-2的点可认为是异常值iiyySˆiyˆ(3)第三部分数据窗口的存储未标准化残差标准化残差学生化残差预测区间均数的置信区间个体的容许区间1.7利用回归方程进行估计和预测均数的置信区间:均数界值×标准误个体的容许区间(参考值范围):均数界值×标准差22,2)(+1±ˆ)-(-∑xxxxnstYievαi22,2)(+1+1±ˆ)-(-∑xxxxnstYievαi可信区间与预测区间示意图3.1统计学上的定义定义:在上一节中讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。多元线性回归分析3研究者往往是根据自己的经验或借鉴他人的研究结果选定若干个自变量,这些自变量对因变量的影响作用是否都有统计学意义还有待于考察。在建立回归方程的过程中有必要考虑对自变量进行筛选,挑选出若干个与因变量作用较大的变量建立回归方程。剔除那些对因变量没有影响的变量,从而建立一个较理想和稳定的回归方程。3.2逐步回归逐步回归的思想:1.开始方程中没有自变量,然后按自变量对y的贡献大小由大到小依次挑选进入方程,每选入一个变量,都要对进行检验,决定变量的取或舍。2.每一步都作一次如下的检验:H0:p个自变量为好H1:p+1个自变量为好采用F作为统计量。SSE(H0)-SSE(H1)F=SSE(H1)/(n-p-2)其中SSE(H0)表示用p个变量回归的残差平方和SSE(H1)表示用p+1个变量回归的残差平方和。若F≥F(界值),则拒绝H0,可决定增多相应的自变量;否则,不拒绝H0,可决定不增加相应的自变量。研究问题用多元回归分析来分析36个员工多个心理变量值(z1~z5)对员工满意度my的预测效果,测得试验数据如表9-2所示。3.2SPSS中实现过程表9-2员工多个心理变量值和员工满意度数据z1z2z3z4Z5满意度66.0064.0058.001.081.0025.0055.0050.0053.001.001.1122.0050.0047.0046.001.311.2020.0055.0059.0052.001.001.0020.0055.0059.0047.001.001.0024.0062.0054.0046.001.081.0023.0060.0060.0052.001.081.0021.0052.0052.0057.001.001.0023.0056.0055.0044.001.691.0015.0050.0050.0045.001.081.1425.0058.0054.0052.001.001.0025.0053.0052.0065.001.081.0022.0052.0056.0063.001.461.4320.0056.0065.0062.001.001.0022.0050.0063.0055.001.001.0020.0063.0057.0051.001.001.0026.0056.0046.0045.002.231.2921.0047.0050.0050.002.081.1420.0053.0066.0055.001.001.0025.00z1z2z3z4z5满意度61.0055.0058.001.151.1423.0059.0064.0054.001.081.0026.0055.0060.0055.001.081.0026.0056.0052.0051.001.851.7130.0059.0051.0052.001.001.0025.0060.0053.0047.001.311.1427.0052.0051.0055.001.231.1420.0056.0057.0059.001.001.1426.0068.0058.0053.001.001.0030.0060.0053.0056.001.001.0027.0064.0056.0059.001.851.1418.0067.0053.0053.001.001.0024.0056.0056.0056.001.001.0024.0053.0046.0050.001.311.1419.0053.0057.0067.001.771.4317.0060.0040.0056.001.081.0024.0054.0045.0042.001.001.0023.00实现步骤图7-7“LinearRegression”对话框(二)逐步回归Enter:所有自变量强制进入回归方程图3“LinearRegression:Statistics”对话框描述性统计量部分相关和偏相关共线性诊断德宾-沃森自相关关于回归系数的选择项非标准化回归系数95%置信区间非标准化回归系数的方差-协方差与回归系数相关的统计量提供决定系数、估计标准误、ANOVA表等显示每个自变量进入方程后对R2和F值的影响观测值诊断当自变量之间存在高度相关性,将引起回归方程估计结果不稳定,参数(回归系数)估计的标准误大大增加,称为共线性。共线性诊断:1)条件数(ConditionIndex):k10(轻度)10k30(中度)k30(严重)2)方差扩大因子(VIF):5或10,严重3)Tolence(容忍度):.1严重图6“LinearRegression:Options”对话框逐步回归法变量取舍标准用F值的显著性水平作为标准用F值作为标准在回归方程中包括常项缺失值的处理方式用均值代替缺失值(1)输出结果文件中的第一部分:3.3结果和讨论复相关=√R2YR2y.12YX1X2总误差总回归SSSSSSSSR12(1)输出结果文件中的第一部分:3.3结果和讨论R2的改变都是显著的,说明增加自变量可以显著地改善对因变量的预测第三个回归方程的解释率最高2)输出的结果文件中第二部分:F检验的结果显示,三个回归方程都显著1H0:B1=02H0:B1=B2=03H0:B1=B2=B3=0非标准化回归方程:1Y=7.337+.276×Z1+e2Y=14.129+.227×Z1-3.301×Z4+e3Y=4.335+.268×Z1-6.286×Z4+10.188×Z5+e标准化回归方程:1Y=.413×Z1+e2Y=.340×Z1-.336×Z4+e3Y=.401×Z1-6.639×Z4+.477×Z5+e多重回归的矩阵表达1.一般公式2.矩阵表示3.最小二乘估计y=Xβ+eˆ-1β=(XX)Xy01122ippiyxxxe0:20BH1y2rYX1X2Zero-Order零阶相关/简单相关y(1.2)2rPartCorrelation部分相关YX1X2PartcorrelationCorrelationbetweenYandX1whenvariableduetoX2hasbeenpartialedoutofX1,butnotoutofY.y(1.2)r2y1.22rPartialCorrelation偏相关YX1X2partialcorrelationofYandX,controllingforotherpredictors.SimplecorrelationofYandX,afterallinfluencesofpredictorshavebeenpartialedoutofbothYandX.作业等距、等级和分类变量的相关一元回归二元回归各做一个分析,数据“作业.sav”
本文标题:回归分析SPSS操作
链接地址:https://www.777doc.com/doc-3437429 .html