您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > 相关分析和回归分析的区别与应用
西南科技大学相关分析和回归分析的联系与区别姜胜玥(西南科技大学土木工程与建筑学院,城乡规划,2014000407)摘要:根据对相关分析和回归分析的举例来说明两者在SPSS的实现过程,分析回归分析和相关分析的联系与区别。关键词:SPSS;相关分析;回归分析1相关分析1.1相关分析的概念任何事物的变化都是与其他事物相互联系和相互影响的,用于描述事物数量特征的变量之间自然也存在一定的关系。变量之间的关系归纳起来可以分为两种类型,即函数关系和统计关系。当一个变量x取一定值时,另一变量y可以按照确定的函数公式取一个确定的值,记为y=f(x),则称y是x的函数,也就时说y与x两变量之间存在函数关系。函数关系是一一对应的确定性关系,比较容易分析和测度。可是在现实中,变量之间的关系往往并不那么简单。描述变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程为相关分析。在实际中,因为研究目的不同,变量的类型不同,采用的相关分析方法也不同。比较常用的相关分析方法是二元定距变量的相关分析、二元定序变量的相关分析、偏相关分析和距离分析,统称二元变量的相关分析。二元变量的相关分析是指通过计算变量间两两相关的相关系数,对两个或两个以上变量之间两两相关的程度进行分析。在二元变量的相关分析过程中比较常用的几个相关系数是Pearson简单相关系数、Spearman和Kendall’stau-b等级相关系数[1]。二元定距变量的相关分析是指通过计算定距变量间两两相关的相关系数,对两个或两个以上定距变量之间两两相关的程度进行分析。定距变量又称为间隔(interval)变量,它的取值之间可以比较大小,可以用加减法计算出差异的大小。例如,“年龄”变量、“收入”变量、“成绩”变量等都是典型的定距变量。Pearson简单相关系数就是用来衡量定距变量间的线性关系。定序变量又称为有序(ordinal)变量、顺序变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。1.2相关分析的应用1.2.1Pearson相关系数成绩分析(定距变量)现抽取某班级13名学生数学和计算机的期末考试成绩,如表1所示。现要研究该班学生的数学和计算机成绩之间是否具有相关性。西南科技大学表1某班数学与计算机成绩表将该表数据资料输入SPSS后,对其进行相关分析中的双变量分析,得出结果如图1所示。图1运行结果该报告的第一部分显示出个案数N=13,数学与计算机的平均成绩与标准差。第二部分就是所要求的相关系数,它是以一个矩阵的形式表现出来的,从中可看出,数学成绩与计算机成绩的相关系数为0.929,在这个系数的旁边有两个星号,表示指定的显著水平为0.01时,统计检验的相伴概率≤0.01。在表中显示的相伴概率为0.000,表示数学成绩与计算机成绩是正相关。1.2.2Spearman等级相关系数与Kendall’stau-b相关系数成绩分析(定序变量)现从某班学生中抽取10人,首先对学习方法与学习态度进行质量评定(降序分为1、描述性统计量均值标准差N数学81.692313.2626313计算机80.307710.0861713相关性数学计算机数学Pearson相关性1.929**显著性(双侧).000N1313计算机Pearson相关性.929**1显著性(双侧).000N1313**.在.01水平(双侧)上显著相关。西南科技大学2、3等),与成绩的关系如表2所示。分析学习方法与学习态度对成绩的影响。表2学习方法与学习态度质量评定表将该表数据资料输入SPSS后,对其进行相关分析中的双变量分析,得出结果如图2所示。相关系数方法态度成绩Kendall的tau_b方法相关系数1.000.484-.650*Sig.(双侧)..109.018N101010态度相关系数.4841.000-.542*Sig.(双侧).109..049N101010成绩相关系数-.650*-.542*1.000Sig.(双侧).018.049.N101010Spearman的rho方法相关系数1.000.564-.746*Sig.(双侧)..089.013N101010态度相关系数.5641.000-.634*Sig.(双侧).089..049N101010成绩相关系数-.746*-.634*1.000Sig.(双侧).013.049.N101010*.在置信度(双测)为0.05时,相关性是显著的。西南科技大学图2运行结果该报告的上半部分显示的是Spearman等级相关系数,下半部分是Kendall’stau-b相关系数,两个相关系数显示的结果基本一致,学习方法与学习态度在置信度为0.05时与成绩都是中度相关(因为等级是降序排列的,所以相关系数为负)。2回归分析2.1回归分析的概念线性回归分析[2]是基于最小二乘法原理产生的古典统计假设下的统计分析方法,用来研究一个或多个自变量与一个因变量之间是否存在某种线性关系。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;而回归分析则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。2.2回归分析的应用2.2.1SPSS中相关分析实现过程合成纤维的强度与其拉伸倍数有关,测得试验数据如表3所示。求合成纤维的强度与拉伸倍数之间是否存在显著的线性相关关系。表3合成纤维强度与拉伸倍数试验数据表西南科技大学将该表数据资料输入SPSS后,对其进行相关分析中的相关分析的线性分析,得出结果如图3所示。a.预测变量:(常量),强度。模型汇总模型RR方调整R方标准估计的误差1.986a.972.969.46803Anovaa模型平方和df均方FSig.1回归76.070176.070347.273.000b残差2.19010.219总计78.26011a.因变量:拉伸倍数b.预测变量:(常量),强度。系数a模型非标准化系数标准系数tSig.B标准误差试用版1(常量)-.034.321-.107.917强度1.120.060.98618.635.000a.因变量:拉伸倍数西南科技大学图3运行结果从结果中可以看出,强度与拉伸倍数的相关系数为0.986,强度解释了97%的拉伸倍数的变化程度,F=347.273解释了回归方程的线性关系显著,T=18.535解释了回归方程的系数显著,表现了拉伸倍数与强度之前的显著线性关系,得出的一元线性回归方程式是xy13.1034.03相关分析和回归分析的联系与区别3.1相关分析与回归分析的联系相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。与此同时,相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,因此,在具体应用过程中,只有把相关分析和回归分析结合起来,才能达到研究和分析的目的。3.2相关分析与回归分析的区别(1)相关分析中涉及的变量不存在自变量和因变量的划分问题,变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的性质和研究分析的目的,对变量进行自变量和因变量的划分。因此,在回归分析中,变量之间的关系是不对等的。(2)在相关分析中所有的变量都必须是随机变量;而在回归分析中,自变量是确定的,因变量才是随机的,即将自变量的给定值代入回归方程后,所得到的因变量的估计值不是唯一确定的,而会表现出一定的随机波动性。(3)相关分析主要是通过一个指标即相关系数来反映变量之间相关程度的大小,由于变量之间是对等的,因此相关系数是唯一确定的。而在回归分析中,对于互为因果的两个变量(如人的身高与体重,商品的价格与需求量),则有可能存在多个回归方程。需要指出的是,变量之间是否存在“真实相关”,是由变量之间的内在联系所决定的。相关分析和回归分析只是定量分析的手段,通过相关分析和回归分析,虽然可以从数量上反映变量之间的联系形式及其密切程度,但是无法准确判断变量之间内在联系的存在与否,也无法判断变量之间的因果关系。西南科技大学因此,在具体应用过程中,一定要注意把定性分析和定量分析结合起来,在定性分析的基础上展开定量分析。参考文献:[1]余建英,何旭宏.数据统计分析与SPSS应用[M].北京:人民邮电出版社,2003.[2]吕振通,张凌云.SPSS统计分析与应用[M].北京:机械工业出版社,2009.
本文标题:相关分析和回归分析的区别与应用
链接地址:https://www.777doc.com/doc-2171846 .html