数据分析与软件应用__第六讲_数据的相关分析

第六讲相关与回归分析相关分析一元回归分析多元回归分析曲线拟合非线性回归分析6.1相关分析相关分析和回归分析的任务研究对象：统计关系相关分析旨在测度变量间线性关系的强弱程度。回归分析侧重考察变量之间的数量变化规律，并通过一定的数学表达式（回归方程）来描述和反映这种关系，帮助人们准确把握变量受其他一个或多个变量影响的程度，进而为预测提供依据。6.1相关分析目的通过样本数据，研究两变量间线性相关程度的强弱。(例如：职工的年龄和收入之间的关系、工人数和管理人员之间的数量关系）基本方法绘制散点图（【Graphs】【Scatter】然后按define按钮对散点图作具体定义）计算相关系数6.1.1相关系数作用:以精确的相关系数(r)体现两个变量间的线性关系程度.r:[-1,+1];r=1:完全正相关;r=-1:完全负相关;r=0:无线性相关。说明:相关系数只是较好地度量了两变量间的线性相关程度，不能描述非线性关系。数据中存在极端值时不好。6.1.相关系数的种类Pearson简单相关系数:度量定距型变量间的线性相关关系化简得：12211()()()()niiinniiiixxyyrxxyy11()()niiixyxxyyrnss6.1.相关系数的种类简单相关系数的统计量为t统计量22n2t1rntr服从个自由度的分布6.1.相关系数的种类Spearman等级相关系数：度量定序变量间的线性相关关系在原假设成立时，小样本，等级相关系数服从Spearman分布；大样本，等级相关系数的检验统计量为z统计量近似服从标准正态分布222121161()(1)ninniiiiiiDrDuvnn其中1zrn6.1相关系数的种类Kendell相关系数：采用非参数检验方法度量定序变量间的线性相关关系11Kendall2()(1)()()kendalllkendall9(1)2(25)njiijinjiijiuvnnudduddnnzn统计量的数学定义：其中：一致对数目定义非一致对数目定义在小样本下，分布服从分布；大样本下，采用的检验统计量为：近似服从标准正态分布6.1.相关系数的分析步骤计算相关系数的基本步骤：【Analyze】【Corralate】【Bivariate】例如：家庭收入和计划购买的住房面积之间的关系6.2偏相关分析偏相关分析：（净相关分析），是在控制其他变量的线性影响下分析两个变量间的线性相关。1212212122212121212(1)(1),,xxxxyyyxxyyyrrrrrrrrr其中分别表示y和、y和、和的相关系数6.2偏相关分析偏相关分析的显著性检验：原假设：两总体的偏相关系数与零无显著差异统计量：2212nqtrrrnqtnqt为偏相关系数；为样本数；为阶数。统计量服从个自由度的分布6.2偏相关分析的步骤应用举例：分析家庭收入与计划购房面积间的相关性（家庭常住人口数作为控制变量）【Analyze】【Corralate】【Bivariate】6.3回归分析回归分析：用于分析事物间的同级关系，侧重考察变量之间的数量变化规律，并通过一定的数学表达式（回归方程）来描述和反映这种关系，帮助人们准确把握变量受其他一个或多个变量影响的程度，进而为预测提供依据。回归分析的目的：找到回归线（如何得到回归线，如何描述回归线，回归线是否可以用于预测）如何得到回归线局部平均：（样本量足够大）函数拟合：（样本量无法达到预期的数量）1、通过散点图观察变量间的统计关系，得到回归模型2、估计回归模型参数3、对回归方程进行检验回归分析的步骤确定回归方程中的解释变量和被解释变量确定回归模型建立回归方程对回归方程进行各种检验利用回归方程进行预测6.3.1线性回归方程一元线性回归的数学模型:两边求期望:01012y;y(0,)yxyxN被解释变量的变化由两部分解释：一、由解释变量x的变化引起的y的线性变化部分，即二、有其他随机因素引起的的变化部分，即服从010101()xyxyˆˆˆˆ:ˆxyEyxx称一元线性回归方程，它表明和间的统计关系是在平均以以下的表述，即当的值给定后利用回归模型计算的的值是一个平均值于是有一元线性经验回归方程：y回归直线在纵轴上的截距：回归线的斜率，它表示解释变量没变动一个单位所引起的被解释变量的平均变动数量6.3.1线性回归方程多元线性回归方程多元回归方程:Y=β0+β1X1+β2x2+...+βkxkβ1、β2、βk为偏回归系数。β1表示在其他自变量保持不变的情况下，自变量X1变动一个单位所引起的因变量Y的平均变动6.4回归方程的统计检验拟合优度检验:Y的个观察值之间的差异(或与其均值的差异主要有两个方面的原因造成:一解释变量x的取值不同造成的二其他随机因素造成的如成年儿子身高的差异:1.父亲身高的影响2.即使父亲身高相同,其成年儿子身高也不尽相同,还会受到其他随机因素的影响拟合优度检验222111()()()nnniiiiiiyyyyyySSTSSASSE回归方程能够解释的变差所占比重较大，回归方程拟合优度就会越高一元线性回归方程一元线性回归方程拟合优度检验采用222112211ˆˆ()()1()()nniiiiinniiiiyyyyRyyyy反映了回归方程所能解释的变差的比例多元线性回归方程当回归方程中解释变量个数增多时,SSE必然会随之减少进而导致R2值的增加回归方程中引入了对被解释变量有重要”贡献”的解释变量而使R2值增加拟合优度检验采用调整的判定系数或调整的决定系数2111SSEnpRSSTn显著性检验解释变量与被解释变量间是否确实存在显著的线性关系,如显著用线性模型描述才是恰当的.一元线性回归方程原假设:回归系数与零无显著差异2121()()/(2)1n-2niiniiiyyFyynF统计量服从（，）个自由度的F分布多元线性回归方程原假设:统计量12p0，即各偏回归系数同时与零无显著差异2121ˆ()/ˆ()/(1)(,1)niiniiiyypFyynppFFpnp为多元线性回归方程中解释变量的个数服从回归方程的显著性检验与拟合优度检验有异曲同工之处22/(1)/(1)RpFRnp拟合优度越高，回归方程的显著性也会越显著回归系数的显著性检验目的；研究回归方程中的每个解释变量与被解释变量间是否存在显著的线性关系，即研究每个解释变量能否有效地解释被解释变量的线性变化，他们能否保留在线性回归方程中。回归系数显著性检验是围绕回归系数估计值的抽样分布展开的，由此构造服从某种理论分布的检验统计量，并进行检验。一元线性回归方程0121212222121:0;ˆ[,]()1ˆˆˆ,()t2ˆn-2tˆ()ˆniiniiiniiHNxxyyntxx1即回归系数与零无显著差异回归系数估计值的抽样分布服从服从当未知时用替代，,于是在原假设成立时，构造统计量服从个自由度的分布式中，为回归方程的标准误差，它是均方SSE的平方根多元线性回归方程0222122121:0;iˆˆ[,],()1(),1ˆ1tˆ()iiiniijjniiiiiiniijjHNxxyynptnpxx即第个偏回归系数与零无显著差异偏回归系数估计值的抽样分布服从当未知时用替代，即于是在原假设成立时，可构造t检验统计量为服从个自由度的分布在多元线性模型中，回归方程的显著性检验与回归系数的显著性检验作用不尽相同，通过回归方程的显著性检验后仍不能保证回归方程中不存在不能解释说明y的xi变量，回归系数的显著性检验正是为此对每个偏回归系数是否为零进行逐一考察残差分析残差：由回归方程计算所得的预测值与实际样本值之间的差距如果回归方程能够较好地反映被解释变量的特征和变化规律，那么残差序列中应不包含明显的规律性和趋势性。01122()iiippiiieyyyxxx它是回归模型中的估计值，由多个e形成的序列称残差序列残差分析任务：1、分析残差是否服从均值为0的正态分布2、分析残差是否为等方差的正态分布3、分析残差序列是否独立，借助残差探测样本中的异常值工具：图形分析和数值分析均值为零的正态性分析绘制残差图（横坐标为解释变量，纵坐标为残差）残差的独立性分析cov(,)0,()ijij表示残差序列的前期和后期数值间不存在相关关系，即不存在自相关残差的独立性分析①绘制残差序列的序列图（以样本期为横坐标，残差为纵坐标）残差随时间的推移呈规律性变化，表明残差序列存在一定的正或负的自相关②计算残差的自相关系数nttnttnttteeee2212221ˆ残差的独立性分析③DW（durbin-Watson)检验：推断小样本序列是否存在自相关的统计检验方法。H0：总体的自相关系数与零无显著差异21222()ntttntteeDWe残差的独立性分析④结论当序列不存在自相关时，对DW观察值的直观判断标准是：当DW=4()时，残差序列存在完全负相关当DW=(2,4)()时，负相关当DW=2()时，无自相关当DW=(0,2)()时，正自相关当DW=0()时，完全正自相关)ˆ1(2DW1ˆ)0,1(ˆ0ˆ)1,0(ˆ1ˆ残差的独立性分析如果残差序列存在自相关，说明回归方程没能充分说明被解释变量的变化规律，还留有一些规律没有被解释，也就是方程中遗漏了一些较为重要的解释变量，或者变量存在取值滞后性，或回归模型选择不合适，不应选线性模型等异方差分析方法：①绘制残差图②等级相关分析应用：探测样本中的异常值和强影响点6.5多元线性回归分析中的其它问题自变量筛选法•向前筛选法(forward)，是自变量不断进入回归方程的过程.•向后筛选法(backward)，是自变量不断剔除出回归方程的过程•逐步筛选法(stepwise)，是“向前法”和“向后法”的结合变量的多重共线性问题多重共线性：指解释变量之间存在现行相关关系的现象测度方法：①容忍度221010itolRRtol：解释变量与方程中其他解释变量间的复相关系数的平方取值在至之间，越接近于表示多重共线性越强②方差膨胀因子：（VIF)是容忍度的倒数VIF≥1，越接近于1，变量间多重共线性越弱；VIF越大，多重共线性越强；VIF≥10，有严重的多重共线性，且可能会过度影响方程的最小二乘估计211iiVIFR③特征根和方差比基本思想：如果解释变量间确实存在较强的相关性，那么他们之间必然存在信息重叠，应能将这些重叠信息提取出来，成为既能反映解释变量的信息（方差）且又互相独立的因素（成分）③特征根和方差比从解释变量的相关系数矩阵出发，计算相关系数矩阵的特征根，有最大特征根值的特征根能够解释说明解释变量信息的比例是最高的（通常可达到70%左右），其特征根值随其特征值的减小对解释变量方差的解释能力依次减弱。在这些特征根中，若最大特征根的值远远大于其他特征根的值，则说明这些解释变量间具有相当多的重叠信息，原因是仅通过这一特征根就基本刻画了所有解释变量的绝大部分信息（方差）③特征根和方差比解释变量标准化后他的方差为1。如果每个特征根都能刻画该变量方差的一部分，那么所有特征根将刻画该变量方差的全部。如果某个特征根既能刻画某解释变量方差的较大部分比例（0.7以上），同时又能刻画另一变量方差的较大部分，则表明这两个解释变量间存在较强的线性相关关系。④条件指数,ii10,100,100,miiimiiikk为第个条件目标，是最大的特征根与第特征根比的平

数据分析与软件应用__第六讲_数据的相关分析

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

电子商务的点击保存

城市道路交叉口规划设计2

电子商城系统介绍

Net平台下中小连锁零售企业信息管理系统的设计和实现

广州卷烟厂清洁用品采购项目（DOC99页）

纤维素酶的制备及玉米秸秆固态发酵生产酒精的研究(1)

情景3个人风险管理和保险规划

济南城市空间发展战略

XXXX容声全国经销商大会策划方案

聊城加快现代物流中心建设发展商贸物流业

相关文档

相关搜索