您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业文化 > Feng笔记-SPSS操作中的各种检验统计量和判别准则(完整手册10天完成)
SPSS操作中的各种检验统计量和判别准则(冯登超整理20113.16—3.25)专题一回归分析1一元线性回归分析(Analyze-Regression,Linear)(1)拟合优度检验:检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的代表程度。拟合优度用判定系数R2实现。102R。2R越接近1,说明回归直线的拟合程度越好。2R越接近0,说明回归直线的拟合程度越差。(2)回归方程的显著性检验(F检验)回归方程的显著性检验是对因变量和所有自变量之间的线性关系是否显著的一种假设检验。如果零假设0H成立,0:100H,说明回归总体是无显著线性的,即所有自变量对y没有显著的线性作用;反之说明回归总体存在线性关系。若F值大于临界值显著性水平)(),2,1(apnFa,则拒绝原假设(回归总体无显著线性关系),接受被选假设。若F值小于临界值)2,1(nFa,显著性水平)(ap,接受原假设,回归总体有显著线性关系。即在ANOVA表中,若Sig0.05,有显著差异,(Ho假设为x,y之间无显著线性关系),说明自变量x和因变量y之间确实有线性回归关系。回归方程的显著性检验只能检验所有回归系数是否与零有显著性差异,若无显著性差异,则接受零假设,回归总体不存在线性关系。(3)回归系数的显著性检验(t检验)回归系数显著性检验一般采用t检验方法。如果双侧t检验中,t的绝对值大于临界值(或者(pa),则拒绝原假设,接受被选假设,说明x对y有显著影响;若t的绝对值小于临界值的绝对值(pa),则接受原假设,说明x对y没有显著影响。在一元线性回归分析中,回归方程的显著性检验可以代替回归系数的显著性检验,并且F=t2。但是,在一般的多元回归条件下两种检验要说明的问题不同,作用不同,不能相互替代。在Coefficients表中,t为回归系数检验统计量,Sig为相伴概率值p。若p0.05,说明回归系数和0有显著差别,说明该回归方程有意义。在UseprobalitityofF:当一个自变量的F统计量的相伴概率值Sig=0.05时,拒绝H0,认为该变量对因变量影响是显著的,应该引入回归方程;若一个自变量的F统计量的Sig=0.10时,不能拒绝Ho,认为该变量对因变量的影响是不显著的,应从回归方程中剔除。在UseFvalue中,表示以回归系数显著性检验中的各自变量的F统计量作为自变量进入模型或从模型剔除的准则。在变量的选择/剔除中,Entry(默认值3.84),表示当一个变量的F值》=3.84时,该变量被选入模型;Removal(默认值2.71),表示当一个变量的F值=2.71时,该变量从模型中被剔除。2.多元线性回归分析研究两个或两个以上自变量对一个因变量的数量变化关系。(1)拟合优度检验102R,2R越接近1,说明回归平面的拟合程度越好。2R越接近0,说明回归平面的拟合程度越差。修正的2R考虑的是平均的残差平方和,在线性回归分析中,2R越大越好。(2)回归方程的显著性检验(F检验)若F值较大,说明自变量造成的因变量的变动远远大于随机因素对因变量造成的影响。此外,F统计量也能反映回归方程的拟合优度。若回归方程的拟合优度高,F统计量越显著;F统计量越显著;回归方程的拟合优度越高。F检验中,H0假设是,设各个系数i=0,即各个自变量与因变量无线性关系。若显著性水平)或(ap)1,(knkFFa,则拒绝原假设H0,认为所有回归系数同时与零有显著差异,自变量与因变量之间存在显著的线性关系,自变量的变化确实能反映因变量的线性变化,回归方程显著。若显著性水平)或(ap)1,(knkFFa,接受原假设H0,认为所有回归系数同时与零无显著差异,自变量和因变量之间不存在显著的线性关系,自变量的变化无法反映因变量的线性变化,回归方程不显著。(3)回归系数的显著性检验(t检验)回归系数的显著性检验是检验各个自变量kx对因变量y的影响是否显著,从而找出哪些自变量对y的影响是重要的,哪些是不重要的。H0假设为:kii,...,2,1,0。若零假设成立,说明kx对y没有显著影响,即自变量与因变量的线性关系不明显,反之,说明kx对因变量y具有显著的影响。采用t检验。若)1(||2kntta或者pa,拒绝原假设H0,认为该回归系数与零有显著差异,该自变量与因变量之间存在显著的线性关系,它的变化确实能较好地反映因变量的线性变化,应该保留在回归方程中。若)1(||2kntta或者pa,接受原假设H0,认为该回归系数与零无显著差异,该自变量与因变量之间不存在显著的线性关系,它的变化无法反映因变量的线性变化,应该剔除出回归方程中。Analyze-Regression-LinearRegression,在Correlations表中,可以分析各个变量之间的相关系数。相关系数越大,说明各变量越相关。ModelSummary表中,分析R,Rsquare,利用该值看样本回归效果。该值越大,说明样本数据和回归方程的拟合度越高。即分析样本的回归效果。Anova表,(方差分析表),利用统计量F和相伴概率Sig,同时分析多个自变量和因变量之间是否存在线性回归关系。Coefficients回归系数表,利用t分布的Sig值分析全部自变量和因变量之间是否存在显著线性关系。ResidualsStatistics表,分析各个残差结果。3.非线性回归分析研究在非线性相关条件下,自变量对因变量的数量变化关系。其中,多项式模型在非线性回归分析中占据重要地位。当因变量和自变量之间的关系未知时,可以用适当幂次的多项式近似反映。(1)在Graphs菜单中的Correlate中选择Scatter命令,-SimpleScatterplot,观察散点图,初步决定是哪些曲线比较合适。(2)进一步判断筛选后的这些曲线中,哪种与样本观察值的拟合优度更高。利用2R分析各个曲线的拟合优度,该值越大,说明该值对应的曲线拟合优度更高。最后,再观察几种曲线预测值的曲线图,观察各类型曲线的拟合效果。最终,确定一种曲线方程。4.曲线估计当不知道该选择哪种函数模型更接近样本数据时,采用曲线拟合。方法:先根据实际问题,同时选择多种模型。(2)计算2R、F检验值、相伴概率Sig。(3)选择具有2R统计量值最大的模型作为此问题的回归模型,并作些预测。Analyze-Regression-CurveEstimation,观察CurveFit表中的2R值,分析比较后,选择该值最大的曲线模型最合适。再观察其观察值和各种函数模型条件下预测值的对比图,分析各种曲线,看看哪种曲线对观测值的拟合优度更好。然后,在输出的FIT_1(选取曲线1时的预测结果值)、Err_1(曲线1下的残差)、LCL_1UCL_1为预测值95%的可信区间的下限和上限。别的曲线类似。在DisplayANOVA表中,做回归方程的显著性检验,观察t分布下对用的Sig值。若Sig0.05,说明显著相关。5时间序列的曲线估计时间序列曲线估计是分析社会和经济现象中常用的一种曲线估计。通常把时间设为自变量,代表具体的经济或社会现象的变量设为因变量。Analyze-Regression-CurveEstimation,将应变量Y选入Dependent中,其他选入Independent中,同时选中Time项。再选中多种曲线模型,分析CurveFit表中的2R,取得2R值最大的曲线(说明该曲线的拟合优度最好)。同时,得到FIT_1,FIT_2等值(不同曲线函数对应的回归分析结果的预测值)。再输出曲线预测值的对比图。6.含虚拟自变量的回归分析对于非数量型变量,如性别、季节等,回归模型的参数不再是固定不变的。计算时,先对定性变量做数量化处理,如1-男,0-女。举例1,对于自变量只有一个定性变量,且定性变量只有两种特征时,回归模型Dxy2110;自变量中含有多个定性变量时,同时考虑定性变量及其之间的交互影响。251421322110xxDDDDyAnalyze-Regression-Linear,y选入Dependent中,其它选入Independent中,在ModelSummary中,观察2R值,该值越大,说明样本回归方程代表性越强。在ANOVA表中,观察F值和Sig值。若Sig0.05,说明自变量和因变量有线性回归关系。最后,观察Coefficients表,观察t分布的相伴系数Sig。.若Sig值0.05,说明回归系数和0有明显差别,回归方程有意义。7.逻辑回归分析实际情况中,因变量是定性变量时。如:某人是否购买汽车。处理定性因变量的方法有判别分析、Probit分析,Logistics分析、对数分析。其中,Logistics分析是最多应用的。模型参数估计后,进行检验的统计量(1)-2对数似然值(-2loglikelihood,-2LL),用于检验Logistics回归中的显著性,反映了在模型中包括了所有自变量后的误差,用于处理因变量无法解释的变动部分的显著性水平。当-2LL的实际显著性水平大于给定显著性水平a时,因变量的变动中无法解释的部分是不显著的,意味着回归方程的拟合程度是最好的。(2)拟合优度(GoodnessofFit)统计量,反映拟合效果。(3)Cox&SnellR-Square。它是在似然值基础上模拟线性回归模型的R2解释LOGISTIC回归模型,一般小于1.该值越趋于1,回归效果越好。(4)NagelkerkeR-Square,它与R2接近,但小于1.(5)HosmerandLemeshow’sGoodnessofFitTestStatistic拟合优度检验统计量。根据卡方分布,计算Sig值,若pa(显著性水平),拒绝因变量的观测值和模型观测值不存在差异的零假设,表明模型的预测值和观测值存在显著差异。若pa,接受零假设,说明在可接受的水平上的估计拟合了数据。(6)Wald统计量:用于判别一个变量是否应该包含着模型中。Wald统计量大者(或Sig值小)显著性高,也就更重要。因此,Wald可以考察每个自变量在回归方程中的重要性。Analyze-regression-BinaryLogistics,在IterationHistory表中,得到-2LL的数值。在ClassificationTable中,可以得出定性因变量的分类的准确性百分比;在ModelSummary中,列出了-2LL,COX&SnellRsquare和NagelkerkeRSquare统计结果。HosmerandLemeshowTest表中,若Sig0.05,说明在可接受的水平上的估计拟合了数据。IterationHistory表格中,列出各个步骤的回归结果系数;在ClassitionTable中,可以分析定性应变量的准确性。在VariablesintheEquation中,可以看出Wald数据和Sig.Wald数据值越大,说明该自变量在回归方程中越重要。CorrelationMatrix表格中,列出各个系数和常数的相关性。数值越大,也就越相关。在CasewiseList中,列出残差较大的个案,标记**,说明该个案的回归结果错误。专题二相关分析衡量事物之间、变量之间线性相关程度的强弱并用适当的统计指标表示,即为相关分析。常用方法为绘制散点图(该方法不精确)准确描述变量之间的线性相关程度-相关系数。样本相关系数r取值范围在]1,1[其中,(1)若10r,表明变量之间存在正相关关系,即两个变量的相随变动方向相同。(2)若01r,表明变量之间存在负相关关系,即两个变量的相随变动方向相反。(3)若1||r,完全相关;0||r,完全不相关,说明变量间无线性关系。(4)8.0||r,高度相关;8.0||5.0r,中度相关;5.0||3.0r,低度相关;3.0||r,说明变量之间的相关程度极弱,可视为不相关。为了判断样本相关系数是否能代表总体相关程度,
本文标题:Feng笔记-SPSS操作中的各种检验统计量和判别准则(完整手册10天完成)
链接地址:https://www.777doc.com/doc-4759236 .html