您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > ppt-第8章--相关分析
8.1相关分析概述8.2散点图8.3相关系数8.4偏相关分析8.5距离相关分析事物之间的联系总是错综复杂的,任何事物的变化与其它事物是相互联系和相互影响的。事物之间的关系可分为两类,一类是函数关系,一类是统计关系。所谓函数关系指的是两事物之间的一种一一对应的关系,即当一个变量取一定值时,另一变量可以依确定的函数取唯一确定的值。另一类普遍存在的关系是统计关系。统计关系指的是两事物之间的一种非一一对应关系,即当一个变量取一定值时,另一变量无法依确定的函数取唯一确定的值,例如,家庭收入和支出、子女身高和父母身高之间的关系等。事物之间的函数关系比较容易分析和测度,而事物之间的统计关系却不像函数关系那样直接,但确实普遍存在,并且有的关系强,有的关系弱,程度各有差异。如何测度事物间统计关系的强弱是人们关注的问题。相关分析和回归分析是以不同的方式测度事物间统计关系的非常有效的工具。相关分析通过图形和数值两种方式,能够有效地揭示事物之间统计关系的强弱程度。在进行相关分析的时候,散点图是非常重要的工具,分析前最好用绘制散点图,已初步判断变量之前是否存在相关趋势,该趋势是否为直线趋势,忽视散点图的作用直接进行相关分析很可能得出错误结论。虽然散点图比较形象直观,但不是很精确。相关分析更精确的方法是通过统计指标描述变量之间的关系。比较常见的是相关系数。8.2.1散点图含义绘制散点图是相关分析过程中极为常用且非常直观的分析方式。它将数据以点的形式在直角平面上。通过观察散点图能够直观地发现变量间的统计关系以及它们的强弱程度和数据对的可能走向,在实际分析中,散点图经常表现出某些特定的形式。如极大多数的是数据点组成类似于橄榄球的形状,或集中形成一根棒状,而剩余的少数数据点则零散地分布在四周,通常橄榄球和棒状代表了数据对的主要结构和特征,可以利用曲线将这种主要结构的轮廓描述出来,使数据的主要特征更突显。绘制散点图的基本操作步骤如下:1选择菜单图形→旧对话框→散点图,出现如下图的对话框。2选择散点图的类型。SPSS提供了5种类型的散点图。3根据所选择的散点图类型,比如选择【简单散点图】,单击【定义】出现如图8-2的对话框简单散点图是表示一对变量间统计关系的散点图。应定义的选项主要有:■指定某个变量为散点图的纵轴变量,选【Y轴(Y)】框中。■指定某个变量为散点图的横轴变量,选【Y轴(Y)】框中。■可指定作为分组的变量到【设置标记】框中,表示按该变量的不同取值将样本数据分成若干组,并在一张图上分别以不同颜色绘制个散点图。该项可以省略。■可指定标记变量到【标注个案】框中,表示将标记变量的各变量标记在散点图的相应点的旁边。该项可以省略。不同类型的散点图具体的定义选项略有差别,相关分析主要用简单散点图。其他四种类型的散点图在第十章图形制作中再做具体介绍。例8.1某科学基金会的管理人员欲分析从事数学研究工作的中等或较高水平的数学家的年工资额y与他们的研究成果的质量指标x1,从事研究工作的时间x2以及能够获得资助x3的指标之间的关系,调查了24位数学家,得到如表8-1数据.试绘制出简单散点图。yx1x2x333.23.59440.35.320638.75.1185.946.85.8336.441.44.231537.56136.7396.8257.540.75.530630.13.153.552.97.247838.24.525531.84.9115.843.38238.344.16.535742.86.6397.433.63.7214.334.26.277487407.6384354.935.94.523540.45.9336.436.85.6276.145.24.8345.535.13.9154.4表8-124位数学家相关数据具体操作步骤:1选择菜单图形→旧对话框→散点图,出现如图8-1的对话框。2选择散点图的类型【简单散点图】。3单击【定义】,出现如图8-2的对话框,把左侧“数学家的年工资”指定到右侧【Y轴】中,把“研究工作时间”指定到【X轴】中。得到如图8-3的散点图,从散点图中可以看出,研究工作时间与年工资具有较强的相关关系。虽然散点图能够直观展现变量之间的统计关系,但并不精确。相关系数则以数值的方式精确地反映了两个变量间线性相关的强弱程度。利用相关关系进行变量间线性关系的分析通常需要完成以下两大步骤:第一,计算样本相关系数。利用样本数据计算样本相关系数。样本相关系数反映了两变量间线性相关程度的强弱。对不同类型的变量应采用不同的相关关系指标,但它们的取值范围和含义都是相同的r●相关系数的取值在-1至+1之间。●表示两变量存在正的线性相关关系;表示两变量存在负的线性相关关系。●表示两变量存在完全正相关关系;表示两变量存在完全负相关关系;表示两变量不存在线性相关关系。●表示两变量之间具有较强的线性关系;表示两变量之间具有较弱的线性关系。0rr1r-1r0r0.8r0.3r第二,对样本来自的两总体是否存在显著的线性关系进行推断。由于存在抽样的随机性和样本量可能较小等原因,通常样本相关关系数不能直接用来说明样本来自的两总体是否具有显著的线性相关性,而需要通过假设检验的方式对样本来自的总体是否存在显著的线性相关进行统计推断。基本步骤是:●提出零假设,即两总体无线性相关性。●选择检验统计量。对不同类型的变量应采用不同的相关系数,对应也应采用不同的检验统计量。●计算检验统计量的观测值和对应的概率值。●决策。如果检验统计量的概率值小于给定的显著性水平,应拒绝零假设,认为两总体间存在显著的线性相关性;反之,如果检验统计量的概率值大于给定的显著性水平,则不能拒绝零假设,可以认为两总体不存在显著的线性相关性。对不同类型的变量应采用不同的相关系数来度量,常用相关系数Pearson简单相关系数、Spearman相关系数和Kendall相关等。pPearson简单相关系数用来度量两定距型变量间的线性相关性。如测度收入和储蓄、身高和体重、工龄和收入等变量间的线性相关关系时可用Pearson简单相关系数,它的数学定义为(8.1)12211=niiinniiiixxyyrxxyy为样本数,和分别为两变量的变量值进一步得知简单相关系数也即(8.2)nixiy11=niiixyxxyyrnSSPearson简单相关系数的检验统计量为统计量,其数学定义为SPSS将自动计算Pearson简单相关系数、检验统计量的观测值和对应的概率值。221rntrSpearman等级相关系数用来度量定序变量间的线性相关关系。该系数的设计思想与Pearson简单相关系数完全相同,仍然可依照式(8.1)计算,相应的指标特征也相似。然而在计算Spearman等级相关系数时,由于数据为非定距的,因此计算时并不直接采用原始数据,而是利用数据的秩,即将两变量的秩代替代入式(8.1)中,于是其中的和的取值范围被限制在1至n之间,,iixy,iiUV且式(8.1)可被简化为其中2126=1-1niiDrnn2211nniiiiiDUV小样本下,在零假设成立时Spearman等级相关系数服从Spearman分布;在大样本,Spearman等级相关系数的检验统计量为统计量,其数学定义为Z=1ZrnSPSS将自动计算Spearman等级相关系数、Z检验统计量的观测值和对应的概率p值。Kendall相关采用非参数检验方法用来度量定序变量间的线性相关关系。它利用变量秩数据计算一致对数目(U)和非一致对数目(V)Kendall统计量的数学定义为2=1UVnn在小样本下Kendall服从Kendall分布在大样本下采用的检验统计量为统计量近似服从标准正态分布SPSS将自动计算Kendall相关、检验统计量的观测值和对应的概率P值。91225nnZnZ在利用SPSS计算两变量间的相关系数之前应按一定格式组织好数据,应定义两个SPSS变量分别存放相应两变量的变量值。计算相关系数的基本操作步骤是:1选择菜单中分析→相关→双变量。如图8-42选择参加计算相关系数的变量到【变量】框。3在【相关系数】框中选择计算哪种相关系数。4在【显著性检验】框中选择输出相关系数检验的双侧检验的概率值还是单侧检验的概率值。5选中【标记显著性相关】选项表示分析结果中除显示统计检验的概率值以外,还输出星号标记,以标明变量间的相关性是否显著;不选中则不输出星号标记。6在【选项】按钮中的【统计量】选项中,若选中叉积偏差和协方差,表示输出各变量的离差平方和、样本方差、两变量的叉积离差和协方差。如图8-5所示例8.2以下是29名中学生的编号、身高、体重和肺活量数据,求身高、体重和肺活量之间的Pearson相关系数以及Spearman相关系数表8-2学生身高体重肺活量数据学生编号身高体重肺活量1135.1321.752139.930.41.753163.646.22.754146.533.52.55156.237.12.756156.435.527167.841.52.758149.7311.59145332.510148.537.22.2511165.549.531213527.61.2513153412.7514152321.7515160.547.22.2516153321.751714740.5218157.543.32.2519155.144.72.7520160.537.522114331.51.7522149.933.92.2523160.840.42.752415938.52.252515837.5226150361.7527144.534.72.2528154.639.52.529156.5321.75具体操作步骤:1、按照顺序分析分析→相关→双变量。如图8-42、在【双变量相关分析】框中,选择“身高”“体重”“肺活量”到【变量框】。在【相关系数】中选择Pearson以及Spearman,在【显著性检验】中选择双侧检验。3、选中【标记显著性相关】4、在【选项】按钮中的【统计量】选项中将两个选项选中如图8-5分析结果如表8-3,8-4,8-5所示表8-3给出了身高、体重、肺活量的描述性统计分析表8-3描述性统计量均值标准差N身高152.55528.3640229体重37.12765.5327529肺活量2.1897.4514629表8-4给出了Pearman相关系数,从表中可以看出,在0.01的显著性水平下,身高、体重、肺活量显著相关。表8-4相关性身高体重肺活量身高Pearson相关性1.738**.599**显著性(双侧).000.001平方与叉积的和1958.792956.49663.372协方差69.95734.1612.263N292929体重Pearson相关性.738**1.751**显著性(双侧).000.000平方与叉积的和956.496857.11852.498协方差34.16130.6111.875N292929肺活量Pearson相关性.599**.751**1显著性(双侧).001.000平方与叉积的和63.37252.4985.707协方差2.2631.875.204N292929**.在.01水平(双侧)上显著相关。表8-5,给出了Spearman相关系数,从表中可以看出,在0.01的显著性水平下,身高、体重、肺活量显著相关。表8-5相关系数身高体重肺活量Spearman的rho身高相关系数1.000.740**.536**Sig.(双侧)..000.003N292929体重相关系数.740**1.000.764**Sig.(双侧).000..000N292929肺活量相关系数.536**.764**1.000Sig.(双侧).003.0
本文标题:ppt-第8章--相关分析
链接地址:https://www.777doc.com/doc-4609186 .html