您好,欢迎访问三七文档
本章提纲1相关分析概述2简单相关分析3典型相关分析本章提纲1相关分析概述2简单相关分析3典型相关分析相关关系概述若两个变量或两个以上变量之间不存在严格的数量关系,而只有不同程度的联系,即彼此间存在着一种伴随变动,但这些关系无法用函数式确切描述,那么这些变量之间的关系即为相关关系,是一种统计关系。例:降水量和径流量之间的关系相关关系概述若两个变量的相随变动方向相同,则它们间的关系为正相关反之,若两个变量的相随变动方向相反,则它们间的关系为负相关相关分析相关分析是测度事物间统计关系强弱的一种工具,旨在衡量变量间相关程度的强弱。相关分析的一个显著特点是变量不分主次,被置于同等的地位。相关分析要解决的问题若存在关系,变量x和变量y间的本质关系是什么?关系有多强?在何种程度上可能过其中一变量预测另一变量?相关分析类型相关分析可用来分析变量之间或两组变量之间的相关性,前者称为简单相关分析,后者称为典型相关分析。简单相关分析的类型本章提纲1相关分析概述2简单相关分析3典型相关分析简单相关分析简单相关分析又分为:两个变量间相关程度的测定•线性相关关系(Pearson简单相关系数)多要素两两之间的相关关系常用相关矩阵表示•等级相关关系(Spearman秩相关系数)多个变量间相关程度的测定•偏相关系数•复相关系数简单相关分析简单相关分析又分为:两个变量间相关程度的测定•线性相关关系(Pearson简单相关系数)多要素两两之间的相关关系常用相关矩阵表示•等级相关关系(Spearman秩相关系数)多个变量间相关程度的测定•偏相关系数•复相关系数线性相关系数的计算Pearson简单相关系数:表示两要素间相关程度的统计指标nnyxyxyx2211线性相关系数的计算对于两个变量x和y,其样本值分别为xi与yi(i=1,2,…,n),变量x与y的相关系数为:1,1r,xy12121niiniiniiixyyyxxyyxxrniixnx11niiyny11其中:线性相关系数的计算线性相关系数的数值介于-1-1之间。相关系数为-1和1时,实际两个变量之间是直线关系。线性相关系数的计算基于Pearson相关系数线性相关系数的计算线性相关系数为0表示变量之间不存在线性相关关系,但不排除变量间存在非线性关系的可能。线性相关系数的计算r=0时可能存在的情况线性相关系数的计算Pearson简单相关系数的使用条件(1)线性关系:Pearson相关系数只适用于测量两变量间的线性相关关系(2)定量数据:变量必须是间隔尺度数据以上(3)随机抽样:样本必须是随机地从总体中抽取的(4)正态分布:对相关系数进行显著性检验要求变量X与Y在总体中都呈正态分布。在小样本中,偏态的分布将严重影响检验的有效性,但当样本规模较大时(通常要求N≥30),正态分布的要求才不那么重要。EXCEL中的相关系数算法语言CORREL(array1,array2)返回单元格区域array1和array2之间的相关系数array1为第一组数值的单元格区域array2为第二组数值的单元格区域EXCEL中的相关系数计算示例EXCEL中的相关系数计算示例EXCEL中的相关系数计算示例EXCEL中的相关系数计算示例EXCEL中的相关系数计算示例线性相关系数的检验因存在样本抽样的随机性,样本的相关系数r并不能直接反映总体的相关程度为判断r对总体的代表性,可对r进行假设检验线性相关系数的检验假设检验的思路与过程:(1)假设H0为两变量总体无显著的线性相关关系,即总体r=0;假设H1为两变量总体存在显著的相关关系(2)计算相应的统计量,得到对应的相伴概率值P。若P≤指定的显著性水平ɑ,则拒绝H0,认为两总体存在显著的线性相关关系;反之,认为不存在显著的线性相关关系。线性相关系数的检验伴随概率P的含意:P表示拒绝H0所犯错误的概率,P越小,拒绝H0犯错误的概率越小,应拒绝H0,接受H1。软件中一般都会给出伴随概率的值线性相关系数的检验显著水平ɑ的含意:用来确定否定或接受无效假设(H0)的概率标准称为显著水平,记作ɑ。显著水平有ɑ=0.001,0.01,0.05,0.10等,常取ɑ=0.05或ɑ=0.01。线性相关系数的检验显著水平ɑ的含意:显著水平的高低只表示下结论可靠程度的高低,即在0.01水平下否定H0的可靠程度为99%,在0.05水平下否定H0的可靠程度为95%线性相关系数的检验显著水平ɑ的选择依据:ɑ的选择应根据研究的要求或研究结论的重要性决定•若研究中难以控制的因素多,误差可能较大,则显著水平可选低些,即ɑ值取大些•若研究费用较大,对精确度的要求较高,不容许反复,或研究结论的应用意义重大,显著水平应定高些,即ɑ值取小些线性相关系数的检验单、双侧检验:用一尾概率进行的检验叫单侧检验(one-sidedtest)或单尾检验(one-tailedtest)若对同一资料进行单侧检验和双侧检验,在ɑ水平上单侧检验显著,相当于双侧检验在2ɑ水平上显著在同一水平上,双侧检验显著,单侧检验一定显著;单侧检验显著,双侧检验未必显著线性相关系数的局限性线性相关系数可能并不能反映变量间的真实关系,如可能虽然不存在线性相关关系,却存在其它类型的相关关系线性相关系数的局限性因此在进行相关分析之前必须先做散点图,以初步判断两变量间是否存在相关趋势,该趋势是否为直线趋势,以及数据中是否存在异常点SPSS中的线性相关分析示例SPSS中的线性相关分析示例SPSS中的线性相关分析示例SPSS中的线性相关分析示例从散点图中可见体重和肺活量之间有着非常明显的直线相关趋势,并且从图中也没有发现影响过强的异常点。因此可以放心地进行相关分析。SPSS中的线性相关分析示例SPSS中的线性相关分析示例至少需要选入两个变量。如果选入了多个,则分析结果会以相关矩阵的形式给出两两直线相关分析的结果。选择需要计算的相关分析指标TestofSignificance单选框:用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选择双侧检验勾中后要求在结果中用星号标记有统计学意义的相关系数,一般选中。选中后结果中P0.05的系数旁会标记一个星号,P0.01则标记两个星号SPSS中的线性相关分析示例结果中变量间两两的相关系数是用方阵的形式给出的。每一行和每一列的两个变量对应的格子中就是这两个变量相关分析的结果。具体每个格子又分为三列,分别是相关系数、P值和样本数。由于只分析了两个变量,因此给出的是2*2矩阵。由该表可见体重和肺活量之间的相关系数为0.741,P=0.006,具有非常显著的统计学意义多变量的相关矩阵若问题涉及到x1,x2,…,xn多个变量,m个样本,则有多变量之间的相关系数矩阵R(n×n):mnmmmnnxxxxxxxxxxxxX32122322211131211nnnnnnnrrrrrrrrrrrrR32122322211131211相关系数矩阵的性质rij介于-1和1之间rii=1(i=1,2,…,n)(每一个变量与它自身完全相关)rij=rji(第i个变量xi对第j个变量xj的相关程度与第j个变量xj对第i个变量xi的相关程度相等),即矩阵为对称矩阵相关系数矩阵的性质指标蝗虫密度雏蝗蚁蝗皱膝蝗总盖度蝗虫密度1.00000.87660.46940.13050.2887雏蝗0.87661.00000.0124-0.00420.3057蚁蝗0.46940.01241.00000.20720.0920皱膝蝗0.1305-0.00420.20721.00000.0137总盖度0.28870.30570.09200.01371.0000相关系数矩阵示例简单相关分析简单相关分析又分为:两个变量间相关程度的测定•线性相关关系(Pearson简单相关系数)多要素两两之间的相关关系常用相关矩阵表示•等级相关关系(Spearman秩相关系数)多个变量间相关程度的测定•偏相关系数•复相关系数等级相关的概念等级相关系数,又称秩相关系数,为另一描述两变量间相关程度的统计指标Spearman等级相关系数(秩相关系数)用来度量顺序变量间的线性相关关系,采用非参数检验方法等级相关的概念等级相关系数计算思路:将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而成为新统计量(顺序统计量),再依据该顺序统计量进行相关系数的计算。Spearman等级相关系数的计算设两个变量x和y有n对样本值,R1为变量x的位次,R2为变量y的位次,变量x和y的同一组样本位次差的平方为:di2=(R1i-R2i)2,则变量x和y之间的秩相关系数为:)1(61212nndrniisSpearman等级相关系数的计算SPSS中等级相关分析的结果从结果可看出体重和肺活量之间的等级相关系数为0.806,并且在0.01的置信水平上,相关性是显著的。SPSS中等级相关系数的计算过程和线性相关系数的计算过程完全相同,只要选择相应的指标即可。等级相关系数的检验也和线性相关系数的检验类似简单相关分析简单相关分析又分为:两个变量间相关程度的测定•线性相关关系(Pearson简单相关系数)多要素两两之间的相关关系常用相关矩阵表示•等级相关关系(Spearman秩相关系数)多个变量间相关程度的测定•偏相关系数•复相关系数偏相关系数的概念偏相关是一种处理多个变量相关的方法,在这种方法中,可以在控制其他变量的情况下检验两个变量间的相关性。偏相关系数的概念偏相关系数的计算公式如下:式中,rij,k表示k被控制时i,j之间的偏相关系数22,11jkikjkikijkijrrrrrr偏相关系数的性质范围为[-1,1]绝对值越大,偏相关程度越大偏相关系数的绝对值必小于、最多等于由同一系列数据求得的复相关系数一级偏相关系数3个变量x1、x2、x3间的偏相关系数共3个:2232132313123,1211rrrrrr2232122312132,1311rrrrrr2132121312231,2311rrrrrr二级偏相关系数4个变量x1、x2、x3、x4间的偏相关系数共6个(r12,34,r13,24,r14,23,r23,14,r24,13,r34,12)23,2423,143,243,143,1234,1211rrrrrr22.3422.142.342.142.1324,1311rrrrrr......SPSS中的偏相关系数计算示例SPSS中的偏相关系数计算示例用于选入需要进行偏相关分析的变量,至少需要选入两个。如果选入了多个,则给出两两偏相关分析的结果。TestofSignificance单选框:用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选择双侧检验用于选入需要在偏相关分析时进行控制的协变量,需控制几个便选入几个;如果不选入,则进行的是普通相关分析。用于确定是否在结果中给出确切的P值SPSS中的偏相关系数计算示例Meansandstandarddeviations:每个变量的均值和标准差Zeroordercorrelations:给出包括协变量在内所有变量的相关方阵SPSS中的偏相关系数计算示例SPSS中的偏相关系数计算示例表格中先是给出了三个变量两两的线性相关分析结果。可见如果单独分析,生长激素和血糖浓度的相关系数是0.6383,具有非常显著的统计学意义。表格下部分给出了控制胰岛素影响后的偏相关分析,可见此时生长激素和血糖浓度的偏相关系数猛降为0.2003,且无
本文标题:相关分析
链接地址:https://www.777doc.com/doc-4385557 .html