您好,欢迎访问三七文档
数学建模与软件实现第7章相关性分析相关性分析是指分析两个随机变量之间是否存在一定的关系.相关分析可以发现变量间的共变关系(包括正向的和负向的共变关系),一旦发现了共变关系就意味着变量间可能存在两种关系中的一种:(1)因果关系(两个变量中一个为因、另一个为果);(2)存在公共因子(两变量均为果,有潜在的共因).很多时候,我们需要寻找这些因果关系,或者是寻找公共因子.相关性研究是非常有用的,它是许多深入研究必备的初始阶段工作.衡量随机变量相关性的度量主要有三种:pearson相关系数、spearman相关系数、kendall相关系数.7.1Pearson(皮尔逊)相关系数—线形相关分析对于二维随机变量(,)XY,根据数学期望性质,若X和Y相互独立,且和存在,则有EXEY[()()]()0EXEXYEYEXYEXEY所以当时,必有[()()]0EXEXYEYX和Y不相互独立.定义7-1设(,)XY为二维随机变量,称[()()]EXEXYEY为随机变量X,Y的协方差(Covariance),记为,即(,)CovXY(,)[()()]CovXYEXEXYEY特别地(,)[()()]CovXXEXEXXEXDX(,)[()()]CovYYEYEYYEYDY故方差,是协方差的特例.DXDY从定义中看到,协方差和变量的量纲有关.我们将随机变量标准化,得*XEXXDX,*YEYYDY**(,)XY的协方差为ov(,)()()CXYDXDY.定义7-2设(,)XY为二维随机变量,称ov(,)()()CXYDXDY为随机变量X,的Pearson相关系数(Pearsoncorrelationcoefficient)或标准协方差(Standardcovariance),记为YXY,即ov(,)()()XYCXYDXDY定理7-1设,,()0DX()0DYXY为(,)XY的相关系数,则(1)如果X,Y相互独立,则0XY;(2)1XY;(3)1XY的充要条件是存在常数使,ab{}PYaXb1(0a).相关系数XY描述了随机变量X,Y的线性相关程度,XY愈接近1,则X与Y之间愈接近线性关系.0XY为正相关,0XY为负相关.一般用下列标准对相互关系进行判定:(1)0.95XY,X与Y存在显著性相关;(2)0.8XY,X与Y高度相关;(3)0.50.8XY,X与Y中度相关;(4)0.30.5XY,X与Y低度相关;(5)0.3XY,X与Y关系极弱,认为不相关;(6)0XY,X与Y无显性相关.1第7章相关性分析2可以证明:(1)当两个随机变量不线性相关时,它们并不一定相互独立,它们之间还可能存在其他的函数关系.(2)若(,)XY服从二维正态分布,X与不相关和YX与Y相互独立是等价的,且概率密度中的参数就是X和Y的相关系数.即,X和Y相互独立的充要条件是0.定义7-3若对随机变量X和Y进行了次随机试验,得到样本(,n)iiXY(1,2,,)in,且11niiXXn,11niiYnY,则随机变量X和对于这组样本的相关系数r为Y12211()()()(niiinniiiiXXYYr)XXYY例7-1某地29名13岁男童身高(cm)、体重(kg)和肺活量(ml)的数据如下表,试对该资料中各因素做相关分析.表7-1测试数据编号身高(cm)体重(kg)肺活量(ml)编号身高(cm)体重(kg)肺活量(ml)1135.132.0175016153.047.223502139.930.4200017147.640.520003163.646.2215018157.543.322504146.533.5250019155.144.727505156.237.1275020160.537.524006156.435.5200021143.031.517507167.841.5215022149.433.922508149.731.0150023160.840.427509145.033.0250024159.038.5250010148.537.2225025158.237.5200011165.549.5300026150.036.0175012135.027.6125027144.534.7225013153.341.0275028154.639.5250014152.032.0175029156.532.0175015160.547.22250解(1)数据探索先做散点图和Q-Q图,看到变量间基本符合线性相关关系,变量的分布符合正态分布.这里只给出肺活量和身高的散点图、身高的标准Q-Q图,其余略.数学建模与软件实现图7-1(a)肺活量和身高的散点图图7-1(b)身高的标准Q-Q图下面作相关性分析.(2)建立SPSS数据文件.在数据文件中定义变量名:身高为height,体重为weight,肺活量为vc,按顺序输入相应数值,建立数据文件,如图7-2所示.图7-2数据文件的变量试图(3)点击主菜单“分析”项,在下拉菜单中点击“相关”项,在右拉式菜单中点击“双变量...”项,系统打开相关分析主对话框.(4)在对话框左侧的变量列表中选“身高”、“体重”和“肺活量”点击向右按钮使之进入“变量”框;在“相关系数”框中选择相关系数的类型,共有三种:Pearson为通常所指的相关系数,Kendell’stau-b为非参数资料的相关系数,Spearman为非正态分布资料的Pearson相关系数替代值,本例选用Pearson项;在“显著性检验”框中可选相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,本例选双侧检验.如图7-3.图7-3相关分析主对话框(5)输出结果及分析输出结果如表7-2所示.表7-2相关性分析结果相关性身高(cm)体重(kg)肺活量(ml)3第7章相关性分析4Pearson相关性1.719**.507**显著性(双侧).000.005身高(cm)N292929Pearson相关性.719**1.634**显著性(双侧).000.000体重(kg)N292929Pearson相关性.507**.634**1显著性(双侧).005.000肺活量(ml)N292929**.在.01水平(双侧)上显著相关.SPSS软件中,相关性检验的零假设为“0:H0”.身高和体重的相关系数为,0.719r0.00p,所以身高和体重中度相关,结果有统计学意义;身高和肺活量的相关系数为,0.507r0.005p,所以身高和体重中度相关,结果有统计学意义;体重和肺活量的相关系数为,0.634r0.00p,所以身高和体重中度相关,结果有统计学意义;相关系数计算两个变量之间的关系,分析两个变量之间线性相关的程度.但是,有时因为第三个变量的作用,使得相关系数不能反映两个变量间真正的线性程度.例如,上例中,我们得出肺活量和身高与体重均存在中度的线性关系,但实际上,对相同体重的人分析身高和肺活量,却没有线性关系.这种情况下,我们可以对变量进行偏相关分析.在偏相关分析中,系统可按用户的要求对两相关变量之外的某一或某些影响相关的其他变量进行控制,输出控制其他变量影响后的相关系数.例7-2对例7-1中的数据作偏相关性分析解使用SPSS操作过程如下:(1)点击主菜单“分析”项,在下拉菜单中点击“相关”项,在右拉式菜单中点击“偏相关...”项,打开偏相关分析主对话框.(2)选“身高”和“肺活量”入“变量”框;选“体重”作为控制变量,;在“显著性检验”框中选双侧检验.图7-4偏相关分析主对话框(3)输出结果及分析输出结果如表7-4所示.表7-4偏相关分析结果相关性控制变量肺活量(ml)身高(cm)相关性1.000.096显著性(双侧)..627体重(kg)肺活量(ml)df026数学建模与软件实现相关性.0961.000显著性(双侧).627.身高(cm)df260身高和肺活量的相关系数为0.0960.3r0.627p,,所以接收不相关的假设,认为身高和肺活量无显著的线性关系.此例说明体重因子影响了身高和肺活量之间相关性的分析.7.2Spearman(斯皮尔曼)秩相关系数—单调性相关分析为了使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的,并且数据至少在逻辑范畴内是等间距的.如果这两个条件不符合,一种方法就是采用Spearman秩相关系数来代替Pearson线性相关系数进行相关性分析.7.2.1秩“秩”即按数据大小排定的次序号,又称秩次号.编秩就是将观察值按顺序由小到大排列,并用序号代替原始变量值本身.用秩次号代替原始数据后,所得某些秩次号之和,即按某种顺序排列的序号之和,称为秩和.设有以下两组数据:A组4.76.42.63.25.2B组1.72.63.62.33.7两组各有5个变量值.现在依从小到大的顺序将它们排列起来,并标明秩次,结果如下:A组2.63.24.75.26.4B组1.72.32.63.63.7秩次12345678910原始值中有两个“2.6”,分属A、B组,它们的秩次应是3和4,然而它们的数值本来是同样大小的,哪组取“3”,哪组取“4”呢?我们将它们的平均数(3+4)/2=3.5,作为“2.6”的秩次,称为“平均秩次”.这样两组所得的秩次及秩和如下:A组3.558910秩和为35.5B组123.567秩和为19.5上面A组和B组中各有五个原始值,按顺序排列:昀小值设为1,再按绝对值大小对余下的变量逐个排序,昀大值为两组变量个数之和10.依次可得1,2,3.5,3.5,5,6,7,8,9,10.这10个序号即是秩次.A组秩和等于3.5+5+8+9+10=35.5,B组秩和等于1+2+3.5+6+7=19.5.从两组的原始变量值也可以初步看出:A组偏大,B组偏小.现在得出的秩和也是A组大于B组,与由变量值所观察到的结果一致.7.2.2秩相关系数Spearman秩相关系数通常被认为是排列后的变量秩次之间的Pearson线性相关系数.定义7-4若对随机变量X和Y进行了n次随机试验,得到样本(,)iiXY(1,2,,)in,设iX、iY的秩次分别为和且ipiq1nipp1in,1nin1iqq,iidpqi.则随机变量X和Y对于这组样本的秩相关系数s为12211()()()(niiisnniiiippqqppqq)如果没有相同的秩次,则s可由下式计算2261(1isdnn)随着X和Y越来越接近严格单调的函数关系,Spearman秩相关系数在数值上会越来越大.当X、Y有严格单调递增的关系时,它们之间的Spearman秩相关系数为1;反之,当X、Y有严格单调递减的关系时,Spearman秩相关系数为-1.Spearman秩相关系数为0表示随着X的增加,没有增大或减小的趋势.Y5第7章相关性分析67.3Kendall(肯德尔)相关系数Kendall相关系数又称作和谐系数,也是多列变量等级相关系数.Kendall(肯德尔)相关系数有时也称为评价者信度.一个评价者对个对象评价的秩之和为12NN(1)/2NN,所有K个评价者对所有对象评价的总秩为KN(1)/2N,这样每个对象的平均秩为K(1)/N2.如果记对象的iK个秩(次序)的和为,那么,如果评估是随机的,这些与平均秩的差别不会很大,反之差别会很大,即所有对象的秩与平均秩的偏差的平方和很大.(1,2,,N)iRiiRS11NNiiRR,S义为定222111()()NiNNiiiiiRSRRRN,3K如果各评价者对个对象所评的秩序列完全相同,的值为.如果评价的秩不同,则变小,一致性程度降低;如果完全没有相关,则所评对象各秩之和应该相等,其昀大可能方差应为零.NS23()/KNN12SS肯德尔系数被定义为下面二者的比值:每个被评价对象
本文标题:数学建模相关性分析
链接地址:https://www.777doc.com/doc-1761888 .html