您好,欢迎访问三七文档
一、协方差与相关系数的概念及性质二、相关系数的意义三、小结第三节协方差及相关系数前面我们学习了随机变量的数学期望和方差,对于多维随机变量,除了其数学期望和方差外,我们还要研究反映各分量之间关系的数字特征,其中最重要的,就是现在要讨论的协方差和相关系数1.问题的提出一、协方差与相关系数的概念及性质在讨论这个问题之前,我们先看一个例子。在研究子女与父母的相象程度时,有一项是关于父亲的身高和其成年儿子身高的关系。这里有两个变量,一个是父亲的身高,一个是成年儿子身高.为了研究二者关系,英国统计学家皮尔逊收集了1078个父亲及其成年儿子身高的数据,画出了一张散点图。儿子的身高父亲的身高问:父亲及其成年儿子身高存在怎样的关系呢?fatherson类似的问题有:1、吸烟和患肺癌有什么关系?2、受教育程度和失业有什么关系?3、高考入学分数和大学学习成绩有什么关系?……???那么相互独立和若随机变量,YX).()()(YDXDYXD不相互独立和若随机变量YX?)(YXD)]}.()][({[2)()(YEYXEXEYDXD协方差定义对两个随机向量(X,Y),若E(X-EX)(Y-EY)存在,则称cov(X,Y)=E(X-EX)(Y-EY)为X和Y的协方差。特别,若X=Y,则cov(X,X)=E(X-EX)2=D(X)因此,方差是协方差的特例,协方差刻画两个随机变量之间的“某种”关系.可以证明若(X,Y)服从二维正态分布,即则),,,,(~),(222211NYX21),cov(YX2.定义可见,若X与Y独立,则4.计算协方差的一个简单公式Cov(X,Y)=0.Cov(X,Y)=E(XY)-E(X)E(Y)D(X+Y)=D(X)+D(Y)+2Cov(X,Y)3随机变量和的方差与协方差的关系(5)Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)(3)Cov(X,Y)=Cov(Y,X)(对称性)5.简单性质(4)Cov(aX,bY)=abCov(X,Y)其中a、b是常数下面请大家利用上面所学的知识进行证明。(1)Cov(X,X)=D(X)(2)Cov(X,c)=0(c为常数)•协方差的数值在一定程度上反映了X与Y相互间的联系,但它受X与Y本身数值大小的影响.如令X*=kX,Y*=kY,这时X*与Y*间的相互联系和X与Y的相互联系应该是一样的,但是Cov(X*,Y*)=k2Cov(X,Y)•为了克服这一缺点,在计算X与Y的协方差之前,先对X与Y进行标准化:)()()()(YDYEYYXDXEXX•再来计算X*和Y*的协方差,这样就引进了相关系数的概念.为随机变量X和Y的相关系数(correlationcoefficient).1.定义:若D(X)0,D(Y)0,且Cov(X,Y)存在时,称(,)()()XYCovXYDXDY在不致引起混淆时,记为.XY二、相关系数2.相关系数的性质.1)1(XYρ.1}{,:1)2(bXaYPbaρXY使存在常数的充要条件是注意|ρXY|的大小反映了X,Y之间线性关系的密切程度:ρXY=0时,X,Y之间无线性关系;|ρXY|=1时,X,Y之间具有线性关系.ρXY0,X,Y正相关ρXY0,X,Y负相关ρXY≠0,X,Y相关ρXY=0,X,Y不相关(ρXY=1,X,Y完全正相关)(ρXY=-1,X,Y完全负相关)x=1y0i.完全正相关Y=aX+ba0=-1xy0ii.完全负相关Y=aX+ba0xy0=0iii.完全不相关01xy0iv.正相关-10xy0v.负相关例:将一枚密度均匀硬币抛n次,分别以X和Y记作正反面出现的次数,则X和Y的相关系数为A:0B:1C:-1D:1或-1解:因为X+Y=n,即P{Y=-X+n}=1,所以X与Y完全负相关,故XY=-1从而选C。,baXY注:若a0时,ρXY=1a0时,ρXY=-1则例2(X,Y)的联合分布为:X-101Y-1011/81/81/81/801/81/81/81/8求相关系数ρXY,并判断X,Y是否相关,是否独立.解:X-101Y-1011/81/81/83/81/801/82/81/81/81/83/83/82/83/810)(iiipxXE0)(.jjjpyYEXY-101P2/84/82/80)(ijijjipyxXYE例2(X,Y)的联合分布为:X-101Y-1011/81/81/81/801/81/81/81/8求相关系数ρXY,并判断X,Y是否相关,是否独立.解:)()()(),cov(YEXEXYEYX0从而:0XYX-101Y-1011/81/81/83/81/801/82/81/81/81/83/83/82/83/81另一方面:P(X=-1,Y=-1)=1/8≠P(X=-1)P(Y=-1)=(3/8)×(3/8)所以X与Y不独立.221212X,Y)~N(,,,,)若(,即(X,Y)概率密度函数为211222)[()1(21exp{121),(xyxf1]})())((22222211yyx这里可以利用相关系数的定义和微积分的知识可得即为X和Y的相关系数,.)()(),Cov(YDXDYXXY于是 结论;,)1(的相关系数与代表了参数中二维正态分布密度函数 YXρ.)2(相互独立与等价于相关系数为零与二维正态随机变量 YXYX例3?,),cos(,cos,]π2,0[的相关系数和求是常数这里的均匀分布服从设aa解,0dcosπ21)(π20xxE,21dcosπ21)(π2022xxE,0d)(cosπ21)(π20xaxE,21d)(cosπ21)(π2022xaxE,cos21d)cos(cosπ21)(π20axaxxE数为由以上数据可得相关系.cosa,,1,0时当a,,1,π时当a.存在线性关系,0,23π2π时或当aa.不相关与,122但.不独立与因此0XYX,Y不相关0),cov(YX)()()(YEXEXYE)()()(YDXDYXDX,Y相互独立X,Y不相关若(X,Y)服从二维正态分布,X,Y相互独立X,Y不相关不相关与相互独立.23,21),4,0(),3,1(,22YXZρNNYXXY设分别服从 已知随机变量.)2(.)1(的相关系数与求的数学期望和方差求ZXZ解.16)(,0)(,9)(,1)()1(YDYEXDXE由)23()(YXEZE得 )(21)(31YEXE.31例4)2,3Cov(2)2()3()(YXYDXDZD),Cov(31)(41)(91YXYDXD)()(31)(41)(91YDXDρYDXDXY.3241)()(21)(31YDXDρXDXY.033.0))()((),Cov(ZDXDZXρXY故)23,Cov(),Cov()2(YXXZX),Cov(21),Cov(31YXXX这一讲我们主要介绍了协方差和相关系数,相关系数是刻划两个随机变量间线性相关程度的重要的数字特征,它取值在-1到1之间.如果两个变量之间存在强相关,则已知一个变量的值对预测另一个变量的值将很有帮助,如前面几个引例。小结.,,,2,1),(,阶矩阶原点矩kkXkXEYXk简称的称它为存在若是随机变量和 设.,,3,2},)]({[阶中心矩kXkXEXEk的称它为存在 若.,,2,1,),(阶混合矩lkYXlkYXElk的和称它为存在 若1.定义.,,2,1,},)]([)]({[阶混合中心矩lkYXlkYEYXEXElk的和称它为存在 若2.协方差矩阵中心矩的二阶混合维随机变量 设),,,(21nXXXn,,,2,1,)]()][({[),Cov(都存在njiXEXXEXEXXcjjiijiij则称矩阵nnnnnncccccccccC212222111211.协方差矩阵维随机变量的为n的协方差矩阵为二维随机变量例如),(21XX22211211ccccC},)]({[21111XEXEc其中)]},()][({[221112XEXXEXEc)]},()][({[112221XEXXEXEc}.)]({[22222XEXEc.,),,2,1,(阵为对称的非负定矩阵所以协方差矩由于njiccjiij例设随机变量X和Y相互独立且X~N(1,2),Y~N(0,1).试求Z=2X-Y+3的概率密度.故X和Y的联合分布为正态分布,X和Y的任意线性组合是正态分布.解:X~N(1,2),Y~N(0,1),且X与Y独立,D(Z)=4D(X)+D(Y)=8+1=9E(Z)=2E(X)-E(Y)+3=2+3=5即Z~N(E(Z),D(Z))故Z的概率密度是,231)(18)5(2zZezfzZ~N(5,32)契比雪夫不等式证明.}{,,)(,)(222成立不等式则对于任意正数方差具有数学期望设随机变量定理εσεμXPεσXDμXEX取连续型随机变量的情况来证明.则有的概率密度为设),(xfX.}{22εσεμXPxxfμxεd)()(122.122σεxxfεμxεμxd)(2222}{εσεμXP.1}{22εσεμXP得}{εμXPεμxxxfd)(切比雪夫不等式只利用随机变量的数学期望及方差就可对的概率分布进行估计。从切比雪夫不等式还可以看出,对于给定的0,当方差越小时,事件{|X-E(X)|≥}发生的概率也越小,即X的取值越集中在E(X)附近.这进一步说明方差确实是一个描述随机变量与其期望值离散程度的一个变量.当D(X)已知时,切贝雪夫不等式给出了X与E(X)的偏差小于的概率的估计值.切比雪夫不等式的用途:(1)证明大数定律;(2)估计事件的概率。例1已知正常男性成人血液中,每一毫升白细胞数平均是7300,均方差是700.利用切比雪夫不等式估计每毫升白细胞数在5200~9400之间的概率.解:设每毫升白细胞数为X依题意,E(X)=7300,D(X)=7002所求为P(5200X9400)P(5200X9400)=P(-2100X-E(X)2100)=P{|X-E(X)|2100}2)2100()(1XD由切比雪夫不等式P{|X-E(X)|2100}2)2100700(198911即估计每毫升白细胞数在5200~9400之间的概率不小于8/9.例2设电站供电网有10000盏电灯,夜晚每盏灯开灯的概率均为0.7,假定灯的开、关是相互立的,使用切贝雪夫不等式估计夜晚同时开着的灯数在6800到7200盏之间的概率。解令X表示在夜晚同时开着的灯数目,则X服从n=10000,p=0.7的二项分布,这时()7000,EXnp()2100.DXnpq2{68007200}2100{|7000|200}10.95200PXPX.由切贝雪夫不等式可得:
本文标题:协方差及相关系数
链接地址:https://www.777doc.com/doc-1802007 .html