您好,欢迎访问三七文档
多元统计分析第七章2•起源于20世纪初期,40年代曾在心理、教育、生物等方面有不少应用;但由于计算量大,其发展受到影响;60年代以后,随着计算机科学的发展,多元分析方法在地质、气象、医学、社会学等方面也得到了广泛的应用,在理论上也取得了很大的发展。•多元分析包括如下主要内容:多元正态总体的参数估计与假设检验、聚类分析、判别分析、主成分分析、因子分析、对应分析、多重多元回归分析、典型相关分析、路径分析等等;多元统计分析研究多个随机变量之间相互依赖关系以及统计规律性。•学习多元分析通常要求具备如下的知识:线性代数中向量和矩阵的有关知识、初等的数理统计知识、统计软件包的运用;参考书:中国统计出版社,于秀林,任雪松编著,《多元统计分析》3§1多元正态分布在实用中遇到的随机向量常常是服从正态分布或近似正态分布,或虽本身不是正态分布,但它的样本均值近似于正态分布。因此现实世界中许多实际问题的解决办法都是以总体服从正态分布或近似正态分布为前提的。在多元统计分析中,多元正态分布占有很重要地位,本书所介绍的方法大都假定数据来之多元正态分布。为此,本节将要介绍多元正态分布的定义和有关性质。然而在实际问题中,多元正态分布中均值向量和协差阵通常是未知的,一般的做法是由样本来估计。这是本节讨论的重要内容之一,在此我们介绍最常见的最大似然估计法对参数进行估计,并讨论其有关的性质。5一、随机向量的有关概念1、随机向量的概率分布随机向量----维列向量作为分量组成的个随机变量把pXXXpp,,,21TpXXXX),,,(21•注1:这里的各个Xi,不再是来自同一个总体的简单随机样本,它们未必独立或同分布。通常,这些Xi各自分别表示同一个总体的p个不同的指标,此时相应的总体也被称为是一个p元总体。•注2:跟n维随机变量一样,p维随机向量也有分布函数、概率密度或分布律,还有边缘分布等等。6TpXXXXp),,,(21维随机向量为记TpEXEXEXEX),,,(21----X的均值(向量)2、随机向量的数字特征它满足如下性质:①E(AX)=AE(X)②E(AXB)=AE(X)B③E(AX+BY)=AE(X)+BE(Y).,,矩阵为大小适合运算的常数为随机向量,其中BAYX又记)])([(jjiiijEXXEXXEpji,,2,1,----Xi与Xj的协方差)(iiiDX7ppij)(----X的协方差阵为非负定的实对称阵jjiiijijr----Xi与Xj的相关系数ppijrR)(----X的相关系数阵)(XD也记为})]()][(({[)(TXEXXEXEXD实际上D(X)满足如下性质:①D(X+a)=D(X)②D(AX)=AD(X)AT.为常数矩阵为常数向量,其中AaR也是非负定的实对称阵8TqTpYYYYXXXX),,,(),,,(2121,对于两个随机向量),(),(),(),(),(),(),(),(),()])([(212221212111qpppqqYXCovYXCovYXCovYXCovYXCovYXCovYXCovYXCovYXCovEYYEXXE----X和Y的协方差阵).,(YXCov记为YXOYXCov和,则称随机向量若),(不相关.).(),(XDXXCov易见.),(),(TBYXACovBYXACov9二、多元正态分布的基本知识如同一元正态分布在一元统计分析中所占得重要地位一样,多元统计分析中的许多重要理论和方法都是直接或间接建立在正态分布的基础上,多元正态分布是多元统计分析的基础。1、多元正态分布的定义)}()(21exp{||)2(1),,,(),,,(2122121xΣxΣxxxfXXXXTppTp的概率密度函数为若随机向量.),,,(),,,(2121是正定阵是常数向量,;其中ΣxxxxTpTp----则称X服从多元正态分布,也称X为p元正态向量,记为).,(~ΣNXp10另一个等价定义.1,0,,,,,,,2121)(态分布独立,且都服从标准正其中)(设NUUUUUUUqTq的线性变换作阶常数矩阵为维常数向量是设UqpAp,,12121pqqppUUUAXXXX则称X为p维正态随机变量,.),(~TpAANX,其中记为二维正态随机变量,见P222112、多元正态分布的基本性质①.)(,)(),(~ΣXDXEΣNXp,则若②).Σ,(~1)Σ,(~TrpCCbCNbCXYrbprCNX则常数向量,是阶矩阵,是任一,若③).Σ,(~),Σ,(~ΣΣΣΣΣΣ,,)Σ,(~22221111221221112121kpkkkpkpkkkpkkppNXNXXXXXNX则作如下剖分:,将若正态随机向量的线性变换还是正态的.正态随机向量的任何边缘分布仍是正态的.性质4、5、6、7,见P221-22212三、多元总体的多元样本TpXXXXp),,,(21元总体设有该总体的一个容量为n的简单随机样本,也就是n个相互独立且与总体X同分布的p维随机向量.,,,)()2()1(nXXXTpXXXX),,,(21)(每一个),,2,1(n称为一个样品,其中Xj为第个样品对第j个指标的观测值。(---一个p维随机向量)全部观测数据可以表示成一个n×p阶矩阵:npnnppXXXXXXXXXX212222111211TnTTXXX)()2()1(---观测矩阵.这是一个随机矩阵!13简言之,对于多元总体而言,一个容量为n的样本,对应着一个n×p阶随机矩阵。一旦观测值取定,它就是一个数据矩阵。多元样本的数字特征样本均值向量nXnX1)(1,pXXX21piXnXnii,,2,1,11其中TpXXX,,,21样本离差阵TnXXXXA))(()(1)(ppija)(pjiXXXXajjnTiiij,,2,1,),()(1其中14样本协方差阵AnS11样本相关阵ppijrR)(jjiiijijsssr其中ppijs)(jjiiijaaa多元正态总体的抽样分布阵,的样本均值向量和离差分别是正态总体和设)Σ,(pNAX则有);1,(~1ΣnNXp)();Σ,0(.211pnTNYYYAA独立同分布于其中可以表示成离差阵)(.3相互独立和)(SX)),1((nWWishartAp分布服从还有:15四、多元正态总体的参数估计1、问题的背景设(X1,X2,…,Xn)为来自总体的样本,观测数据矩阵为pnjXX)(),(~ΣNXpp元总体已知要求依据该观测矩阵,估计总体的均值向量和协方差阵∑.2、估计方法----最大似然估计法(见P224)结论的最大似然估计;和分别是和)(Σ11AnX的最小方差无偏估计;和分别是和)(Σ112AnSX还都是相合估计S为正定阵的充要条件是pn.注意:.向量的维数即样本容量要大于随机16五、多元正态总体的参数检验1、问题要求依据观测数据矩阵X,检验关于多元正态总体的均值向量或协方差阵∑的假设.2、检验方法----跟一维的情形思路完全类似;关键是针对不同的情况,构造相应的检验统计量(见P224-227)。•多元正态总体参数检验的常用检验统计量的分布,除了正态分布、2分布、t分布和F分布外,还有HotellingT2分布、Wilks分布。注•同样也有多元正态总体下的方差分析等。17§2判别分析判别分析:已知研究对象分成了若干类别,研究如何通过样本数据对未知类别的样品进行判别分类;18已知一个在X射线检查下肺部有阴影的病人有可能患有一般肺炎、肺结核、肺部良性肿瘤和肺癌四种疾病;现在通过进一步检查病人的多项指标(阴影大小、阴影边缘的光滑度、是否有痰、是否高烧等)所得到的观测数据,判别他生的是什么病。引例分析:•将四种疾病看做四个不同的p元总体Xi,i=1,2,3,4..)(项指标下,都对应有每一个总体pXi现在相当于:已知一个试验样品X=(X1,X2,…,Xp)T,(一个p维的随机变量)要求推断X应属于哪一个总体.数学模型1设有k个p维总体G1,G2,…,Gk,它们的分布都已知;对于给定的一个p维的样品(X1,X2,…,Xp)T,要求依据观测数据矩阵判断它是来自哪个总体。19数学模型1设有k个p维总体G1,G2,…,Gk,它们的分布都已知;对于给定的一个p维的样品(X1,X2,…,Xp)T,要求依据观测数据矩阵判断它是来自哪个总体。数学模型2设有k个p维总体G1,G2,…,Gk,(它们的分布未知)对于给定的一个p维的样品(X1,X2,…,Xp)T,要求依据观测数据矩阵判断它是来自哪个总体。已知分别来自它们的样本数据其中,(),,,()()(2)(1)(mnmmmmXXXXkmpXmj,,2,1,)(维向量)都是每个-----相当于:在p维空间已有k组不同类的点,另有一个新的点,要求判断它属于哪一组.20一、距离判别1、基本思想首先根据已知分类的信息,分别计算各类的重心(即各类的均值),然后对于任给的一个样品,若它与第i类的重心的距离最近,就认为它是来自第i类。2、马氏距离).0(,ΣΣGp协方差阵为的均值为维总体设.的两个样本是来自总体和GYX)()(),(1YXΣYXYXDT---X与Y之间的马氏距离;)()(),(1XΣXGXDT---X到总体G的马氏距离;•统计学中还有若干不同的“距离”定义;相比之下,马氏距离有很多独特的优点,是较常用的定义之一。212、马氏距离).0(,ΣΣGp协方差阵为的均值为维总体设.的两个样本是来自总体和GYX)()(),(1YXΣYXYXDT---X与Y之间的马氏距离;)()(),(1XΣXGXDT---X到总体G的马氏距离;.Σˆ)()(11Σˆ),,,(121即可和取代上式中的,则用,来自总体的样本的分布未知,已知的是若总体XXXXXnXXXGTiniinTiniiXXXXA))((1------样本离差阵223、两个总体的距离判别判别准则),(),(,),(),(,),(),(,21212211GXDGXDGXDGXDGXGXDGXDGX当待判当当0)(,0)(,0)(,21XWXWGXXWGX当待判当当为方便运算,我们比较),(),(1222GXDGXD)(2XW上述准则可化成•一般情况下,W(X)是X的二次函数.计算起来比较复杂。23•特别,当两个总体的协方差阵相等(∑1=∑2=∑)且已知时,W(X)可化为),()()(XaaXXWTTX的线性判别函数当两个总体协方差阵相等但未知时,)(,221121Σa其中)()()(XXaaXXXWTT)(21Σˆ,22121)2()1(AAnnXXX其中,)()()1()1(1)1()1(11TnXXXXATnXXXXA)()()2()2(1)2()2(22)ˆˆ(Σˆ,ˆ211aX)(Σˆ)2()1(1XX24•说明:----通常,在做距离判别之前应对两个总体的均值差进行显著性检验。距离判别法不需要知道总体分布类型,只要协方差存在即可。简单,便于使用。距离判别属于一种统计推断,有误判的可能;尤其是当两个总体的均值很接近时,无论用何种判别方法,误判的概率都比较大,这时的判别分析也是没有意
本文标题:7多元统计分析.
链接地址:https://www.777doc.com/doc-2932129 .html