您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 应用多元分析期末复习练习题
多元复习1、多元统计分析是运用数理统计方法来解决多指标问题的理论和方法。2、多元分析研究的是多个随机变量及相关关系的统计总体。3、如果A与B是两个P×P维的方阵,则AB与BA有完全相同的特征值。4、随机向量X的协方差矩阵一定是非负定矩阵。5、若A为P阶对称矩阵,则存在正交矩阵T与对角矩阵∧,则三者的关系有A=T∧T’。6、设x是多元向量,服从正太分布即X~,a为P维常熟向量,则其线性型a’x服从一元正态分布,即a’x~。7、方差相同的两个随机变量的差与和是不相关关系。8、协方差和相关系数是变量间离散程度的一种变量,并不能刻画变量间可能存在的关联程度的关系。9、变量的类型按尺度划分为间隔变量、有序变量、名义变量类型。10、公共因子方差与特殊因子方差之和为1。11、聚类分析是建立一种分析方法,它将一批样品或变量按照它们在性质上的亲疏关系进行科学的分类。12、聚类分析是分析如何对样品或变量进行量化分析,通常分为Q型聚类和R型聚类。13、聚类分析中Q型聚类是对样品进行聚类,R型聚类是对变量进行聚类。14、进行判别分析时,通常指定一种判别规则用来判定新样品的归属,常见的判别准则有:费希尔判别准则、贝叶斯判别准则。15、费希尔判别法就是要找P个变量组成的线性判别函数使得各组内点的离差尽可能接近,而不同组间的点尽可能疏远。16、当X~,则-)服从卡方分布,即-)~。17、威尔克斯统计量表达式:∧=。18、霍特林统计量表达式:。19、两个变量间的平方马氏距离:;总体的马氏距离:。20、方差相等的两个随机变量的关系:。21、几个变量间服从正态分布,各自独立,样品的均值向量服从正态分布。22、从代数观点看主成分是P个原始相关变量的线性组合。23、变量共同度是指因子载荷矩阵中的第i行元素的平方和。24、因子分析是指把每个原始变量分为两部分因素,一部分是公共因子,另一部分是特殊因子。1、判别分析的目标。答:判别分析的目标有两个:一是根据已知所属组的样本给出判别函数,并制定判别规则,再依此判断(或预测)每一新样品应归属的组别。另一是用图形法或代数法描述各组样品之间的差异性,尽可能地分离开各组。2、费希尔判别的基本思想、目的、主要方法有哪些?答:费希尔判别的基本思想是投影(或降维),用几个费希尔判别函数或典型变量来代替P个原始变量,以达到降维的目的。并根据这r个判别函数对样品的归属作出判别或将各组分离。各个判别函数都具有单位方差,且彼此不相关。判别函数的方向并不正交,而作图时仍将它们画成直角坐标系,从直观的几何图上进行判别,区别各组,这是费希尔判别的重要应用。为作图时的需要,通常取判别函数个数r=2或3。3、聚类分析与判别分析的区别与联系。答:判别分析和聚类分析都是研究事物分类(或组)的基本方法,但它们却有着不同的分类目的,彼此之间既有本质的区别又有一定的联系。它们的本质区别在于:在于判别分析中,组的数目是已知的,我们将样品分配给事先已定义好的组(或类)之一;而聚类分析中,无论是类的数目还是类的本身在事先都是未知的。它们的联系在于:如果组不是已有的,则对组的事先了解和形成有时可以通过聚类分析探索得到;还有,聚类分析的效果往往也可以通过由前两个(或三个)费希尔判别函数得分产生的散点图(或旋转图)从直觉上进行评估。4、主成分的应用分类。答:主成分的应用可分为两类:(1)在一些应用中,这些主成分本身就是分析的目标,此时需要给(用来降维的)前几个只成分一个符合实际背景和意义的解释,以明白其大致的含义。(2)在更多的另一些应用中,主成分只是要达到目标的一个中间结果(或步骤),而非目标本身。5、主成分与原始变量间的关系。答(1)主成分保留了原始变量绝大多数信息。(2)主成分的个数远远少于原始变量的数目。(3)各个主成分之间互不相关。(4)每个主成分都是原始变量的线性组合。6、因子分析与主成分分析的区别与联系。答:(1)主成分涉及的只是一般的变量变换,它不能作为一个模型来描述,本质上几乎不需要任何假定;而因子分析需要构造一个因子模型,并伴随有几个关键性的假定。(2)主成分是原始变量的线性组合;而在因子分析中,原始变量是因子的线性组合,但因子却一般不能表示为原始变量的线性组合。(3)在主成分分析中,强调的是用少数几个主成分解释总方差;而因子分析中,强调的是用少数几个因子去描述协方差或相关关系。(4)主成分的解释是唯一的(除非含有相同的特征值或特征向量为相反符号);而因子的解可以有很多,表现的比较灵活(主要体现在因子旋转上)。这种灵活性使得变量在降维后更易得到解释,这是因子分析比主成分分析更广泛应用的一个重要原因。(5)主成分不会因其提取个数的改变而变化,但因子分析往往会随模型中因子个数的不同而变化。1、正交因子模型的不受单位的影响。证明:将x的单位做变化,通常是作一变换cx*x,这里的piccccdiagcip,....2,1,0),,....,(21,于是ccAcfx*令c*,cA*A,c*,则有:****fxA这个模型能满足假定式的假定,即:0),cov(),cov()()(0)(0)f(****cffDVIfVEE其中222*2*2*22*1*),,.....,(Diiipcdiag,i=1,2,….p。因此,单位变换后新的模型仍为正交因子模型。2、正交因子模型的因子载荷是不唯一的。证明:设T为任意mxm正交矩阵,令,A*AT,f*fT则模型,Afx能表示为**fAx。因为:0)()(*fETfEITTTfVTfV)()(*0),(),(),(Cov**fETfEf所以仍满足条件:0),(),cov(),.....,(()()(0)(0)f(22221fEfdiagDVIfVEEp从DAAVAfAVVAfV)()()()(或**fAx都可以看出也可以分解为DAA**显然,因子载荷矩阵A不是唯一的。3、性质(7)设X~,0),,(PN则)(~x)x()x(21p。证明:令)x(y21,于是)1,0(~NPy所以pyyyy.....,,321独立同分布于N(0,1)所以由卡方分布的定义知:)(~x....)x()x(2222211pyyyyyp4、设随机变量),,(x321有密度函数其他,02,0),sinsinsin1(81),(32,1321332,1xxxxxxxxxf试证32,1,xxx两两独立但不互相独立。证明:3232,1,11),f()(dxdxxxxxf=322020381dxdx3232120203sinsinsin81dxdxxxx=212033202213sinsinsin81dxxdxxx=21同理:21)(22xf,21)(33xf332,12,1),(),(dxxxxfxxf3321203)sinsinsin1(81dxxxx32032133203sinsinsin8181dxxxxdx241同理:23,141),(xxf,23241),(xxf从而)()(),(22112,1xfxfxxf,)()(),(33113,1xfxfxxf,)()(),(332232xfxfxxf,)()()(),(33221132,1xfxfxfxxxf所以32,1,xxx两两独立但不互相独立。5、设P维随机向量X的向量和协方差矩阵分别为μ和∑,求证:(1))(xxE(2)AAAxxtrEAxxE)(tr)()((3)假设1,I2和PIA11试利用(2)的结果证明1)(tr)(2pAAxxE。证明:(1))x)(x()x(EV)(xxxxE)(xxE所以:)(xxE(2)AEtrAxxEAxxtrEAxxtrEAxxE)xx()(tr)()()(AAtrAtrAtrAtr)()()()((3)由(2)知AAtrAxxE)()(,0)()111111(1)11(122PPPPPPIA所以:)p11()()(tr)(tr)(2222ItrAtrIAAAxxE11)11(1)11(1)(PPPPtrPPtrPItr6、性质(3)设X~),(PN,y=cx+b,其中c为rxp维常数矩阵,b为r维常数向量则),(y~Nrccb。证明:对任意rRa,bacxaya,因为x是多元正态变量,而cxa是x的一个线性函数从而由性质(2)的必要性知:cxa是一元正态变量,所以ya是一元正态变量;再由性质(2)的充分性知:y是一个r元正态变量,又由于bcbxcEE)()y(cccxcVyV)()(因而:),(y~Nrccb7、设X~),(PN,a为P维常数向量,则),(x~Naaaa。证明:因为X~),(PN,a为P维常数向量,令yay,则有:aEaxaEE)x()()y(aaaxVV)(a)y(所以:),(x~Naaaa8、设X~),(2N,这里21xxx,21,22212121则xxx)1,1(21服从一元正态分布。证明:212121)1,1()(XXE2122212221212121211)1,1()(XXV即)2,(~N2122212121xx9、设X~),(3N,其中110150003则32和xx不独立,),和(321xxx独立。证明:因为0),(32xxV,所以32和xx不独立;因为0),(,x321xxV,所以),和(321xxx独立。1、已知初始距离04350211010)dij(44D要求用最短距离法进行聚类,并画出聚类树形图。2、设抽取5个样品,每个样品观察2个指标:1x:您每月大约喝多少啤酒;2x:您对“饮酒是人生的快乐这句话的看法如何?观察数据如表所示:请用最短距离法进行聚类,并画出聚类树形图。X1X212072181031054455433、例6.3.1设有五个样品,每个只测量了一个指标,分别是1、2、6、8、11,使用最短距离法将它们分类。解:记G1={1},G2={2},G3={6},G4={8},G5={11},样品间采用绝对值距离。D(0)G1G2G3G4G5G10G210G3540G47620G5109530D(1)G6G3G4G5G60G340G4620G59530其中G6=G1∪G2D(2)G6G7G5G60G740G5930其中G7=G3∪G4D(3)G6G8G60G840其中G6=G1∪G2最短距离法树形图4、为了研究辽宁省等5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分省份x1x2x3x4x5x6x7x8辽宁浙江河南甘肃青海7.907.689.429.1610.0639.7750.3727.9327.9828.648.4911.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.
本文标题:应用多元分析期末复习练习题
链接地址:https://www.777doc.com/doc-2420253 .html