您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > (37)多元统计分析(1).docx
1多元统计分析第一章绪论§1.1什么是多元统计分析在自然科学、社会科学以及经济领域中,常常需要同时观察多个指标。例如,要衡量一个地区的经济发展,需要观测的指标有:总产值(X1)、利润(X2)、效益(X3)、劳动生产率(X4)、万元生产值能耗(X5)、固定资产(X6)、流动资金周转率(X7)、物价(X8)、信贷(X9)及税收(X10)也就是说一个地区的经济发展,受多种指标共同作用的影响,我们把每一个指标看成一个随机变量,可以单独研究每个随机变量,但这只能揭示该地区经济发展的一个方面,更多的时候需要把把这诸个随机变量一起研究揭示多个随机变量对该地区经济发展的共同影响,以及揭示这些随机变量内在变化规律。例如,研究某公司的经营状况,需要观测公司的财务指标有:每股净资产(X1)、净资产收益率(X2)、每股收益(X3)、每股现金流(X4)、负债率(X5)、流动比率(X6)及速动比率(X7)。可以单独研究每个随机变量,更多的时候需要把这诸个随机变量一起研究,揭示这些随机变量内在变化规律。多元统计分析——研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。多元统计分析包括的主要内容:多元(正态)总体的参数估计和假设检验、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析、多重多元回归分析等。2介绍多元统计分析方法时,需要的时候增加一些线性代数的知识。§1.2多元统计分析能解决哪些实际问题⑴经济学:对我国32个省市自治区的社会情况进行分析。⑵工业:服装厂生产服装。为了适应大多数顾客的需要,如何确定服装的主要指标及分类的型号。指标:身长、袖长、胸围、腰围、肩宽、肩厚等十几个指标(主要指标:长度、胖瘦)⑶投资组合:§1.3主要内容安排多元(正态)总体的参数估计、聚类分析、判别分析、主成分分析、因子分析、典型相关分析等。上机操作。第二章多元正态分布§2.1基本概念1.随机向量的概率分布定义1将p个随机变量12,,,pXXX的整体称为p维随机向量,记为12(,,,)pXXXX在多元统计分析中,仍然将所研究对象的全体称为总体。一元总体分布函数和分别密度定义:()()FxPXx为随机变量X的概率分布,记为()XXFx。离散型:()kkPXxpk=1,2,3,…⑴()0kkPXxp;⑵1kkp3连续型:()()()xFxPXxftdt⑴()0ft;⑵()1ftdt定义2设12(,,,)pXXXX是p维随机向量,它的多元分别函数定义为111122()=(,,,)(,,,)pppFxFxxxPXxXxXx记为()XXFx,其中记为12=(,,,)Rppxxxx。定义3设12(,,,)pXXXX是p维随机向量,若存在有限个或可列个p维数向量1x,2x,3x,…,记()kkPXxp(k=1,2,3,…),且满足()0kkPXxp,1kkp,则称X为离散型随机向量,称()kkPXxp(k=1,2,3,…)为X的概率分布。设p维随机向量()XXFx,11()=(,,,)pFxFxxx,若存在一个非负函数12(,,,)pfxxx,使得对一切12=(,,,)Rppxxxx,有12121212()(,,,)(,,,)pxxxpppFxFxxxftttdtdtdt则称X为连续随机向量,称12(,,,)Xpfxxx为分布密度函数,易见⑴12(,,,)0pfxxx,⑵1212(,,,)1ppftttdtdtdt例1试证函数12()12120,0(,)0xxexxfxx其它为随机向量12XXX的密度函数。4证:(1)易见12(,)0fxx(2)12()12121200(,)xxfxxdtdtedxdx12122122000020()()1xxxxxedxedxeedxedx定义4设12(,,,)pXXXX是p维随机向量,称由q(p)个分量组成的子向量12()(,,,)qiiiiXXXX的分布为X的边缘(或边际)分布(通过变换X中各分量的次序,总可以假定(1)X正好是X的前q个分量,其余p-q个分量为(2)X),即(1)(2)XXX,相应的取值也可以分成两部分(1)(2)xxx。(1)X的边缘分布函数为(1)11221122112212212()(,,,)(,,,,)(,,,,,,,)(,,,,,,)qqXqqqqqqqqFxpXxXxXxpXxXxXxpXxXxXxXXXFxxx当X有分布密度12(,,,)Xpfxxx时,则(1)X的分布密度为12111(,,,),,(,,,,,,),,XqXqqpqpfxxxfxxxxdxdx例2对例1中的12XXX求边缘密度函数。解:当10x时1210()1122220()(,)0xxxfxfxxdxdxedxe当10x时511222()(,)0fxfxxdxdx0从而有11110()00xexfxx同理可得到22220()00xexfxx定义5若p维随机向量12(,,,)pXXXX的联合分布等于各自边缘分布的乘积,则称12,,,pXXX是相互独立的11(,,,)pFxxx1212()(),,()pXXXpFxFxFx一切12(,,,)ppxxxxR对于连续型随机变量,有12312(,,,,)()(),,()XppPxxxxPxPxPx一切12(,,,)ppxxxxR(有时候根据几何图形判断概率,根据试验的背景判断独立性)例3例2中的1X与2X是否相互独立?解:例1中密度函数12()12120,0(,)0xxexxfxxno例2中求得的边缘分布11110()00xexfxx及22220()00xexfxx所以有121212(,)()()XXfxxfxfx,即1X与2X相互独立。如果12,,,pXXX相互独立,则任何iX与()jXij独立,反之不真。2.随机向量的数字特征定义6设12(,,,)pXXXX,若1EX(i=1,2,3,…)存在,则称6123(,,,,)PEXEXEXEXEX为X的均值(向量)或期望,也记为1122ppEXEXEXEX均值向量性质:⑴()()EAXAEX⑵()()EAXBAEXB⑶()()()EAXBYAEXBEY其中X、Y为随机向量,A、B为常数矩阵。定义7设12pXXXX,12qYYYY称()[()()]DXEXEXXEX=111212122212(,)(,)(,)(,)(,)(,)(,)(,)(,)ppppppppCovXXCovXXCovXXCovXXCovXXCovXXCovXXCovXXCovXX为X的方差矩阵或协方差矩阵,有时简记为()[()()]ppijppDXEXEXXEXV称随机向量X和Y的协方差矩阵为(,)[()()]CovXYEXEXYEY=111212122212(,)(,)(,)(,)(,)(,)(,)(,)(,)qqpppqpqCovXYCovXYCovXYCovXYCovXYCovXYCovXYCovXYCovXY若X的协方差矩阵存在,且每个分量的方差大于零,则X的相7关系数矩阵为ijppRr其中(,)()()ijijijiijjijCovXXrVarXVarX(i,j=1,2,3,…,p)为iX与jX的相关系数。记标准离差矩阵11122233PPPPV则有1122VRV,1122RVV易见0,0RV。实际上,对于任意非零向量120paaaa,aaaDa2[()()]()()[()()][()]0aEXEXXEXaEaXEXXEXaEaXEXaXEXEaXEX,RV为半正定矩阵。例4设1112132122233132334121912116,则可得11122233002000003000400V,1112210021()0031004VV8容易验证1122111641116312111412RVV若(,)pqCovXYO,称X与Y不相关。若X与Y独立,则X与Y不相关,反之不成立。(正态分布反之成立)协方差矩阵性质:⑴()0DX;⑵()()DXaDX;⑶()()DAXADXA;⑷(,)(,)CovAXBYACovXYB。§2.2多元正态分布的定义及基本性质多元正态分布在多元统计分析中所处的地位,如同一元统计分析中一元正态分布所处的地位一样重要,多元统计分析中的许多理论和方法都是直接或间接建立在正态分布的基础上,多元正态分布是多元统计分析的基础。另外,在实用中遇到的随机向量常常是服从或近似服从正态分布。因此,现实世界中许多实际问题的解决办法都是以总体服从正态分布或近似正态分布为前提。1.(多元正态分布)定义定义8若p维随机向量12(,,,)pXXXX的密度函数为12(,,,)Xpfxxx12211exp()()2(2)ppXX其中12(,,,)pxxxx,而12(,,,)p是p为常数向量,是p阶9正定矩阵,则称X服从p元正态分布,也称X为p维正态随机向量,简记为X~(,)pN。(是退化矩阵时,用特征函数的方法定义)当p=1时,记为一元正态分布密度函数。当p=2时,有1122()EXEXEX,11122122()DX,1212211122,2221211221211221122121122(1)(1)二元正态分布密度函数可以写成12(,)fxx112212112222211122112212112212111exp2(1)(2)(1)XXXX221111222212221211221122112212()()()()11exp22(1)(2)(1)XXXX2.多元正态变量的基本性质⑴若X~(,)pN,当是p阶对角矩阵时,12,,,pXXX相互独立;⑵若X~(,)pN,spA为常数矩阵,d为s维常数向量,则AX+d~(,)sNAdAA⑶若X~(,)pN,将X,,作如下划分:(1)(2)XXX,11122122,(1)(2)则(1)X~(1)11(,)qN,(2)X~(2)22(,)qN。说明:10⑴多元正态分布的任何边缘分布为正态分布,反之不真。⑵协方差矩阵(1)(2)12(,)CovXXO(表明不相关)的充分必要条件是(1)X与(2)X独立。例5123(,,)XXXX~3(,)N,其中123,1112
本文标题:(37)多元统计分析(1).docx
链接地址:https://www.777doc.com/doc-5451481 .html