您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 多元统计分析――对应分析
第7章对应分析CorrespondenceAnalysis7.1列联表及列联表分析7.2对应分析7.1列联表及列联表分析一、列联表及其作用1.列联表是观测数据按两个或更多属性变量(定类尺度或定序尺度)分类时所列出的频数表。2.列联表用于考察两个(或多个)分类变量的统计学关联。如行变量与列变量之间的关联性。一般,若总体中的个体可按两个属性A与B分类,A有n类A1,A2,…,An,B有p类B1,B2,…,Bp,属于Ai和Bj的个体数目为nij(i=1,2,…,n;j=1,2,…,p),nij称为频数,则可形成n×p的二维列联表,简称n×p表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维列联表。列联表B1B2BjBpA1n11n12…n1j…n1pn1.A2n21n22n2jn2pn2.Aini1ni2nijnipni.Annn1nn2nnjnnpnn.n.1n.2n.jn.pn频率意义上的列联表B1B2BjBpA1p11p12…p1j…p1pp1.A2p21p22p2jp2pp2.Aipi1pi2pijpippi.Anpn1pn2pnjpnppn.p.1p.2p.jp.p1列联表独立性检验对于数值型变量相关关系,通常是计算相关系数和进行回归分析。描述两个定性变量之间的相关性是指广义的相关性,称为关联性。两个定性变量的关联程度在某种意义上就是指的“不独立”,它与独立的情形差距越大,就表明彼此的关系越密切,这种关系不一定是线性关系。在实际问题中,重要的是判断变量之间是否独立,因为不独立就意味着关联。最常用的检验办法是列联表独立性检验。列联表检验的零假设是两变量X和Y相互独立,计算一个卡方统计量,与列联表中频数取值和零假设下期望取值之差有关,当卡方很大时否定零假设。例吸烟与慢性支气管炎调查表为了探讨吸烟与慢性支气管炎有无关系,调查了339人,情况如表所示:设想有两个随机变量A,B:A:1表示吸烟,2表示不吸烟;B:1表示患慢性支气管炎,2表示未患。零假设为:H0:A与B相互独立BA患慢性支气管炎未患慢性支气管炎吸烟43162不吸烟13121STATISTICSFORTABLEOFSMOKEBYBRONStatisticDFValueProbChi-Square17.4690.006LikelihoodRatio17.9250.005Chi-SquareContinuityAdj.Chi-Square16.6740.010Mantel-HaenszelChi-Square17.4470.006Fisher'sExactTest(Left)4.09E-03(Right)0.998(2-Tail)6.86E-03PhiCoefficient-0.148ContingencyCoefficient0.147Cramer'sV-0.148SampleSize=339列联表中列出了表格单元频数和在零假设下的期望频数,可以看出,吸烟人中患病的数目比期望数目大。检验的结果只要看后面的统计量部分的Chi-Square一行,其值为7.469,p值为0.006,所以应否定零假设,吸烟与患慢性支气管炎是不独立的。对应分析又称为相应分析,也称R—Q分析。是因子分子基础发展起来的一种多元统计分析方法。它主要通过分析属性(定性)变量构成的列联表来揭示变量之间的关系,可以用对应分析图(二维图)显示列联表中每一个单元格的相对位置,以简单、直观地表明列联表的行与列的关系。对应分析也是利用降维的思想以达到简化数据结构的目的。不过,在因子分析中,R型因子分析和Q型因子分析是分开进行的。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。在对应分析中,会同时对行与列进行处理,寻求以低维图形表示数据表中的行与列的关系。(对同一观测数据施加R和Q型因子分析,并分别保留两个公共因子,则是对应分析的初步)。7.2对应分析对应分析基本步骤:1、获取对应分析数据确定研究目的,选择对应分析所需数据,应该包括的背景资料。2、建立列联表3、对应分析4、利用对应图解释结果。二、对应分析的原理由于R型因子分析和Q型因子分析是反映一个整体的不同侧面,R型因子分析是从列来讨论(对变量),Q型因子分析是从行来讨论(对样品),因此他们之间存在内在的联系。设原始数据矩阵为:pnnpnnppxxxxxxxxx212222111211X由于因子分析都是基于协方差矩阵或相关系数矩阵完成的,所以必须从变量和样品的协方差矩阵入手来进行分析。pnpnpnnppppxxxxxxxxxxxxxxxxxx221122221211212111*X变量的叉积矩阵)(ppR**X)(X样品的叉积矩阵)()(nnQ**XX显而易见,变量和样品的叉积矩阵的阶数不同,一般来说,他们的非零特征根也不一样,那么能否将观测值做变换。ZX具有相同的特征根。和ZZZZpnnpnnppxxxxxxxxxX212222111211(一)规格化矩阵...2.1...2.1212222111211xxxxxxxxxxxxxxxxpnnpnnpp为列和为行和,jixx..为总和..x../xxpijijpnnpnnpppppppppppX212222111211我们可以把pij解释成概率,因为所有的元素之和为1。pjijipp1.行和:niijjpp1.列和:........11///ijijijijppiiijijjjpxxxxxpxpxxnixxxxxxppppppiipiiiiiipiiii,,3,2,1..2.1..2.1称为行轮廓。即把第i行表示成在p维欧氏空间中的一个点..2.1.22.222.221.11.112.111/////////)(nnpnnnnppppppppppppppppppppRNpjppppppEnijiiijiij,,2,1,.)(1....行轮廓矩阵为:由此,我们可以将属性变量A的n个取值可以用P维空间的n个点来表示。n个点的坐标即为该行轮廓矩阵。但是,因为原始变量的数量等级可能不同,所以为了尽量减少各变量尺度差异,将行轮廓中的各列元素均除以其期望的平方根。得矩阵D(R)第j个变量的期望为:pnnpnnnnpppppppppppppppppppppppppppppppRD..2..21..1..222..2221..221..112..1121..111/////////)(pjppppppppppEjnijjijiijjiij,,2,1,1.)(.1.......矩阵D(R)是消除了变量B的各个状态概率影响的P维空间n个点的相对坐标。则这n个点的重心,也有p维坐标,设其第j个分量为:N个点的重心为:),(.2.1.pPPP总惯量由矩阵D(R)定义的n个点与其重心的欧氏距离之和称为行轮廓矩阵N(R)的总惯量。记为.II21nIIJI同时,可证明:称为列轮廓。pjxxxxxxppppppjnjjjjjjnjjjjj,,3,2,1..2.1..2.1pnpnnppppppppppppppppppppppQN.2.21.1.22.221.21.12.121.11/////////)(niijjijjijppppppE1.....)(同理:列轮廓矩阵为:因为原始变量的数量等级可能不同,所以为了尽量减少各变量尺度差异,将列轮廓中的各行元素均除以其期望的平方根。得矩阵D(Q)...2.2.1.1.2.2.22.22.21.21.1.1.12.12.11.11/////////)(npnpnnnnpppppppppppppppppppppppppppppppQDniijijijijijppppppppE1.......)(.1......apajjaajiiaaiijpppppppppapaajjaajaiiaaipppppppppp1........pajajaajiaiaaipppppppppp1........paajaizz1iaiaaiiaiaaiaixxxxxpppppz........利用行轮郭矩阵,可得第i个样品与第j个样品的协方差:令Z为zij所组成的矩阵,则ZAZanajjajaiiaiaijpppppppppb.1......naajjajaiaaiiapppppppppp1........najaiazz1najajajaiaiaiapppppppppp1........利用列轮廓矩阵,可得第i个变量与第j个变量的协方差:ZZB令Z为zij所组成的矩阵,则设是A=Z’Z的非零特征根,则kkkuZuZk)()(kkuZZuZZkkkZuZZB令Z为zij所组成的矩阵,则因此将矩阵变换成矩阵Z,则很容易求出A和B存在着的简单对应关系。由特征根和特征向量的性质,A和B有相同的非零特征根。在上式的两边都左乘Z,则可见也是ZZ’的特征根,相应的特征向量是三、对应图设12…l(0imin(n,p))为矩阵A和B的非零特征根,其相应的特征向量为12111puuu1u222122puuuu12111nvvv1v222122nvvvv我们知道因子载荷矩阵的含义是原始变量与公共因子之间的相关系数,所以如果我们构造一个平面直角坐标系,将第一公共因子的载荷与第二个公共因子的载荷看成平面上的点,在坐标系中绘制散点图,则构成对应图。例某地环境检测部门对该地所属8个地区的大气污染状况进行了系统的的检测,每天4次同时在各个地区抽取大气样品,则定其中的氯、硫化氢、二氧化硫、碳4、环氧氯丙烷、环已烷6种气体的浓度。有资料如下:0.0560.0840.0310.0380.00810.0220.0490.0550.10.110.0220.00730.0380.130.0790.170.0580.0430.0340.0950.0580.160.20.0290.0840.0660.0290.320.0120.0410.0640.0720.10.210.0281.380.0480.0890.0620.260.0380.0360.0690.0870.0270.050.0890.021特征根贡献率(%)累积贡献率(%)10.5066870.0070.0020.1221316.8786.8730.056587.8294.69F1和G1,F2和G2尺度相同,所以可以在同一个直角坐标系中作出两种因子的载荷图,这种图称为对应图。R型因子分析的载荷F1F20.13831-0.043850.203330.026500.11003-0.019850.21754-0.186870.217200.28831-0.582750.03279Q型因子分析的载荷F1F20.10599-0.023540.15369-0.061640.16284-0.009280.223880.223770.15853-0.19307-0.561530.019000.16656-0.106640.164290.13644-0
本文标题:多元统计分析――对应分析
链接地址:https://www.777doc.com/doc-3209415 .html