您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 主成分分析和MATLAB应用
主成分分析类型:一种处理高维数据的方法。降维思想:在实际问题的研究中,往往会涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。一、总体主成分1.1定义设X1,X2,…,Xp为某实际问题所涉及的p个随机变量。记X=(X1,X2,…,Xp)T,其协方差矩阵为()[(())(())],TijppEXEXXEX它是一个p阶非负定矩阵。设1111112212221122221122TppTppTpppppppYlXlXlXlXYlXlXlXlXYlXlXlXlX(1)则有()(),1,2,...,,(,)(,),1,2,...,.TTiiiiTTTijijijVarYVarlXllipCovYYCovlXlXlljp(2)第i个主成分:一般地,在约束条件1Tiill及(,)0,1,2,...,1.TikikCovYYllki下,求li使Var(Yi)达到最大,由此li所确定的TiiYlX称为X1,X2,…,Xp的第i个主成分。1.2总体主成分的计算设是12(,,...,)TpXXXX的协方差矩阵,的特征值及相应的正交单位化特征向量分别为120p及12,,...,,peee则X的第i个主成分为1122,1,2,...,,TiiiiippYeXeXeXeXip(3)此时(),1,2,...,,(,)0,.TiiiiTikikVarYeeipCovYYeeik1.3总体主成分的性质1.3.1主成分的协方差矩阵及总方差记12(,,...,)TpYYYY为主成分向量,则Y=PTX,其中12(,,...,)pPeee,且12()()(,,...,),TTpCovYCovPXPPDiag由此得主成分的总方差为111()()()()(),pppTTiiiiiiVarYtrPPtrPPtrVarX即主成分分析是把p个原始变量X1,X2,…,Xp的总方差1()piiVarX分解成p个互不相关变量Y1,Y2,…,Yp的方差之和,即1()piiVarY而()kkVarY。第k个主成分的贡献率:1ipii;前m个主成分累计贡献率:11miipii,它表明前m个主成分Y1,Y2,…,Ym综合提供X1,X2,…,Xp中信息的能力。1.3.2主成分Yi与变量Xj的相关系数由于Y=PTX,故X=PY,从而1122,(,).jjjpjpijiijXeYeYeYCovYXe由此可得Yi与Xj的相关系数为,(,)()()ijijiijiYXijijijjjjCovYXeeVarYVarX(4)1.4标准化变量的主成分在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。为了消除由于量纲的不同可能带来的影响,常采用变量标准化的方法,即令*,1,2,...,,iiiiiXXip(5)其中(),().iiiiiEXVarX这时****12(,,...,)TpXXXX的协方差矩阵便是12(,,...,)TpXXXX的相关矩阵()ijpp,其中**(,)().ijijijiijjCovXXEXX(6)利用X的相关矩阵作主成分分析,有如下结论:设****12(,,...,)TpXXXX为标准化的随机向量,其协方差矩阵(即X的相关矩阵)为,则*X的第i个主成分为******1122121122(),1,2,...,.ppTiiiiipppXXXYeXeeeip(7)并且***111()(),pppiiiiiiVarYVarXp(8)其中***120p为的特征值,****12(,,...,)Tiiiipeeee为相应于特征值*i的正交单位特征向量。第i个主成分的贡献率:*ip;前m个主成分的累计贡献率:*1miip;*iY与*iX的相关系数为****,ijiijYXe。二、样本主成分前面讨论的是总体主成分,但在实际问题中,一般(或)是未知的,需要通过样本来估计。设12(,,...,),1,2,...,.Tiiiipxxxxin为取自12(,,...,)TpXXXX的一个容量为n的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为11()()(),1(),nTijppkkkijijppiijjSsxxxxnsRrss(9)其中12111(,,...,),,1,2,...,,1()(),,1,2,...,.1nTpjijinijkiikjjkxxxxxxjpnsxxxxijpn分别以S和R作为和的估计,然后按总体主成分分析的方法作样本主成分分析。三、例题某市为了全面分析机械类个企业的经济效益,选择了8个不同的利润指标,14企业关于这8个指标的统计数据如下表所示,试进行主成分分析。表114家企业的利润指标的统计数据变量企业序号净产值利润率(%)xi1固定资产利润率(%)xi2总产值利润率(%)xi2销售收入利润率(%)xi3产品成本利润率(%)xi5物耗利润率(%)xi6人均利润率xi7(千元/人)流动资金利润率(%)xi8140.424.77.26.18.38.72.44220.0225.012.711.211.012.920.23.5429.1313.23.33.94.34.45.50.5783.6422.36.75.63.76.07.40.1767.3534.311.87.17.18.08.91.72627.5635.612.516.416.722.829.33.01726.6722.07.89.910.212.617.60.84710.6848.413.410.99.910.913.91.77217.8940.619.119.819.029.739.62.44935.81024.88.09.88.911.916.20.78913.71112.59.74.24.24.66.50.8743.9121.80.60.70.70.81.10.0561.01332.313.99.48.39.813.32.12617.11438.59.111.39.512.216.41.32711.6解:样本均值向量为:(27.97910.9509.1008.54311.06414.6141.55214.686)Tx,样本协方差矩阵为:168.33360.35745.75741.21557.90671.6728.602101.62037.20716.82515.50523.53529.0294.78544.02324.84324.33536.47849.2783.62939.41024.42336.28349.1463.67538.71856.04675.4045.00259.723103.0186.82174.5231.1S376.722102.707168.3360.35745.75841.21657.90671.6728.602101.6260.35737.20716.82515.50523.53529.0294.784644.02345.75816.82524.84324.33536.47849.2783.62939.4141.21615.50524.33524.42336.28349.1463.674738.71857.90623.S53536.47836.28356.04675.4045.002259.72371.67229.02949.27849.14675.404103.026.821574.5238.6024.78463.6293.67475.00226.82151.1376.7217101.6244.02339.4138.71859.72374.5236.7217102.71由于S中主对角线元素差异较大,因此我们样本相关矩阵R出发进行主成分分析。样本相关矩阵R为:10.762660.707580.642810.596170.544260.621780.7728510.553410.514340.515380.468880.735620.7121410.987930.97760.974090.682820.78019R10.980710.97980.697350.7730610.992350.626630.7871810.63030.7244910.622021矩阵R的特征值及相应的特征向量分别为:特征值特征向量6.13660.321130.295160.389120.384720.379550.370870.319960.355461.0421-0.4151-0.597660.229740.278690.316320.37151-0.27814-0.156840.43595-0.451230.10303-0.0398950.053874-0.0372920.0751860.77059-0.424780.22037-0.668170.36336-0.22596-0.110810.148740.069353-0.134950.559490.15191-0.0382170.624350.12273-0.0369090.159280.21062-0.43006-0.581050.0088274-0.101670.13584-0.158110.86226-0.25204-0.34506-0.13934-0.0265570.00296240.1596-0.061134-0.539660.0466060.7609-0.278090.06203-0.131260.00122380.19295-0.031987-0.641760.11002-0.253970.68791-0.006045-0.0054031R的特征值及贡献率见下表特征值贡献率(%)累计贡献率(%)6.13660.767080.767081.04210.130270.897340.435950.0544940.951840.220370.0275470.979380.151910.0189880.998370.00882740.00110340.999480.00296240.00037030.999850.00122380.000152971前3个标准化样本主成分类及贡献率已达到95.184%,故只需取前三个主成分即可。前3个标准化样本主成分中各标准化变量*(1,2,...,8)iiiiixxxis前的系数即为对应特征向量,由此得到3个标准化样本主成分为********112345678********212345678*310.32113x+0.29516x+0.38912x+0.38472x+0.37955x+0.37087x+0.31996x+0.35546x-0.4151x-0.59766x+0.22974x+0.27869x+0.31632x+0.37151x-0.27814x-0.15684x-0.45123x+0.103yyy*******234567803x-0.039895
本文标题:主成分分析和MATLAB应用
链接地址:https://www.777doc.com/doc-6002796 .html