您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 多元统计分析数学推导
1实验课程讲义精选多元统计分析讲义杜勇宏文件编号:10055_26_e_52多元统计分析§1基本概念与基础知识首先介绍几个非常有用的统计学概念,这些概念在地理数量分析中广泛应用,它们是许多计量方法的基础。然后说明几个常见的数据标准化方法,昀后比较一下相关系数和相似系数,并证明其几何意义。有些概念在上一章已经讲过,现在不妨从另一个角度进行理解。1基本概念⑴均值(mean,average)均值作为一组数据的代表,反映的是这组数据的平均水平。算术平均数的计算公式为∑==niixnx11性质10)(1=−∑=niixx性质221212)()()(cxnxxcxniinii−+−=−∑∑==注意到0)(2≥−cxn,必然有∑∑==−≥−niiniixxcx1212)()(,这意味着:如果用一个数去代表一组数据的平均水平,只有∑==niixnx11的代表性昀好。性质3如果axyii−=,a为常数,则有axy−=∑∑==−=−niiniixxyy1212)()(性质4如果iibxy=,b为常数,则有xby=∑∑==−=−niiniixxbyy12212)()(性质5若abxyii−=,则有axby−=∑∑==−=−niiniixxbyy12212)()(Excel命令:average。⑵方差(variance,var)3方差用以衡量数据的集中或分散程度。公式为∑=−=niixxnS122)(1可以证明∑=−=niixxnS1222)(1我们称∑=−=niixxnS12)(1为标准差(standarddeviation,stdev),它是观测值与均值之间的平均距离。总体方差与抽样方差,前面讲的为总体方差,至于抽样方差(或称样本方差),计算公式为∑=−−=niixxnS122)(11相应地,抽样标准差为∑=−−=niixxnS12)(11总自由度的总变差Sxxx=对于y,当然有∑=−−=niiyynS12)(11总自由度或的总变差SStSyyy=Excel命令:总体方差varp,样本方差var,总体标准差stdevp,样本标准差stdev。这里文字及逻辑值均忽略不计。⑶协方差(covariance,cov或covar)用以衡量的协变趋势即共同离散程度,计算公式为)()(1cov1yyxxninii−−=∑=Excel命令:covar。⑷变异系数用以衡量数据的波动性。计算公式为xSv=Excel命令:stdev/abs(average(x))。⑸标准误差(standarderror,ste)用以衡量实测数据对预测数据的偏离程度,或者说实测数据相对于回归线的离散程度。计算公式∑=−−−=niiieyyknS12)ˆ(11剩余自由度的剩余变差=SSey检验系数4ySe=δExcel命令:标准误差steyx,检验系数steyx/abs(average(y))。⑹极差用以反映数据之间的昀大差距,计算公式为)min()max(iixxR−=Excel命令:max(x)-min(x)。⑺自由度(degreeoffreedom,df)为了得出所有观测值所需要的昀小观测值的数目。回归自由度:变量数目,即k剩余自由度:样本数目减去变量数目再减1,即n-k-1总自由度:样本数目减1,即n-1关系:总自由度=回归自由度+剩余自由度2数据标准化假定有n个样本,m个变量,则可以建立一个原始数据矩阵(matrix)X如下],,,[21212222111211mmnnmnnmmxxxxxxxxxxxxXLLLLLLLL=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=×矩阵的特例称为向量(vector),只有一行的矩阵(记为p=1)称为行向量(rowvector),只有一列的矩阵(记为q=1)称为列向量(columnvector)。对矩阵X的按列进行标准化,公式为,*jjijijxxxσ−=mjni,,2,1;,,2,1LL==式中∑==niijjxnx11或∑=−=niijjxnx111为第j个变量的平均值,而∑=−=nijijjxxn12)(1σ或∑=−−=nijijjxxn12)(11σ为相应变量的标准差。Excel命令及语法:standardize(x,x,σ)。注意:必须同时按下“Ctrl+Shift+Enter”键。标准化数据的性质:性质1:均值为0,即有011**==∑=niixnx;性质2:方差为1,即有1)(1)(Var12***∑==−=niixxnx;5性质3:数据标准化以后变量的相关系数等于原始数据的相关系数,即有)cos(),(),(****OyxyxRyxR∠==;性质4:相关系数等于协方差,即有),cov(),(****yxyxR=。标准化的优点:⑴消除量纲差异的影响;⑵相关系数等于协方差及(变量在样本空间中的)夹角余弦,便于几何分析和进一步的因子分析。此外,数据标准化还有极差标准化和极差正规化。极差标准化公式为)min()max()(**jjjijijjijijxxxxxRxxx−−=−=显然,与前述标准化的不同之处在于用极差代替了标准差。极差正规化的公式为)min()max()min()()min(**jjjijijjijijxxxxxRxxx−−=−=显然极差正规化的结果是昀大值为1,昀小值为0,即有10*≤≤ijx。3相关系数与相似系数假定有n个样本,m个变量,则可以建立一个原始数据矩阵X如下],,,[21212222111211mmnnmnnmmxxxxxxxxxxxxXLLLLLLLL=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=×相关系数(correlationcoefficient,correl)是对于变量而言,第j和第k个变量的相关系数,计算公式为∑∑∑===−−−−=ninikikjijnikikjijjkxxxxxxxxR11221)()())((或者)var()var(),cov(kjkjjkxxxxR=相似系数(similarcoefficient)是针对样本而言,第i和第r个样本的相似系数,计算公式为∑∑∑===−−−−=mjmjrrjiijmjrrjiijirxxxxxxxxS11221)()())((6或者)var()var(),cov(ririirxxxxS=相关系数的几何意义:在中学时学到⒈余弦定理:bcacbA2cos222−+=⒉两点间的距离公式:222211)()(yxyxd−+−=图3-1三角形与夹角余弦对于标准化数据,原点为O(yx,),计算X与Y的夹角,应有∑=−=++−+−=niiiyxyxyxa122nn2222112)()y-(x)()(L∑∑∑∑====−+=−+=niiiniiniiniiiiiyxyxyxyx112121222)2(∑=−=−++−+−=niinxxxxxb12222212)()0()0()0(L∑==niix12,∑=−=−++−+−=niinyyyyyc12222212)()0()0()0(L∑==niiy12显然RyxynxnyxnyxyxAniniiiniiiniiniiniii====∑∑∑∑∑∑======),cov(111cos11221121217Q1Q2O(0,0,…,0)X(x1,x2,…,xn)Y(y1,y2,…,yn)Aabc图3-2夹角余弦示意图类似地,可以将相似系数表示为夹角余弦。相关系数是在样本空间中变量之间的夹角余弦,相似系数则是变量空间中样本之间的夹角余弦。【例】北京、天津及上海的非农业人口和建成区面积。表3-1北京、天津及上海的非农业人口和建成区面积。建成区面积非农业人口平均方差协方差相似系数北京488699.7593.8511204.2235762.4741天津378486.88432.442963.71419751.0811上海550923.19736.59534817.69410158.2321平均472703.257方差5058.66731734.061协方差12479.1相关系数0.9849010020030040050060070080090010000100200300400500600建成区面积非农业人口天津北京上海8图3-3在变量空间中描绘样本城市人口上海8005006007004808007004609001000440北京天津600420城区面积400500380图3-4在样本空间中刻画变量§2主成分分析1概述主成分(Principalcomponents)昀早可以追溯到KarlParson于1901年开创的非随机变量的多元转换分析;1933年H.A.Hotelling将其推广到随机变量。工作对象:样本点×定量变量类型的数据表。工作目标:将多变量的平面数据进行昀佳综合、简化,以期:①降维处理:高维变量化为低维变量,且信息损失昀少。②统计简化:简化变量系统的统计数字特征。对于任意m个变量,描述它们自身相互关系的特征数值包括均值、方差、协方差等,公有)1(21++mmm个参数;经主成分分析以后,新变量的均值为0,协方差亦化为0,变量系统的参数减少了)1(21−+mmm,只剩下m个参数了。例如,我们的原来有两个变量:长度1x和宽度2x,则有两个均值、两个方差、一个协方差,共计5个参数,主成分分析以后,均值和协方差为0,只剩下两个方差了。在特定情况下,可以将m维化为2维,从而在平面上描述样本点的相互关系和样本群点的结构和分布特征,从而上高维数据的可见性(visibility)成为可能:抽象的不可见的高维空间→直观的可见的低维平面图式,极大增强研究或决策人员的洞察能力,提高工作效率。数据群点的重心位置(平均水平);9数据变异的昀大方向;群点的散步范围。地理空间⇒数学空间→可视化数学空间⇒地理空间经典实例:1961年,英国统计学家M.Scott对157个英国城镇的发展水平进行调查,原始的测量变量共有57个。通过主成分分析发现,只要5个新的综合变量就可以95%的精度表示原数据的变异情况,而对问题的研究有57维降为5维!2主成分的推导与性质将原始变量线性表出,定义为XaZT≡式中[]TmaaaaL21=,[]TmxxxXL21=,[]TmzzzZL21=所谓求主成分,就是寻找X适当的线性函数XaT,使得相应的方差尽可能地大,满足方差极大的条件方程可能就是我们探询的目标。Z的方差可以表作]))(E))((E(E[)(VarTTTTTTXaXaXaXaXa−−=}))](E())[(E(E{TTTXXaXXa−−=aXXXXaTT]))(E))((E(E[−−=aaTΩ=式中Ω]))(E))((E(E[TXXXX−−=为X的协方差。但是,如果不加限制,方差就可能趋于无穷大,即有∞→)(VarZ,因此我们限定112=∑=miia。于是上述问题可以化为求极值条件问题。目标函数:aaXaTTΩ=)(VarMax约束条件:1s.t.T=aa作Lagrange函数)1()(aaaaaLTTT−+Ω=λ对Ta求偏导可得aaaaLTTλ22)(−Ω=∂∂根据极值条件,应有0/=∂∂TaL,从而aaλ=Ω可见:方差极大的条件是a为Ω的特征向量,λ为对应的特征根。将极值条件代入目标函数,考虑到约束条件,显然可得λλλ===Ω=aaaaaaXaTTTT)(Var又可见:主成分(得分)的方差就是特征向量的特征根。复习线性代数中的两个定理:【定理1】如果A是mm×阶实对称矩阵,则一定可以找到正交矩阵P,使得10⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=−mAPPλλLMOML0011其中mλλ,,1L为A的特征根。【定理2】如果上述矩阵A的特征根所对应的单位特征向量为mee,,1L,定义[]⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=≡mmmmmeeeeeeELMLMLL11111则实对称矩阵A属于不同特征根所对应的特征向量是正交的,即有0=kTjee⇒IEEEETT==。协方差矩阵Ω必然是实对称矩阵,令)(diag0011λλλ=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=Ω−mPPLMOML则有TPP)(diagλ=ΩTjjmjjee∑==1λ考虑到]))(E))((E(E[TXXXX−−=Ω,主成分的协方差为]))(E))((E[(E)
本文标题:多元统计分析数学推导
链接地址:https://www.777doc.com/doc-4863331 .html