您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业文化 > 环境统计学第七章环境主成分分析
环境统计学授课教师:林红军授课时间:2010学年第二学期(EnvironmentalStatistics)环境科学系办公地点:校8幢123室,17幢616室E-mail:hjlin@zjnu.cn,linhonjun@163.comCell:15958459856,679856环境统计学第1章绪论第2章概率统计基础第3章环境一元线性回归分析第4章环境多元线性回归分析第5章环境系统聚类分析第6章环境判别分析第7章环境主成分分析第8章人工神经网络基本概念基本原理常用的统计学术语随机事件概率数学特征概率分布统计推断回归模型最小二乘法显著性检验回归模型最小二乘法SPSS求解显著性检验环境应用聚类要素的数据处理距离的计算聚类分析常用方法SPSS求解环境应用距离判别法Fisher判别法Bayes判别法主成分分析概述主成分分析计算原理主成分分析性质SPSS求解和环境应用常用统计学术语总体,个体,样本准确性精确性统计学术语统计标志统计指标统计指标体系参数统计量变量随机事件随机试验随机事件事件的运算概率概率古典概率概率计算数学特征数学期望方差变异系数协方差相关系数概率数学特征随机事件概率分布正态分布t分布x2分布F分布概率分布统计推断参数估值点估计区间估计置信区间假设检验统计推断概率统计基础最小二乘法估计显著性检验回归模型SPSS求解环境应用线性回归系统聚类分析三步走Step1Step2Step3•数据标准化•计算距离•选用分析方法判别分析距离判别分析Fisher判别分析Bayes判别分析AGroupCGroupBGroup贝叶斯(Bayes)判别法一Bayes判别的基本思想二Bayes判别的基本方法)()|()()|()|(iiiiiBPBAPBPBAPABP10定理.设A1,…,An是Ω的一个划分,且P(Ai)0,(i=1,…,n),则对任何事件BΩ,有式(1)就称为贝叶斯公式。1()(|)(|),(1,...,)(1.8)()(|)jjjniiiPAPBAPABjnPAPBA===å办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。)/()()/(//(坏人做好事坏人好人做好事好人好人做好事好人做好事)好人PPPPPPP82.02.05.09.05.09.05.0)()|()()|()|(iiiiiBPBAPBPBAPABP)/()()/(//(坏人做好事坏人好人做好事好人坏人做好事坏人做好事)坏人PPPPPPP18.02.05.09.05.02.05.0从上节看距离判别法虽然简单,便于使用。但是该方法也有它明显的不足之处。第一,判别方法与总体各自出现的概率的大小无关;第二,判别方法与错判之后所造成的损失无关。Bayes判别法就是为了解决这些问题而提出的一种判别方法。距离判别简单直观,很实用,但是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验概率)出现,也没有考虑误判之后所造成的损失的差异。一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,Bayes判别就具有这些优点,其判别效果更加理想,应用也更广泛。贝叶斯公式是一个我们熟知的公式)()|()()|()|(iiiiiBPBAPBPBAPABP设有总体,具有概率密度函数。并且根据以往的统计分析,知道出现的概率为。即当样本发生时,求他属于某类的概率。由贝叶斯公式计算后验概率,有:iG)(xfiiGiq0x),,2,1(kiGi)()()|(000xfqxfqxGPjjiii判别规则)()()|(000xfqxfqxGPjjlll)()(001maxxfqxfqjjiiki则判给。在正态的假定下,为正态分布的密度函数。0xlG)(xfi),(max)(100kiiillxfqxfq则判给。0xlG)]()(21exp[)2(1)()(1)(21iiiiixxxf若)]()(21exp[)2(1)(,)(1)(21iiiiiiixxqxfq则上式两边取对数并去掉与i无关的项,则等价的判别函数为:特别,总体服从正态分布的情形))(ln()(xiiifqxz||ln21lniiq)]()(21)(1)(iiixx问题转化为若,则判。)]([max)(1xZxZikillGx当协方差阵相等k1则判别函数退化为iiqxzln)()](21(i)1(i)μ(xΣ)μxiqln2[21)]((i)1(i)μ(xΣ)μx令)](i)1(i)μ(xΣ)μ(xiiqxFln2)(问题转化为若,则判。)]([min)(1xPxPikillGx(i)1)(i1)(iμΣμxΣμ2ln2)(iiqxPxΣμμΣμx1)(i(i)1)(i21ln)(iiqm完全成为距离判别法。kqqk11)(xmi(i)1(i)μΣμ21xΣμ1(i)令有)21(ln2)(xΣμμΣμx1(i)(i)1(i)iiqP问题转化为若,则判。)]([max)(1xmxmikillGx当先验概率相等,Bayes判别分析的步骤估计总体的均值和协方差矩阵求m个判别函数代入样本值,求相应值,再判别Bayes判别xΣμμΣμ11''21lniiiiiqy例1根据植物的症状与受害程度来确定污染类型。假设根据叶色指数x1与植物生长指数x2来区分植物遭受F、SO2、HCl等大气污染物的影响。有关样本见下表,根据已知的样本建立判别函数,并判定另外3个待判样本属于哪类?表1三种大气污染下的植物反应组别序号叶色指数x1植物生长指数x2第1组遭受F污染14.315.725.617.834.716.944.816.355.317.264.116.074.015.884.616.2第2组遭受SO2污染19.619.629.319.938.718.648.818.958.519.6第3组遭受HCl污染110.230.3211.328.739.825.647.227.658.529.069.630.0待判样本19.219.028.619.6311.230.3)488.16675.4(1ˆ11111niixn)533.28433.9(1ˆ31333niixn)320.19980.8(1ˆ21222niixn252.1356.0356.0820.0ˆxΣμμΣμ11''21lniiiiiqy21321221127.2284.139.32631ln)(05.1485.455.15731ln)(17.13015.057.10831ln)(xxxyxxxyxxxy911.0395.0395.0391.1ˆ1代入待判样本的值如样本1(9.219.0)566.112)(021.153)(793.140)(321xyxyxy样本1属于G2解:23环境统计学第1章绪论第2章概率统计基础第3章环境一元线性回归分析第4章环境多元线性回归分析第5章环境系统聚类分析第6章环境模糊聚类分析第7章环境判别分析第8章环境主成分分析第9章环境因子分析第10章人工神经网络第11章环境空间统计分析环境主成分分析环境主成分分析第7章环境主成分分析主成分分析的一般目的:定义主成分分析:是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法变量的降维主成分的解释1概述17个变量国民经济指标3个变量雇主补贴纯公共支出股息生产指数利息净增库存消费资料外贸盈余人口总收入F1总收入变化率F2经济发展趋势F3国民经济指标•例子一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。书上还有这样的例子1概述年度指标外贸盈余人口股息利息消费资料…….….1980120100358646343571981155133441524134479198217612014159143634319831231531618319571661984186134281772856582198521115635124337745719861971652915547863951987166135271322935284198815517723187438573719891271355919529895981990123153161834657166年度指标F1F2F3198012010035198115513344198217612014198312315316198418613428198521115635198619716529198716613527198815517723198912713559199012315316为什么可以进行“降维”操作?1概述样本x1x2CODBODSS浊度pH色度氨氮主成分分析也称主分量分析,是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,……,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。1概述我们知道,当一个变量只取一个数据时,这个变量(数据)提供的信息量是非常有限的当这个变量取一系列不同数据时,我们可以从中读出最大值、最小值、平均数等信息。变量的变异性越大,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指标的变异性,用标准差或方差表示它。1概述知识面设p个变量构成的p维随机向量为X=(X1,…,Xp)′。对X作正交变换,令Y=T′X,其中T为正交阵,要求Y的各分量是不相关的,并且Y的第一个分量的方差是最大的,第二个分量的方差次之,……,等等。为了保持信息不丢失,Y的各分量方差和与X的各分量方差和相等。1概述主成分分析的数学模型主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转。因此,主成分分析在二维空间中有明显的几何意义。假设共有n个样品,每个样品都测量了两个指标(X1,X2),它们大致分布在一个椭圆内如图1所示。事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向。显然,在坐标系x1Ox2中,单独看这n个点的分量X1和X2,它们沿着x1方向和x2方向都具有较大的离散性,其离散的程度可以分别用的X1方差和X2的方差测定。如果仅考虑X1或X2中的任何一个分量,那么包含在另一分量中的信息将会损失,因此,直接舍弃某个分量不是“降维”的有效办法。2计算原理...•2x1x••••••••••••••••••••••••••••••••••••2y1y2x1x......................................................2计算原理•2x1x1y2y•••••••••••••••••••••••••••••••••••••2计算原理如果我们将该坐标系按逆时针方向旋转某个角度变成新坐标系12yOy,这里1y是椭圆的长轴方向,2y是椭圆的短轴方向。旋转公式为112212cossinsincosYXXYXX
本文标题:环境统计学第七章环境主成分分析
链接地址:https://www.777doc.com/doc-6571494 .html