您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > Fisher线性分类
Fisher线性分类FisherLinearDiscriminant路志宏Lu_zhihong@163.com内容一、引言:模式识别系统二、判别分析之一:距离分析三、判别分析之二:Fisher分析法四、实例说明一、模式识别系统1.模式识别系统的基本构成数据获取特征提取和选择预处理分类决策分类器设计•数据采集•特征选取•模型选择•训练和测试•计算结果和复杂度分析,反馈实例1:模式识别在传送带上用光学传感器件对鱼按品种分类:鲈鱼(Seabass)品种鲑鱼(Salmon)识别过程•数据获取:架设一个摄像机,采集一些样本图像,获取样本数据•预处理:去噪声,用一个分割操作把鱼和鱼之间以及鱼和背景之间分开识别过程•特征提取和选择:对单个鱼的信息进行特征选择,从而通过测量某些特征来减少信息量–长度–亮度–宽度–鱼翅的数量和形状–嘴的位置,等等…•分类决策:把特征送入决策分类器实例2:模式识别•19名男女同学进行体检,测量了身高和体重,但事后发现其中有4人忘记填写性别,试问(在最小错误的条件下)这4人是男是女?体检数值如下:•由训练样本得到的特征空间分布图分析1.待识别的模式:性别(男或女)2.测量的特征:身高和体重3.训练样本:15名已知性别的样本特征4.目标:希望借助于训练样本的特征建立判别函数(即数学模型)•从图中训练样本的分布情况,找出男、女两类特征各自的聚类特点,从而求取一个判别函数(直线或曲线)。•只要给出待分类的模式特征的数值,看它在特征平面上落在判别函数的哪一侧,就可以判别是男还是女了。统计方法(判别分析)判别分析—在已知研究对象分成若干类型,并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。距离判别法—首先根据已知分类的数据,分别计算各类的重心,计算新个体到每类的距离,确定最短的距离(欧氏距离、马氏距离)Fisher判别法—利用已知类别个体的指标构造判别式(同类差别较小、不同类差别较大),按照判别式的值判断新个体的类别.二、距离判别法•基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。•距离判别法,对各类(或总体)的分布,并无特定的要求。两个总体的距离判别法设有两个总体(或称两类)G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品测量p个指标如表。今任取一个样品,实测指标值,问X应判归为哪一类?),,(1pxxX首先计算X到G1、G2总体的距离,分别记为),(),(,),(),(,),(),(,21212211GXDGXDGXDGXDGXGXDGXDGX当待判当当按距离最近准则判别归类,则可写成:和),(1GXD),(2GXD如果距离定义采用欧氏距离,则可计算出paaaxxXXXXGXD12)1()1()1(1)()(),(paaaxxXXXXGXD12)2()2()2(2)()(),(然后比较和大小,按距离最近准则判别归类。),(1GXD),(2GXD如果距离定义采用马氏距离即:2()()1()(,)()()(),1,2iiiiDXGXXi三、Fisher线性判别•线性判别函数y=g(x)=wTx:–样本向量x各分量的线性加权–样本向量x与权向量w的向量点积–如果||w||=1,则视作向量x在向量w上的投影中心中心找到一个最合适的投影轴,使两类样本在该轴上投影之间的距离尽可能远,而每一类样本的投影尽可能紧凑,从而使两类分类效果为最佳。Fisher准则的基本原理Fisher线性判别图例Fisher判别x1x2w1H:g=0w2Fisher准则的描述:用投影后数据的统计性质—均值和离散度的函数作为判别优劣的标准。D维空间样本分布的描述量Fisher判别1.各类样本均值向量mi11,2iixKiiNmx•2.类内离散度矩阵Si与总类内离散度矩阵Sw()(),1,2iTiiiixSxmxm12wSSS•3.样本类间离散度矩阵Sb:1212()()TbSmmmm离散矩阵在形式上与协方差矩阵很相似,但协方差矩阵是一种期望值,而离散矩阵只是表示有限个样本在空间分布的离散程度一维Y空间样本分布的描述量Fisher判别1.各类样本均值1,1,2iiyimyiN•2.样本类内离散度和总类内离散度2(),1,2iiiySymi12wSSS3.样本类间离散度212()bSmm以上定义描述d维空间样本点到一向量投影的分散情况,因此也就是对某向量w的投影在w上的分布。样本离散度的定义与随机变量方差相类似样本与其投影统计量间的关系Fisher判别样本x与其投影y的统计量之间的关系:11,1,2iiTTiiKiimyiNNyywxwm2212121212()()()()TTbTTTbSmmSwmwmwmmmm()()()()iiiiiyTTixKTTiixKTiSymSwxwmwxmxm()TTwSSSSS的原则,使原样本向量在该方向上的投影能兼顾类间分布尽可能分开,类内样本投影尽可能密集的要求.•Fisher准则函数的定义:12()TbbFTwSSJwSSS最佳投影方向的求解:*argmax()FJ判别•采用拉格朗日乘子算法解决*112()wSwmmm1-m2是一向量,对与(m1-m2)平行的向量投影可使两均值点的距离最远。但是如从使类间分得较开,同时又使类内密集程度较高这样一个综合指标来看,则需根据两类样本的分布离散程度对投影方向作相应的调整,这就体现在对m1-m2向量按Sw-1作一线性变换,从而使Fisher准则函数达到极值点.判别函数的确定•讨论了使Fisher准则函数极大的d维向量w*的计算方法,判别函数中的另一项w0(阈值)可采用以下几种方法确定:1202mmw1122012NmNmwmNN1212012ln()/()22PPmmwNN010200TTywywwxxwxx•分类规则:Fisher判别Fisher公式的推导Fisher判别12()TbbFTwSSJwSSSww令Lagrange:(,)()TTbwLSSc定义函数(,):0bwLSSww111212112()()()TwbwwSSSSRwwmmmmwmm*111212()()wwRSSwmmmm四、实例分析例1人文发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指示指标分别要用出生时的预期寿命、成人识字率和实际人均GDP,将以上三个指示指标的数值合成为一个复合指数,即为人文发展指数。今从1995年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样品,另选四个国家作为待判样品作距离判别分析。两组线性判别的计算过程如下:1.计算样本均值2.计算样本协差阵3.建立判别函数4.计算判别临界值5.对已知类别的样品判别归类6.待判样品判别结果RonaldAylmerFisher(1890~1962)英国统计学家和遗传学家。1890年2月17日生于伦敦,1962年7月29日卒于澳大利亚阿德莱德。1912年毕业于剑桥大学数学系,后随英国数理统计学家J.琼斯进修了一年统计力学。他担任过中学数学教师,1918年任罗坦斯泰德农业试验站统计试验室主任。1933年,因为在生物统计和遗传学研究方面成绩卓著而被聘为伦敦大学优生学教授。1943年任剑桥大学遗传学教授。1957年退休。1959年去澳大利亚,在联邦科学和工业研究组织的数学统计部作研究工作。主要贡献有:①用亲属间的相关说明了连续变异的性状可以用孟德尔定律来解释,从而解决了遗传学中孟德尔学派和生物统计学派的论争。②论证了方差分析的原理和方法,并应用于试验设计,阐明了最大似然性方法及随机化、重复性和统计控制的理论,指出自由度作为检查K.皮尔逊制定的统计表格的重要性。此外,还阐明了各种相关系数的抽样分布,进行过显著性测验研究。③他提出的一些数学原理和方法对人类遗传学、进化论和数量遗传学的基本概念以及农业、医学方面的试验均有很大影响。例如遗传力的概念就是在他提出的可将性状分解为加性效应、非加性(显性)效应和环境效应的理论基础上建立起来的。④主要著作有:《根据孟德尔遗传方式的亲属间的相关》、《研究者用的统计方法》、《自然选择的遗传理论》、《试验设计》、《近交的理论》及《统计方法和科学推理》等。他在进化遗传学上是一个极端的选择论者,认为中立性状很难存在。他一生在统计生物学中的功绩是十分突出的。参考文献1.Fisher,R.A.TheUseofMultipleMeasurementsinTaxonomicProblems.AnnalsofEugenics,7:179-188(1936)2.R.O.Duda,P.E.Hart,D.H.Stork,PatternClassification(2nded.),WileyInterscience,(2000).3.Friedman,J.H.RegularizedDiscriminantAnalysis.JournaloftheAmericanStatisticalAssociation,(1989)4.Martinez,A.M.,Kak,A.C.PCAversusLDA.IEEETransactionsonPatternAnalysisandMachineIntelligence,Vol.23,No.2,pp.228-233,2001.5.Mika,S.etal.FisherDiscriminantAnalysiswithKernels.IEEEConferenceonNeuralNetworksforSignalProcessingIX,(1999)6.V.N.Vapnik.Thenatureofstatisticallearningtheory.SpringerVerlag,NewYork,1995.
本文标题:Fisher线性分类
链接地址:https://www.777doc.com/doc-2871953 .html