您好,欢迎访问三七文档
分类俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域。在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学家对动物如何分类的研究和某个动物属于哪一类、目、纲的判断。判别有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。判别分析是根据观测到的某些指标对所研究的对象进行分类的一种多元统计分析方法。在医学研究中经常遇到这类问题;例如,临床上常需根据就诊者的各项症状、体征、实验室检查、病理学检查及医学影像学资料等对其作出是否有某种疾病的诊断或对几种可能患有的疾病进行鉴别诊断,有时已初步诊断为某种疾病,还需进一步作出属该类疾病中哪一种或哪一型的判断。什么是判别分析聚类分析是根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。判别分析和聚类分析有什么不同呢?聚类分析聚类要注意的问题聚类结果主要受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。相比之下,聚类方法的选择则不那么重要了。因此,聚类之前一定要目标明确。另外就分成多少类来说,也要有道理。只要你高兴,从分层聚类的计算机结果可以得到任何可能数量的类。但是,聚类的目的是要使各类距离尽可能的远,而类中点的距离尽可能的近,而且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。判别分析概述距离判别法贝叶斯判别法费歇尔判别法逐步判别法11一、什么是判别分析?设有k个总体G1,G2,…,Gk,希望建立一个准则,对给定的任意一个样本x,依据这个准则就能判断它是来自哪个总体。应当要求这种准则在某种意义下是最优的,如:错判概率最小或错判损失最小等等。第一节概述判别分析的一般步骤判别分析方法建立判别准则判别函数已知分类的训练样本未知样品判别归类13判别分析利用已知类别的样本培训模型,为未知样本判类的一种统计方法。它产生于本世纪30年代。近年来,在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。14判别分析举例:根据发掘出来的人类头盖骨的高、宽等特征来判断其是男性还是女性。在税务稽查中,要判断某企业是否偷漏税。医生对病情的诊断。信用风险的判定。成功概率的判定。企业运行状态或财务状况的判定。15二、判别分析的种类1、按判别的组数分有两组判别分析和多组判别分析2、按区分不同总体所用的数学模型分有线性判别和非线性判别3、按判别准则的不同有距离判别、费歇尔(Fisher)判别和贝叶斯(Bayes)判别。判别分析的假设前提每一个判别变量不能是其他判别变量的线性组合各组变量的协方差阵相等各判别变量之间具有多元正态分布16第二节距离判别(一)马氏距离距离判别的最直观的想法是计算样品到第i类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。18设是从期望μ=和方差阵Σ=的总体G抽得的两个观测值,则和),,,(21mxxxx),,,(21myyyy),,,(21m0mmij)()(),(2yxyxyx1dkiGdiii,,2,1)()(),(2xxx1样本X和Gi类之间的马氏距离定义为X与Gi类重心间的距离:X与Y之间的Mahalanobis距离19马氏距离和欧式距离之间的差别2(,)(dG-1xx-μ)Σ(x-μ)2(,)(dGxx-μ)(x-μ)马氏距离欧氏距离20马氏距离有如下的特点:1-2y=Σx-μ11--22yy=Σx-μΣx-μ11--22=x-μΣΣx-μ1-=x-μΣx-μ2、马氏距离是标准化后的变量的欧式距离1、马氏距离不受计量单位的影响;213、若变量之间是相互无关的,则协方差矩阵为对角矩阵1122ppΣ11122111ppΣ221122211(,)(1ppdGxx-μ)(x-μ)22211221122ppppxxx此时的马氏距离为(二)两个总体距离判别法先考虑两个总体的情况,设有两个协差阵相同的p维正态总体,对给定的样本X,判别一个样本X到底是来自哪一个总体,一个最直观的想法是计算X到两个总体的距离。故我们用马氏距离来给定判别规则,有:22112222212212(,),,,(,)(,)xGdxGdxGxGdxGdxGdxGdxG,如,如待判,如1、方差相等242221112211(,)(,)()()()()dxGdxGxxxx1'2'xxx11222'122()x1)()(21211()2[]()2x11212221令),,,()(21paaa211''1111(2)xxx11考虑和的差,就有:1(,)DxG2(,)DxG25则前面的判别法则表示为12()0()0()0xGWxxGWxWx,如,,如。待判,如当和已知时,是一个已知的p维向量,W(x)是x的线性函数,称为线性判别函数。称为判别系数。用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也最广泛。21,)(211()()(Wxxx)111()()pppaxaxxααμ26例在企业的考核中,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有:资金利润率=利润总额/资金占用总额劳动生产率=总产值/职工平均人数产品净值率=净产值/总产值三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为(7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?27变量均值向量协方差矩阵优秀一般资金利润率13.55.468.3940.2421.41劳动生产率40.729.840.2454.5811.67产品净值率10.76.221.4111.677.90854988.0025659.028276.0025659.0033129.002753.028276.002753.0119337.015.49.101.82145.825.3545.92/)(2183679.125362.060581.0)(211判别函数的系数73596.1883679.125362.060581.045.825.3545.9)(221121)判别函数的常数项(73596.1883679.125362.060581.0321xxxy)第一个新企业属于一类(00892.473596.186.983679.11.3925362.08.760581.01y)第二个新企业属于二类(02956.273596.189.683679.12.3425362.01.860581.02y线性判别函数:302、当总体的协方差已知,且不相等22112222212212(,)(,)xGdGdGxGdGdGdxGdxG,如x,x,,,如x,x,待判,如222111222111(,)(,)()()()()dxGdxGxxxx31随着计算机计算能力的增强和计算机的普及,距离判别法的判别函数也在逐步改进,一种等价的距离判别为:设有个K总体,分别有均值向量μi(i=1,2,…,k)和协方差阵Σi=Σ,各总体出现的先验概率相等。又设Y是一个待判样品。则与总体i的距离为(即判别函数)(三)多总体的距离判别法21(,)()()iiidxGxx''12iiixxx11上式中的第一项x’Σ-1x与i无关,则舍去,得一个等价的函数'1()2iiiigxx132将上式中提-2,得'1()2(0.5)iiiigxx1'1()(0.5)iiiifxx1令则距离判别法的判别函数为:1()max()lilikfxfxG,则x'1()(0.5)iiiifxx1最大注:这与前面所提出的距离判别是等价的.21(,)()()iiidxGxx最小'1()(0.5)iiiifYx1令判别规则为33(四)对判别效果做出检验1、错判概率由上面的分析可以看出,马氏距离判别法是合理的,但是这并不意味着不会发生误判。两总体分别服从其判别函数为21(,)N22(,)N1221()()()Wxx12()/2123412222(/)()2PxGPx概率:212()2xP)2(121122()2Px显然,只有两个总体的均值有显著差异时,判别分析才有实际意义352、交叉核实交叉核实法的思想是:为了判断第i个观测的判别正确与否,用删除第i个观测的样本数据集计算出判别函数,然后用此判别函数来判别第i个观测。对每一个观测都这样进行。交叉核实检查比较严格,能说明所选择判别方法的有效性。交叉核实可以检验所用方法是否稳定。交叉核实可以解决样本容量不大的情形,改变样本,来检验方法是否稳定的问题。ii361G2GkG1G11m12mkm11n2G21m22m2nkG1km2kmkkmkn判类原类合计2km37加权错判率:设qi是第i类的先验概率,pi是第i类的错判概率,则加权错判率为11kkijiijjipmn简单错判率:1kiiiPqp距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数未知和协方差时,就用样本的均值和协方差矩阵来估计。距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。贝叶斯判别法正是为了解决这两个问题提出的判别分析方法
本文标题:第六讲判别分析
链接地址:https://www.777doc.com/doc-3292633 .html