您好,欢迎访问三七文档
休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院第五章把对象归类—判别分析(DiscriminantAnalysis)休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院第5章判别分析要点5.1判别分析的基本思想5.2距离判别5.3贝叶斯判别推荐阅读5.4费雪尔判别5.5建立判别函数的方法5.6SPSS判别分析过程休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院返回第5章判别分析学习目的和要求:通过本章的学习,使学生了解判别分析概念及其适用范围,掌握四种判别分析的方法及其应用。应用SPSS进行计算处理。休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院5.1.1引例5.1.2判别分析的基本思想5.1.3判别分析的类型5.1判别分析的基本思想返回5.1.4与聚类的区别和联系休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院1、引例12、引例2返回5.1.1引例5.1.2判别分析的基本思想5.1.3判别分析的类型5.1判别分析的基本思想5.1.4与聚类的区别和联系休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院1、引例15.1.1引例某医院已有1000个分别患有胃炎、肝炎、冠心病、糖尿病等的病人的资料,记录了他们每个人若干项症状指标数据,就可以从这些指标数据发现各类病人的区别。把这种区别表示为一个判别公式,在测得一个新病人若干项症状指标的数据时,就可以根据其指标数据用判别公式诊断,判定他患的是哪种病。休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院2、引例25.1.1引例有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院2、引例25.1.1引例这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院5.1.1引例在生产、科研和日常生活中经常遇到需要判别的问题:在经济学中,根据人均国民收入、人均消费水平、人均住房面积等多种指标来判定一个国家的经济发展程度所属类型。在考古学中,根据发掘出来的人类头盖骨的高、宽等特征来判断其性别是男性还是女性。在税务稽查中,要判断某纳税户是诚实户还是偷税户。……休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院这些问题有一个共同的特点,就是事先已有“类”的划分,或事先已对某种已知样本分好了“类”。判别分析要解决的问题就是在已知历史上用某些方法已把研究对象分成若干类的情况下,来判定新的观测样品属于已知类别中的哪一类。5.1.1引例休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院1、判别分析基本思想2、判别分析基本思路返回5.1.1引例5.1.2判别分析的基本思想5.1.3判别分析的类型5.1判别分析的基本思想5.1.4与聚类的区别和联系3、数据格式休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院1、判别分析基本思想5.1.2判别分析的基本思想判别分析就是在已知研究对象分为若干类型(组别)并已经取得各种类型的一批已知样品的观测数据基础上,根据某些准则,建立起尽可能把属于不同类型的数据区分开来的判别函数,然后用它们来判别未知类型的样品应该属于哪一类。休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院用统计的语言来表达,判别问题可以表述为:对于K个(类)总体G1,G2,……,GK(所有类的样品都测量了相同的p个指标,可表示为一个p维向量),其分布函数分别为F1(X),F2(X),……FK(X)(均为p元分布函数),希望建立一个准则,对于一个给定样品X,依据这个准则就能判断出这个样品来自哪个总体。1、判别分析基本思想5.1.2判别分析的基本思想判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。当然,我们应该要求判别准则在某种意义下是最优,例如错判的概率最小或错判的损失最小等。休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院设有G1、G2、…GK个总体;从不同的总体中抽出不同的样本;根据样本建立判别法则判别新的样品属于哪一个总体;当然,根据不同的方法,建立的判别法则也是不同的,常用的判别方法有:距离判别、Fisher判别、Bayes判别。2、判别分析基本思路5.1.2判别分析的基本思想休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院3、判别分析的数据格式5.1.2判别分析的基本思想休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院1、按判别的组数2、按判别函数的形式返回5.1.1引例5.1.2判别分析的基本思想5.1.3判别分析的类型5.1判别分析的基本思想5.1.4与聚类的区别和联系3、按处理变量的方法4、按判别准则休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院5.1.3判别分析的类型根据资料的性质,分为定性资料的判别分析和定量资料的判别分析。本章的大部分内容是讨论定量资料的判别分析。休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院1、按判别的组数分5.1.3判别分析的类型按判别的组数分,有两组判别分析和多组判别分析。本章的大部分内容是讨论两组判别分析。休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院2、按判别函数的形式分5.1.3判别分析的类型按判别函数的形式(区分不同总体所用的数学模型)分,有线性判别和非线性判别。本章的大部分内容是讨论线性判别函数及其应用。休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院3、按判别时处理变量的方法不同5.1.3判别分析的类型根据判别时处理变量的方法不同,有逐步判别和序贯判别。本章的大部分内容是讨论序贯判别。休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院4、按判别准则不同5.1.3判别分析的类型按判别准则(判别的依据或标准)的不同有距离判别、费歇尔(Fisher)判别和贝叶斯(Bayes)判别。距离判别原理简单,直观易懂。休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院1、与聚类分析的区别2、与聚类分析的联系返回5.1.1引例5.1.2判别分析的基本思想5.1.3判别分析的类型5.1判别分析的基本思想5.1.4与聚类的区别和联系休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院1、与聚类分析的区别判别分析必须事先知道需要判别的类型和数目,并且要有一批来自已知类型的样品(训练样本),才能建立判别式(判别函数),然后对新样品进行判别归类(带有“预测”的意义)。对类的事先划分常常通过聚类分析得到;5.1.4判别分析与聚类分析的区别和联系休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院1、与聚类分析的区别对于聚类分析来说,一批给定样品划分的类型和数目事先都不知道,完全根据一批样品的数据特征用某种方法对样品进行合理的分类,使的同一类的事物比较接近,把不相似的事物分在不同类中(只是描述性的统计)。5.1.4判别分析与聚类分析的区别和联系休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院5.1.4判别分析与聚类分析的区别和联系2、与聚类分析的联系聚类分析和判别分析有相似之处,即两者都是研究分类问题;在实际中两者往往结合起来使用,样品聚类是进行判别分析之前的必要工作,根据样品聚类的结果进行判别分析。休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院聚类与判别聚类(clustering)分成几类?每个样品属于哪一类?判别(discriminate)已知分成几类(有师分类)根据训练样品建立判别函数根据判别函数对待判样品进行归类休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院5.2距离判别返回5.2.1距离判别的基本思想5.2.2两总体判别5.2.3多总体判别休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院1、距离判别基本思想返回5.2.1距离判别的基本思想5.2.2两总体距离判别5.2.3多总体距离判别5.2距离判别休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院1、距离判别基本思想5.2.1距离判别的基本思想距离判别的基本思想——按就近原则归类:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院用统计语言表述:已知总体G1,G2,……,GK,从每个总体中分别抽取n1,n2,……,nk个样品,每个样品皆测量P个指标,对新样品X=(X1,X2,……,XP),计算X到G1,G2,……,GK的距离,记D(X,G1),D(X,G2)……,D(X,GK),按距离最近准则判别归类:0)(,,0)(wwGijijiij若有某一个待判对一切当即根据资料建立关于各总体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各总体之间的距离值,判样品属于距离值最小的那个总体。休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样品与某类别之间距离的大小,判别其所属类别。距离判别也称为直观判别法,因其方法直观、简单。该方法适用于连续型变量的判别分类;对变量的概率分布不要求有什么限制。1、距离判别基本思想5.2.1距离判别的基本思想休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院1、两总体距离判别返回5.2.1距离判别的基本思想5.2.2两总体距离判别5.2.3多总体距离判别5.2距离判别2、应用实例休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院1、两总体距离判别5.2.2两总体距离判别设有两个总体G1和G2,X是一个P维样本,定义样本X到总体G1和G2的距离d2(X,G1)和d2(X,G2),当总体G1和G2为正态总体且协差阵相等时,距离选用马氏距离,即212222111112xxG,xdxxG,xd其中:1,2,∑1,∑2分别为总体G1和G2的均值和协差阵。休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院1、两总体距离判别5.2.2两总体距离判别用如下的规则进行判别:若样本X到总体G1的距离小于到总体G2的距离,则认为样本X属于总体G1,反之则认为样本X属于总体G2;若样本X到总体G1和G2的距离相等,则让它待判。这个准则的数学模型为:休息一下统计学专业主干课程——多元统计分析2008.8安徽财经大学统计与应用数学学院1、两总体距离判别5.2.2两总体距离判别22122
本文标题:第五章-判别分析
链接地址:https://www.777doc.com/doc-3603183 .html