您好,欢迎访问三七文档
第六章判别分析第一节什么是判别分析在科学研究和日常生活中,往往会遇到这样的问题,即根据观测数据对所研究的对象进行分类(组)判别。例如,在经济学中可根据人均国内生产总值、人均消费水平等多种指标来判别一个国家的经济发展程度所属类型;在气象学中,根据已有的气象资料(气温、气压、湿度等)来判断明天是阴天还是晴天,有雨还是无雨等。以上各方面的问题具有一个共同特点:就是事先已有“类”的划分,或事先已对某些已知样品分好了“类”,需要判断那些还未分好的的样品究竟属于哪一类。判别分析就是在研究对象用某种方法分好若干类(组)的情况下,确定新样品属于已知类别中哪一类的多元统计分析方法。判别分析和聚类分析不同,判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某种准则建立判别函数式,然后对未知类型的样品进行判别分类。而对于聚类分析,一批给定样品要划分的类型事先并不知道,需要通过聚类分析来确定各样品所属的类型。所以,判别分析和聚类分析往往结合起来运用。用判别分析方法处理问题时,通常要给出一个衡量新样品(样本点)与已知组别接近程度的描述指标,即判别函数,同时也指定一种判别规则,用来判定新样品的归属,判别规则可以是统计性的,决定新样品所属类别时用的是显著性检验;也可以是确定性的,决定样品归属时,只考虑判别函数值的大小。判别分析按判别的组数来分有两组(两个总体)判别和多组(多个总体)判别;按区分不同总体所用的数学模型来分有线性判别和非线性判别等。其判别方法:距离判别法、Fisher判别法、贝叶斯(Bayes)判别法.等。第二节距离判别首先根据已知分类的数据,分别计算各类的重心,即各组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i组.一、两个总体的距离判断法设有两个总体(或称两类)两个总体的均值向量为协方差矩阵分别为),,,(21pxxxX那么对于一个样品要判断它来自哪一个总体,就应该看它与哪一个总体最近。首先计算到总体的距离,分别记为按距离最近准则判别归类,则判别规则可写成如果距离定义采用欧氏距离,则可计算出:按距离最近准则判别归类即可。通常情况下我们所说的距离是指欧氏距离。但在统计学中,特别是在多元分析中,有时用欧氏距离显得不是太合适。设有两个正态总体,现有一个样品如图所示的A点,A距总体X的中心远,距总体Y的中心远若按欧氏距离来度量,A点离总体X要比离总体Y近一些。但是,从概率论的角度看,A点位于右侧的而位于左侧的处,应该认为A点离总体Y近一些。样品点x到的马氏距离为:(一)当时(二)当时虽然在两个总体有显著差异的条件下,误判概率很小,但当这种差异不很显著时,误判的概率就很大。因此,只有当两个总体的均值有显著差异时,做判别分析才有意义。例6.1:某地市场上销售的电视机有多种牌子,某商场从市场上随机抽取了20种牌子的电视机进行调查,其中13种畅销,7种滞销。按电视机的质量评分、功能评分和销售价格(单位:百元)搜集资料(见表),在销售状态中:1表示畅销,2表示滞销,根据资料建立距离判别函数,并根据判别准则进行回判。编号质量评分功能评分销售价格(百元)销售状态(组别)18.34.029129.57.068138.05.039147.47.050158.86.555169.07.558177.06.075189.28.082198.07.0671107.69.0901117.28.5861126.47.0531137.35.0481146.02.0202156.44.0392166.85.0482175.23.0292185.83.5322195.54.0342206.04.536220种电视机的销售情况TestsofEqualityofGroupMeansWilks'LambdaFdf1df2Sig.质量评分0.39927.0751180.000功能评分0.42624.2461180.000销售价格0.56813.6771180.002Box'sTestofEqualityofCovarianceMatrices(a)Box'sM16.008F2.089df16df2957.66Sig.0.052所以,判别在下进行。销售状态(组别)mean1质量评分7.977功能评分6.731销售价格61.5382质量评分5.957功能评分3.714销售价格34.000采用距离判别函数所得结果编号原分类新分类11.8761129.3641132.6751144.7041157.1121169.5611170.3911189.9721195.46911107.45011115.55611121.93211130.4051114-7.8732215-3.5972216-0.9102217-8.3402218-5.8732219-5.7242220-3.47222二、多个总体的距离判别(一)当协方差相等时,即判别函数为相应的判别规则为:当均值和协方差矩阵未知时(二)当判别函数为例6.2:在例6.1中,20种电视的13个畅销品种中,实际只有5种真正畅销,而有8种是平销,另外7种滞销,其各项指标如表6-8。在销售状态中:1表示畅销,2表示平销,3表示滞销。根据资料建立距离判别函数,并根据判别准则进行回判。假设一家厂商生产的产品,其质量评分8.0,功能评分7.5,销售价格为65百元,该产品的销售前景如何?编号质量评分功能评分销售价格(百元)销售状态(组别)18.34.029129.57.068138.05.039147.47.050158.86.555169.07.558277.06.075289.28.082298.07.0672107.69.0902117.28.5862126.47.0532137.35.0482146.02.0203156.44.0393166.85.0483175.23.0293185.83.5323195.54.0343206.04.5363TestsofEqualityofGroupMeansWilks'LambdaFdf1df2Sig.质量评分0.35215.6292170.000功能评分0.34815.9012170.000销售价格0.38713.4442170.000Box'sTestofEqualityofCovarianceMatrices(a)Box'sM25.468F1.518df112df2886.161Sig.0.112判别分析就在的条件下进行,而建立判别函数,并进行回判编号原分类新分类15.1744.4181121.3499.1021133.0783.8641140.6624.2711152.2607.5441162.5537.487217-5.5551.866228-1.5359.408229-1.4795.1342210-5.8588.6472211-6.1176.9562212-1.9471.9682213-0.108-0.1642314-8.528-7.1823315-3.748-4.3793316-1.027-2.1443317-7.879-9.4403318-5.871-6.5733319-5.446-6.9063320-3.640-4.24533采用距离判别函数所得结果该厂商生产的产品,属于平销商品.、第二节贝叶斯(Bayes)判别一、Bayes判别法的基本思想假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识。然后取得一个样本,用样本来修正已有的认识,得到后验概率分布,各种统计推断都通过后验概率分布来进行。将贝叶斯思想用于判别分析就是贝叶斯判别。设有k个总体它们的先验概率为各总体的密度函数分别是在观测到一个样品x的情况下,可用Bayes公式计算它来自g总体的后验概率。并且当判x来自h总体。二、多元正态总体的Bayes判别法(一)判别函数的导出P元正态分布密度函数为把代入由于我们只关心寻找使达到最大的中的分母不论为任何值都是常数,故只需要寻找取对数,并去掉与g无关的项,记为:(二)假定协差阵相等(三)计算后验概率作判别分类时,主要是根据判别函数的数值大小,但它并不是后验概率因为例6.2:在例6.1中,20种电视的13个畅销品种中,实际只有5种真正畅销,而有8种是平销,另外7种滞销,其各项指标如表6-8。在销售状态中:1表示畅销,2表示平销,3表示滞销。根据资料建立距离判别函数,并根据判别准则进行回判。假设一家厂商生产的产品,其质量评分8.0,功能评分7.5,销售价格为65百元,该产品的销售前景如何?编号质量评分功能评分销售价格(百元)销售状态(组别)18.34.029129.57.068138.05.039147.47.050158.86.555169.07.558277.06.075289.28.082298.07.0672107.69.0902117.28.5862126.47.0532137.35.0482146.02.0203156.44.0393166.85.0483175.23.0293185.83.5323195.54.0343206.04.5363编号质量评分功能评分销售价格新分类后验概率18.342954.99750.29350.91110.97529.576870.72169.84061.94910.7073853952.11949.51048.58810.90847.475049.37049.17845.43310.54258.86.55563.75761.96656.54410.857697.55869.73467.64960.02310.8897767531.42937.45735.45920.87989.288266.50568.50958.96320.8819876751.50753.45748.18820.872107.699047.35453.68344.90120.998117.28.58641.29247.88140.79120.998126.475335.33637.75435.65120.826137.354839.98940.56840.59830.39814622019.28618.41326.81030.999156.443926.89527.99831.61430.965166.854833.47335.06235.95630.670175.232910.22612.26120.01030.100185.83.53219.22920.40426.14330.996195.543416.83818.77124.08630.9942064.53624.87225.95029.45630.961待判87.56554.36355.67749.57820.787第三节费希尔(Fisher)判别一、判别函数的建立借助方差分析的思想构造一个判别函数设从分别取得维观察值系数确定的原则是使组间的差异最大,而使每个组内部的差异最小。(1)组间平方和为(2)组内离差平方和为值越大,表明个组均值之间的差异越大我们应选择这样的C,使达到最大为了求的最大值,可根据极限存在的必要条件,令这恰好说明和是的特征根及对应的特征向量。的全部非零特征根依次为,其中非零特征根个数,相应的特征向量依次记为当时,可使到达最大。由于的大小可以衡量判别函数的效果,故称为第i判别函数。设为判别效率,二、判别函数个数的确定的贡献率为累计贡献率为85%三、判别规则在实际工作中可采用下列方法:1.q0=1时(即只取一个判别函数),此时有两种可供选择的方法(1)不加权法若(2)加权法将、…、按大小顺序重新排序,记为、…、此时将类的原编号按此重新编号,将个平均值每相邻两个取加权平均,即用、…、、…、作为判别的临界值,若一个样品的判X属于第i类判X属于第i+1类2.也有两种供选择的方法(1)不加权法(2)加权法有时我们也使用中心化的Fisher判别式,即例6.4:Fisher于1936年发表的鸢尾花数据
本文标题:第六章--判别分析
链接地址:https://www.777doc.com/doc-7512374 .html