您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 聚类分析以及相关系数
第一节距离和相似系数在对样本(或变量)进行分类时,样品(或变量)之间的相似性度量工具——距离和相似系数。前者常用来度量样本之间的相似性,后者常用来度量变量之间的相似性。样本之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有非常密切的关系。第六章聚类分析(1)间隔尺度变量:变量有连续的量来表示,如长度,重量,速度,温度等。(2)有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品,二等品,三等品等有次序关系。(3)名义尺度变量:变量用一些类表示,这些类之间既无等级关系也无数量关系。如性别,职业,产品的型号等。通常变量按测量尺度的不同可以分为以下三类:表6.1.1数据矩阵变量样品12n1x2xpx11x12xpx121x22xpx21nx2nxnpx一、距离设为第个样品的第个指标,数据矩阵列于表6.1.1ijxij在表6.1.1中,每个样品有个变量,故每个样品都可以看成是中的一个点,个样品就是中的个点。在中需定义某种距离,第个样品与第个样品之间的距离记为,在聚类过程中,相距较近的点倾向于归为一类,相距较远的点应归属不同的类。pPRnpRnpRijijd距离的定义一般满足如下四个条件:ijd;,,01jidij对一切的各变量值相等;个样本个样本与第当且仅当第jidij,02。,,对一切kjiddkjikij,4;,对一切jiddjiij,3第个样品与第个样品间的明考夫斯基距离(简称明氏距离)定义为这里为某一自然数。明氏距离有以下三种特殊形式:ij1.1.6/11qpkqjkikijxxqdq常用的距离有如下几种:1.明考夫斯基(Minkowski)距离称为切比雪夫距离。时,当的一个距离;这是聚类分析中最常用称为欧氏距离,时当街区”距离;常被形象的称作“城市称为绝对值距离,时,当,max3,2,22,11112/1121jkikpkijpijkikijpijkikijxxdqxxdqxxdq其中为第个变量的样本均值,为第个变量的样本方差。niijjxnx11j2111nijijjjxxnsjpjnisxxxjjjijij,,2,1,,,2,1,当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。最常用的标准化处理是,令2.1.61pkjkikjkikijxxxxLd当时,可以定义第个样品与第个样品间的兰氏距离为pjnixij,,2,1,,,2,1,0ij2.兰氏(Lance和Williams)距离其中为样本协方差矩阵。使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关。但马氏距离有一个很大的缺陷,就是马氏距离公式中的难以确定。SxxxxxxTjpjjjTipiii,,,,,,,,2121xxS3.马氏(Mahalanobis)距离3.1.61jiTjiijSMdxxxx第个样品与第个样品之间的马氏距离为ji其中是变量与变量间的相关系数。当个变量互不相关时,,即斜交空间距离退化为欧氏距离(除相差一个常数倍外)。klrkxlxppddijij/24.斜交空间距离第个样品与第个样品间的斜交空间距离定义为ji4.1.612/1112pkplkljliljkikijrxxxxpd例6.2.1某高校举办一个培训班,从学员的资料中得到这样六个变量:性别,取值为男和女;外语语种,取值为英,日和俄;专业,取值为统计,会计和金融;职业,取值为教师和非教师;居住处,取值为校内和校外;学历,取值为本科和本科以下。1x2x3x4x5x6xTT校外,本科以下女,英,金融,教师,,校外,本科男,英,统计,非教师21xx现有两名学员:这两名学员的第二个变量都取值“英”,称为配合的,第一个变量一个取值为“男”,另一个取值为“女”,称为不配合的。一般的,若记配合的变量数为,不配合的变量数为,则它们之间的距离可定义为1m2m5.1.621212mmmd故按此定义本例中与之间的距离为。1x2x32二相似系数。对一切;,对一切是常数和当且仅当jiccjicbabaxxcjiijijjijij,,3,120,,11变量与的相似系数用来表示,它一般应满足如下三个条件:ixjxijc最常用的相似系数有如下两种1.夹角余弦变量与的夹角余弦定义为ixjx6.1.612/112121nkkjnkkinkkjkiijxxxxc它是中变量的观察向量与变量的观察向量之间的夹角的余弦函数,即。nRixTniiixxx,,21jxTnjjjxxx,,,21ijijijccos1变量与的相关系数为ixjx7.1.622/121121nkjkjnkikinkjkjikiijxxxxxxxxc2.相关系数常量之间常常借助于相似系数来定义距离,如令8.1.6122ijijcd第二节系统聚类法系统聚类法(hierarchicalclusteringmethod)的基本思想是:开始将个样本各自作为一类,并规定样本之间距离和类与类之间的距离,然后将距离最近的合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。n用表示第个样品与第个样品的距离,表示类,表示与的距离。本节介绍的系统聚类方法中,所有的方法一开始每个样品自成一类,类与类之间的距离与样本之间的距离相同(除离差平方和法之外),即,所以起初距离矩阵全部相同,记为ijdij,,21GGKLDKGLGKLKLdDijdD0一最短距离法类与类之间的距离为两类最近样本之间的距离,即称这种系统聚类法为最短距离法(singlelinkagemethod)。1.2.6min,ijGjGiKLdDLK(一)定义(二)最短距离法的聚类步骤如下;(1)规定样本之间的距离,计算个样本距离矩阵,它是一个对称矩阵。n0D(2)选定中的最小元素,设为,则将和合并成一个新类,记为,即。0DKLGKGLGMGLKMGGG,(3)计算新类与任一类之间距离的递推公式MGJG2.2.6,minmin,minminmin,,,LJKJijGjGiijGjGiijGjGiMJDDdddDJLJKJM在中,和所在的行与列合并成一个新行新列,对应,该行列上的新距离值由(6.3.2)式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记为。0DKGLGMG1D(4)对重复上述对的两步得,如此下去直至所有元素合并成一类为止。1D0D2D如果某一步中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一类合并或同时合并。mD(1)样品间采用绝对值距离(这时它与其它明氏距离完全相同),计算样品间的距离矩阵,列于表6.2.1。0D例6.2.1设有五个样品,每个只测量了一个指标,分别是1,2,6,8,11,试用最短距离法将它们分类。0105407620109530表6.2.10D54321GGGGG1G2G3G4G5G(2)中最小元素是,于是将和合并成,并利用(6.3.2)式计算与其他类的距离,列于表6.2.20D112D1G2G6G6G0406209530表6.2.21D5436GGGG6G3G4G5G(3)的最小元素是,合并和成,与其他类之间的距离计算为表6.2.31D234D3G4G7G7G表6.2.32D040930576GGG576GGG(4)中的最小元素是,将和合并为,新的距离矩阵列于表6.2.42D357D5G7G8G04086GG86GG3D表6.2.4(5)最后将和合并为,这时所有五个样品聚为一类,过程终止。8G6G9G将上述聚类过程画成一张树形图(或称谱系图,dendrogram),如图6.2.1所示。图6.2.1最短距离法树形图11G22G63G84G6G7G9G115G04321D8G类与类之间的距离定义为两类最远样品间的距离,即称这种系统聚类法为最长距离法(completelinkagemethod)。3.2.6max,ijGjGiKLdDLK二最长距离法最长距离法与最短距离法并类步骤完全相同,只是类间距离的递推公式有所不同。设某步将类和合并成新类,则与任一类的距离为4.2.6,maxLJKJMJDDDMGMGJGKGLG9G11G22G63G84G6G7G115G08642D8G10图6.2.2最长距离法树形图对例6.2.1采用最长距离法,其树形图如图6.2.2所示例6.2.2对305名女中学生测量八个体型指标:胸宽下肢长胸围上肢长颈围受臂长体重身高::::::::84736251xxxxxxxx相关矩阵列于表6.2.5,我们用相似系数来度量各变量之间的相似性。表6.2.5各变量之间的相关系数1.0000.8461.0000.8050.8811.0000.8590.8260.8011.0000.4730.3760.3800.4361.0000.3980.3260.3190.3290.7621.0000.3010.2770.2370.3270.7300.5831.0000.3820.4150.3450.3650.6290.5770.5391.00087654321xxxxxxxx1x2x3x4x5x6x7x8x4x1x2x3x5x6x7x8x0.18.06.04.02.0图6.2.3八个体型变量的最长距离法树形图类与类之间的距离既不取两类最近样品间的距离,也不取两类最远距离间的距离,而是取介于两者之间的距离,称为中间距离法(medianmethod)。三中间距离法设某一步将和合并为,对于任一类,考虑由为边长组成的三角形(如图6.2.4所示),取边的中线作为,由初等平面几何可知,的计算公式为MJDMJDJGMGLGKGKLLJKJDDD和,KLD5.2.64121212222KLLJKJMJDDDDLJDJGKGLGKLDKJDMJD图6.2.4中间距离法的几何表示中间距离法可推广为更一般的情形,将(6.2.5)式三项的系数依赖于某个参数,即这里,这种方法称为可变法。6.2.6212222KLLJKJMJDDDD1其中和分别为类和的样品个数,为中的样品与中的样品之间的距离。knLnKGLGijdKGiLGj四类平均法类平均法(gveragelinkagemethod)有两种定义,一种定义方法是类与类之间距离定义为所有样品对之间的平均距离,即定义和之间的距离为KGLG7.2.61,LKGjGiijLKKLdnnD递推公式为:8.2.611,,,LJMLKJMKGjGiGjGiijijJMGjGiijJMMJDnnDnnddnndnnDJKJLJM9.2.61,22LKGjGiijLKKLdnnD另一种定义方法是定义类与类之间的平方距离为样品对之间的平方距离的平均值,即它的递推公式类似于(6.2.8)式,即10.2.6222LJMLKJMKMJDnnDnnD在递推公式(6.2.10)式中,的影响没有被反映出来,为此可将该递推公式进一步推广为KLD11.2.612222KLLJMLKJMKMJD
本文标题:聚类分析以及相关系数
链接地址:https://www.777doc.com/doc-4492656 .html