您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 聚类分析_博文学院..
聚类分析ClusterAnalysis1什么是聚类分析什么是聚类分析聚类分析也是一种分类技术。是研究“物以类聚”的一种方法。什么是聚类分析1、如对我国34个省市直辖市进行分类。2、如对图书馆的书籍进行分类。3、如视频播放器对电影进行分类。2距离和相似系数距离和相似系数描述亲疏程度有两个途径:1、把每个样品看成p维(变量的个数为p个)空间的一个点,在p维坐标中,定义点与点之间的距离。2、用某种相似系数来描述样品之间的亲疏程度。距离和相似系数根据分类的对象可将聚类分析分为:(1)Q型(即样品的聚类)(2)R型(即变量或指标的聚类)距离和相似系数Ⅰ、对样本的分类(Q型)(利用距离来分类)距离和相似系数样本资料矩阵假使每个样品有p个属性,则每个样品都可以看成p维空间中的一个点n个样品就是p维空间中的n个点12(,,,)iiiipXxxx1/30/2020距离和相似系数第i样品与第j样品之间的距离记为dij12(,,,)iiiipXxxx12(,,,)jjjjpXxxx距离和相似系数样本间的距离矩阵111212122212,,,,,,,,,nnnnnnddddddDddd距离和相似系数怎样定义样本距离?1、明氏距离(Minkowski)2、欧氏距离(Euclidian)3、切比雪夫距离4、马氏距离(Mahalanobis)5、兰氏距离(Canberra)距离和相似系数1)、明氏距离11(())pqqijikjkkdxx当p=1时,绝对值距离1pijikjkkdxx1/30/2020距离和相似系数2)、欧氏距离1221(())pijikjkkdxx()()'ijijXXXX1/30/2020距离和相似系数3、切比雪夫距离1maxijikjkkpdxx距离和相似系数4、马氏距离21()()'ijijijdXXSXX1/30/2020距离和相似系数5、兰氏距离11pikikijkikikxxdpxx距离和相似系数Ⅱ、对指标的分类(R型)(利用相似系数来分类)距离和相似系数怎样定义指标间的相似系数?1、夹角余弦2、相关系数距离和相似系数1)、夹角余弦12211cosnkikjkijnnkikjkkxxxx距离和相似系数指标间的相似矩阵111212122212cos,cos,,coscos,cos,,coscos,cos,,cospppppp距离和相似系数2)、相关系数12211()()()()nkiikjjkijnnkiikjjkkxxxxrxxxx距离和相似系数指标间的相似矩阵111212122212,,,,,,,,,pppppprrrrrrRrrr3系统聚类法系统聚类法系统聚类法一般按以下步骤进行:1、将n个样品各作为一类;2、计算n个样品两两之间的距离,构成距离矩阵;3、合并距离最近的两类为一新类;4、计算新类与当前各类的距离。再合并、计算,直至只有一类为止;5、画聚类图,解释系统聚类法类与类之间的距离1.最短距离法(singlelinkage)2.最长距离法(completelinkage)3.中间距离法(medianmethod)4.重心法(centroidmethod)5.类平均法(averagelinkage)6.可变类平均法(flexible-betamethod)7.可变法8.离差平方和法(Ward'sminimum-variancemethod)最短距离法系统聚类法,miniijjijijXGXGDdx21•x12•x22•x11•12dijd类类间:两类间两两样品距离最短jGiG系统聚类法递推公式,minikjrkrijXGXGDd,,minmin,minikjpikjqijijXGXGXGXGddmin,kpkqDD例、设抽取五个样品,每个样品只侧一个指标,他们是1,2,3.5,7,9,试用最短距离法对五个样品进行分类。(样品间用绝对值距离)系统聚类法D(0)D(0)G1={X1}G2={X2}G3={X3}G4={X4}G5={X5}G1={X1}0G2={X2}10G3={X3}2.51.50G4={X4}653.50G5={X5}875.520系统聚类法D(1)D(1)G6G3G4G5G6={G1,G2}0G3={X3}1.50G4={X4}53.50G5={X5}75.520系统聚类法D(2)D(2)G7G4G5G7={G3,G6}0G4={X4}3.50G5={X5}5.520系统聚类法D(3)D(3)G7G8G70G8={G4,G5}3.50系统聚类法聚类谱系图系统聚类法最短距离法聚类的步骤:1、定义样品之间的距离,计算初始矩阵D(0);2、找出D(0)中非对角线上的最小值,设为Dpq,将对应的两类Gp和Gq合并成一个新类,记为Gr,即Gr=(Gp,Gq)3、计算新类与其它类之间的距离,得距离矩阵D(1)。4、用D(1)代替D(0),重复2、3的过程得D(2),如此下去直到所有样品合并成一类为止。最长距离法系统聚类法,maxiijjijijXGXGDdx21•x12•x22•x11•12dijd类类间:两类间两两样品距离最长jGiG系统聚类法递推公式,maxikjrkrijXGXGDd,,maxmax,maxikjpikjqijijXGXGXGXGddmax,kpkqDD例、设抽取五个样品,每个样品只侧一个指标,他们是1,2,3.5,7,9,试用最短距离法对五个样品进行分类。(样品间用绝对值距离)系统聚类法D(0)D(0)G1={X1}G2={X2}G3={X3}G4={X4}G5={X5}G1={X1}0G2={X2}10G3={X3}2.51.50G4={X4}653.50G5={X5}875.520系统聚类法D(1)D(1)G6G3G4G5G6={G1,G2}0G3={X3}2.50G4={X4}63.50G5={X5}85.520系统聚类法D(2)D(2)G6G7G3G60G7={G4,G5}80G3={X3}2.55.50系统聚类法D(3)D(3)G7G8G70G8={G3,G6}80系统聚类法聚类谱系图中间距离法系统聚类法系统聚类法递推公式22221110224krkpkqpqDDDD当β=-1/4时,是三角形的中线2222111224krkpkqpqDDDD例、设抽取五个样品,每个样品只侧一个指标,他们是1,2,3.5,7,9,试用最短距离法对五个样品进行分类。(样品间用绝对值距离)系统聚类法D(0)D2(0)G1G2G3G4G5G1={X1}0G2={X2}10G3={X3}6.252.250G4={X4}362512.250G5={X5}644930.2540系统聚类法D(1)D2(1)G6G3G4G5G6={X1,X2}0G3={X3}40G4={X4}30.2512.250G5={X5}56.2530.2540系统聚类法D(2)D2(2)G7G4G5G70G420.250G542.2540系统聚类法D(3)D2(3)G7G8G7={X1,X2,X3}0G8={X4,X5}30.250重心法系统聚类法ijijXXDdijd类类间:两类重心间的距离即为均值点间的距离••jGiG系统聚类法递推公式22()()krTkrkrkrXXDdXXXX11(())(())TkppqqkppqqrrXnXnXXnXnXnn222pqpqkpkqpqrrrrnnnnDDDnnnn例、设抽取五个样品,每个样品只侧一个指标,他们是1,2,3.5,7,9,试用最短距离法对五个样品进行分类。(样品间用绝对值距离)系统聚类法D(0)D2(0)G1G2G3G4G5G1={X1}0G2={X2}10G3={X3}6.252.250G4={X4}362512.250G5={X5}644930.2540系统聚类法D(1)D2(1)G6G3G4G5G6={X1,X2}0G3={X3}40G4={X4}30.2512.250G5={X5}56.2530.2540系统聚类法D(2)D2(2)G7G4G5G7={X1,X2X3}0G4={X4}23.360G5={X3}46.6940系统聚类法D(3)D2(3)G7G8G7={X1,X2,X3}0G8={X4,X5}34.030类平均法系统聚类法22,1ipjqpqijXGXGpqDdnn类类间:两类间的距离即为两类样品两两之间的距离ijdiG••••••jGiG例、设抽取五个样品,每个样品只侧一个指标,他们是1,2,3.5,7,9,试用最短距离法对五个样品进行分类。(样品间用绝对值距离)系统聚类法D(0)D2(0)G1G2G3G4G5G1={X1}0G2={X2}10G3={X3}6.252.250G4={X4}362512.250G5={X5}644930.2540系统聚类法D(1)D2(1)G6G3G4G5G6={X1,X2}0G3={X3}4.250G4={X4}30.2512.250G5={X5}56.2530.2540系统聚类法D(2)D2(2)G6G7G3G6={X1,X2}0G7={X4X5}43.50G3={X3}4.2521.250系统聚类法D(3)D2(3)G7G8G7={X4,X5}0G8={X1,X2,X3}36.080可变类平均法系统聚类法系统聚类法递推公式类平均法的递推公式中,没有反映Gp类和Gq类的距离有多大,进一步将其改进,加入D2pq,并给定系数1,则类平均法的递推公式改为:2222(1)()pqkrkpkqpqrrnnDDDDnn一般取β=-1/4可变法系统聚类法系统聚类法递推公式如果让中间距离法递推公式前两项的系数也依赖于β,则递推公式为:22221()2krkpkqpqDDDD1离差平方和法系统聚类法系统聚类法定义Gp类和Gq类的距离2pqrpqDSSS2222kpkqkkrkpkqpqrkrkrknnnnnDDDDnnnnnn()()()()1()()tntttttiiiSXXXX系统聚类法D(0)D2(0)G1G2G3G4G5G1={X1}0G2={X2}0.50G3={X3}3.1251.1250G4={X4}1812.56.1250G5={X5}3224.515.12520系统聚类法D(1)D2(1)G6G3G4G5G6={X1,X2}0G3={X3}2.6670G4={X4}20.1676.1250G5={X5}37.515.12520系统聚类法D(2)D2(2)G6G7G3G6={X1,X2}0G7={X4X5}42.250G3={X3}2.66713.50系统聚类法D(3)D2(3)G7G8G7={X4,X5}0G8={X1,X2,X3}40.83301/30/2020222222222222222222221,min,2,max,113,224,5,6,(1)(1)117,228,krkpkqkrkpkqkrkpkqpqpqpqkrkpkqpqrrrrpqkrkpkqrrpqkrkpkqpqrrkrkpkqpqkkrDDDDDDDDDDnnnnDDDDnnnnnnDDDnnnnDDDDnnDDDDnnD222pkqkkpkqpqrkrkrknnnDDDnnnnnn例1:为了更深入了解我国人口的文化程度状况,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选用了三个指标:(1)大学以上文化程度人口占全部人口的比例(DXBZ);(2)初中文化程度的人口占全部人口的比(CZBZ);(3)文盲半文盲人口占全部人口的比例(WM
本文标题:聚类分析_博文学院..
链接地址:https://www.777doc.com/doc-3395135 .html