您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > M02-3 模糊聚类分析
2-1模糊集合2-2判别分析法2-3模糊聚类分析2-4模糊综合评价2-5模糊线性规划Fuzzymathematicalmodelanditsapplication2/409March2020一、模糊相似矩阵与模糊等价矩阵1.1模糊矩阵1.2模糊矩阵的运算1.3模糊相似矩阵与模糊等价矩阵二、模糊C均值聚类2.1模糊C均值聚类2.2加权模糊C-均值聚类的迭代公式三、聚类的有效性检验3.1Friedman检验的思想3.2聚类效果分析1.0引言2.0引言3/409March2020在科学技术、经济管理中需要按一定的标准进行分类。例如,根据生物的某些性状,可对生物进行分类;在气象学中,要根据大气环流的特点,进行大气分析,并予以归类;按一定的标准进行分类的数学方法称为聚类分析,由于待分类的一些事物常具有模糊性,所以事物分类的本身具有模糊性的特点。模糊聚类的方法是通过建立模糊相似矩阵而后将客观事物予以分类的方法。1.0引言4/409March2020例如:7.08.002.05.09.01.001~R就是一个3阶的模糊矩阵.1.1模糊矩阵定义2.3.1如果对于任意的i,j,都有rij∈[0,1],则称矩阵为模糊矩阵。nmijrR)(~5/409March2020:,)(,)(~~则有设nmijnmijbBaA,)()7(~mmijaA.ˆ~~~~kkAAAA则1.2模糊矩阵的运算;)1(~~ijijbaBA;)2(~~ijijbaBA;)(ˆ)3(~~nmijijbaBA;)(ˆ)4(~~nmijijbaBA;)1(ˆ)5(~nmijcaA,)(,)(~~nsijsmijbBaA则称模糊矩阵nmijcBA)(~~为A与B合成,其中);(1kjikskijbac(6)模糊矩阵的合成运算6/409March2020例1.试计算已知,3.02.06.05.0,2.03.04.01~~BA.,,,2~~~~~~ABABABA3.02.02.03.06.04.05.01~~BA3.03.06.013.02.02.03.06.04.05.01~~BA2.02.04.05.0~~BA3.02.06.05.02.03.04.013.03.06.05.02.03.04.012.03.04.012~A3.03.04.01解7/409March20201.3模糊相似矩阵与模糊等价矩阵定义2.3.2若模糊矩阵~R);(1)1(自反性iir).()2(对称性jiijrr则称为模糊相似矩阵。~R满足:例如12.02.01~1R104.0013.04.03.01~2R都是模糊相似矩阵。8/409March2020定义2.3.2若模糊矩阵~R);(1)1(自反性iir);()2(对称性jiijrr则称为模糊等价矩阵。~R满足:).()3(~2~传递性RR显然,一个矩阵是模糊等价矩阵的必要条件为该矩阵是模糊相似矩阵。例4.上例中的是否为模糊等价矩阵?~2~1,RR12.02.0112.02.0112.02.01~1~1RR,~1~21RR.~1为模糊等价矩阵R解9/409March202013.04.03.013.04.03.01故不是模糊等价矩阵。~2R~2~22RR104.0013.04.03.01104.0013.04.03.01~2~2RR~22R10/409March2020传统的聚类分析是一种硬划分,它把每个待辨识的对象严格地划分到某个类中,具有非此即彼的性质,因此这种分类的类别界限是分明的。而实际上大多数对象并没有严格的属性,它们在性态和类属方面存在着中介性,适合进行软划分。Zadeh提出的模糊集合理论为这种软划分提供了有力的分析工具,人们开始用模糊的方法来处理聚类问题,并称之为模糊聚类分析。由于模糊聚类得到了样本属于各个类别的不确定性程度,表达了样本类属的中介性,即建立起了样本对于类别的不确定性的描述,能更客观地反映现实世界,从而成为聚类分析研究的主流。2.0引言11/409March20202.1模糊C均值聚类,},,,{21pNRXXXX设pR,10iku,1c1iiku,1,1,01ciNkNuNkikN1c12)()(),(kiikmikduVUJ.个类中心的欧氏距离个序列到第为第其中ikvxdikik)}.,(min{:),(VUJVUJ的极小值聚类准则取为求表示n维实数向量空间。令uik表示第k个样本属于第i类的隶属度,的聚类中心。则X的一个模糊C-均值聚类就是求如下目标函数的最小值:记vi为第i类12/409March2020求模糊C均值聚类的具体步骤如下:⑴取定c,m和初始隶属度矩阵U0,迭代步数I=0;⑵计算聚类中心V为:)1(),,,2,1()(/)(N1)(N1)()(mciuxuvkmlikkkmlikli⑶修正U:.,)(/)(kidducjmjkik1lik1121⑷对给定的e0,实际计算时应对取定的初始值进行迭代计算直至,|}max{|1etiktikuu则算法终止,并得到结果。.},max{类第则若jxuukikjk13/409March2020在解决实际问题的过程中,我们经常发现利用经典的模糊C-均值聚类所得到的结果与主成分分析综合排名的结果有较大的差异,本文将模糊C-均值聚类加以改进,使得聚类的结果与主成分分析的排名基本一致。我们的方法将模糊C-均值聚类的迭代公式中的欧氏距离,改为加权欧氏距离,其中的权向量采取主成分分析的方法计算。2.2加权模糊C-均值聚类的迭代公式加权模糊C-均值聚类可以表示为如下的规划问题:N1c12)()(),,(minkiikjmikdwucVUJ14/409March2020mciNuNkuNkciutsNkikciikik1101,11,1,1011其中wj通过以下方法计算得到:⑴将原始数据矩阵统一趋势化,得到无量纲矩阵Y;⑵计算矩阵Y的相关系数矩阵R;⑶计算相关系数矩阵R的特征值lj;),,,,(21k⑷将特征值归一化得到权向量./1kjjjjwll其中15/409March2020例3根据表2-6对各地区生产力水平进行聚类分析。表2-6各地区生产力水平数据地区GDP固定资本人力资本地区GDP固定资本人力资本北京2.05765.94891.3600湖北0.78031.38201.0000天津1.83284.03081.3990湖南0.60390.91710.6660河北0.82361.62230.8690广东1.36812.72981.0260山西0.54401.03370.7960广西0.46600.83420.5460内蒙古0.65031.10990.9310海南0.68591.94700.9280辽宁1.20012.03141.3850重庆0.56500.81270.6200吉林0.75531.31141.0220四川0.51181.04100.5630黑龙江0.93441.42081.2810贵州0.28560.57560.2990上海3.06748.03961.7480云南0.48401.01660.4660江苏1.29332.24501.0880西藏0.52751.35880.5240浙江1.46293.10380.8940陕西0.50401.03070.5740安徽0.51990.81120.6140甘肃0.41650.85440.4590福建1.23652.05231.1550青海0.57541.59080.5500江西0.51980.74940.7850宁夏0.53001.50360.5180山东1.04391.65340.9470新疆0.79812.02260.9110河南0.59031.92100.653016/409March2020解:利用Matlab软件,我们得到原始数据矩阵的相关系数矩阵R的特征值为:l=(0.0233,0.2541,2.7227).归一化得到权向量为:)9076.0,0847.0,0078.0(w由于最大的特征值的贡献率已经达到90%以上,因此我们利用第一主成分的得分进行排序。相关系数矩阵R的最大特征值对应的特征向量就是第一主成分的系数,于是可得到计算第一主成分得分的公式:)31,,2,1(,5547.05773.05992.0321iyyyFiiii由此得到各地区的主成分排名见表2-717/409March2020表2-7各地区生产力水平的主成分排名地区上海北京天津辽宁浙江广东江苏福建排名12345678地区黑龙江山东新疆湖北海南吉林河北内蒙古排名910111213141516地区河南山西江西青海湖南宁夏西藏重庆排名1718192021222324地区安徽陕西四川广西云南甘肃贵州排名25262728293031利用加权模糊C-均值聚类的方法,我们将各地区生产力水平分为4类,所得到的结果列于表2-8。18/409March2020表2-8各地区生产力水平的聚类结果类别地区名称一类上海北京二类天津辽宁浙江广东江苏福建三类黑龙江山东新疆湖北海南吉林河北内蒙古山西四类河南江西青海湖南宁夏西藏重庆安徽陕西四川广西云南甘肃贵州将表2-8中的结果与表2-7中排名比较可以发现差别仅在于河南与山西交换了位置,由此可见我们得到的结果与主成分分析几乎完全一样。19/409March2020[center,U,obj_fcn]=fcm(data,cluster_n)data:要聚类的数据集合,每一行为一个样本;cluster_n:聚类数(大于1)。Center:最终的聚类中心矩阵,其每一行为聚类中心的坐标值;U:最终的模糊分区矩阵;obj_fcn:在迭代过程中的目标函数值注意:在使用上述方法时,要根据中心坐标center的特点分清楚每一类中心代表的是实际中的那一类,然后才能准确地将待聚类的各方案准确地分为各自所属的类别,否则就会出现张冠李戴的现象。在Matlab中(m=2),我们只要直接调用如下程序即可:20/409March20203.1Friedman检验的思想通常对于聚类结果的有效性分析是指各类之间差距较大,同一类中个体之间差异较小,为此,我们给出非参数检验的一种方法。设被划分为第i类的N个个体的秩的平均值为Ri.,即siRRRNRiNiii,,2,1),(121若各类别之间有显著差异,则隶属于某些类别的N个个体的秩将普遍偏大,而属于其他类别的N个个体的秩相对较小,因而各Ri.间的差异比较大.若H0为真,则各Ri.集中在秩的总平均值21/409March202021)]21([1)]()[(12112111ssNsNRRRRRRsNRsNNNs的周围,而统计量)1(~)21()1(12221ssRssNQsii反映了Ri.在R..附近的分散程度,若H0不真,则Q有偏大的趋势,因此拒绝域为Q≥C,其中临界值C由}{0cQPH确定,此检验称为Friedman检验。iNiiiiRRRNRR21),,,2,1(si若令.)1(3)1(1212siisNRsNsQ则Friedman统计量可简化为22/409March20203.2聚类效果分析利用Matlab软件,我们对例3
本文标题:M02-3 模糊聚类分析
链接地址:https://www.777doc.com/doc-4248108 .html