您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 模糊聚类分析及其应用研究-李新社
技术·应用AnalysisandApplicationResearchonFuzzyClusteringLiXinshe,YaoJunpingAbstract:Fuzzyclusteringisanimportantmeansforclassifyingtheobjectivethings,andneededtobestudiedinthechoiceofclusteringalgorithmsandclusteringnumber,dealingwithmassivedata,effectiveevaluationonclusteringmethodandsoon.Theprocessandstepsoffuzzyclusterarestudiedbycombiningclusteringprinciplewiththeactualproblems,andtheprocessingmethodofsubjectiveandobjectiveparametersisdiscussedindetail.Keywords:Fuzzyclustering;ApplicationResearch模糊聚类分析技术是智能信息处理中的一个重要研究方向,是用模糊数学方法研究聚类问题,模糊聚类算法[1,2]由于具有良好的聚类性能与数据表达能力,已经成为近年来研究的热点,广泛的应用在分析和解决实际问题当中,包括工程、计算机科学、生命和医学科学、社会科学、经济学、无导师的学习、类型学分析或划分。这是由于实际问题中,一组事物是否属于某一类常常带有模糊性,也就是问题的界限不是十分清晰。我们不能明确回答是或否,而只能在某种程度上回答是。聚类分析研究已经有几十年的历史,它的重要性及与其他研究方向的交叉特性均已得到人们的肯定,其中模糊聚类是数据挖掘、模式识别等研究方向的重要研究内容之一,在天气形势分类、建筑的水泥适应性、汉字职别等方面具有极其重要的作用。本文将模糊聚类分析原理与实际问题结合起来,重点研究模糊聚类分析的过程和步骤,特别是聚类过程中参数的客主观处理方法。定义1设nnijrR×=)(是n阶模糊方阵,I是n阶单位方阵,若R满足自反性(RI≤),对称性(RRT=),传递性(RR≤2),则称R为模糊等价矩阵。定义2设nnijrR×=)(是n阶模糊方阵,I是n阶单位方阵,若R满足自反性(RI≤),对称性(RRT=),则称R为模糊相似矩阵。定理1R是n阶模糊等价矩阵⇔],1,0[∈∀λλR是等价的布尔矩阵。定理2设R是n阶模糊等价矩阵,则,10≤≤∀μλμR所决定的分类中的每一个类是λR所决定的分类中的某个子类。定理2表明,当μλ时,μR的分类是λR分类的加细,当λ由1变到0时,λR的分类由细变粗,形成一个动态的聚类过程。定理3设R是n阶模糊相似矩阵,则存在一个昀小的自然数)(nkk≤,使得kR为模糊等价矩阵,且对一切大于k的自然数l,恒有klRR=。模糊聚类分析的实质一般是指根据研究对象本身的属性来构造模糊矩阵,并在此基础上根据一定的隶属度来确定聚类关系,即用模糊数学方法把样本之间的模糊关系定量的确定,从而客观且准确地进行聚类。但大多数对象并没有严格的类属性和隶属关系,它们在属性等方面存在着重叠性和交叉性,具有亦此亦被的性质。(1)建立数据矩阵设论域},,,{21nxxxU=为被分类对象,每个对象又由m个指标表示其性状:),,2,1(},,,{21nixxxximiii…==则得到原始数据矩阵为mnijxX×=)(。在实际问题中,不同的数据一般有不同的量纲,为了使观察的特征值具有相对意义,使各特征值取值限定在[0,1]上,需进行规格化处理,方法很多。(2)建立X上的模糊相似矩阵鉴别X中xi与xj的接近程度,用[0,1]中的数rij表示xi与xj的相似程度,得到相似矩阵(rij)n×m,对其求等价闭包或等价类,就可对X中的元素进行分类。这里需要指出的是相似系数矩阵必须符合自反性、对称性要求,可根据实际情况选择数量积法、夹角余选法、相关指数、指数相似系数法等。相关系数法∑∑∑===−⋅−−−=mkjjkmkiikmkjjkiikijxxxxxxxxr12121)()(昀小昀大法 技术·应用∑∑==∨∧=mkjkikmkjkikijxxxxr11)()(绝对值指数法∑=−−=mkjkikijxxr1)||exp(采用何种方法要根据具体问题具体性质确定。这里注意有些模糊概念不具备此类特点,比如不能根据信任关系对人员分类,因为信任关系不具有对称性。(3)聚类方法①传递闭包法,包括求模糊等价矩阵、按λ由大到小进行聚类和画出动态聚类图三个环节。因为关系矩阵具有自反性、对称性,因此nRrt=)(具有自反性、对称性和传递性,故nR是模糊等价矩阵。那么,如何求之呢?首先)()(1RtRRRRtnmiimn=∪⊆⊆=⇒≥∞=,其次可以通过平方追赶法求pRRRR242→→→→,若np≥2,即求⎡⎤n2log次,所得pR2就可作为R改造后对应的等价矩阵。②直接聚类法,该方法的核心是根据不同水平值,作相似类,并将有公共元素的相似类合并,昀后给出聚类图。首先令11=λ,作相似类,}|{][1λ==ijjRirxx,当不同相似类出现公共元素时,将公共元素所在类合并。然后令次昀大值=2λ,找出的元素对),(jixx,将对应于2λ的等价分类中ix所在类与jx所在类合并,所有情况合并后得到相应于2λ的等价分类。依次类推直到合并U成为一类,昀后给出聚类图。此外,昀大树法和编网法也经常用到。表单元要素空气水分土壤作物x18010632x2501645x390646x440573x510123每个环境单元可以包括空气、水分、土壤、作物等四个因素。环境单元的污染状况由污染物在四要素中的超限度来描写。假设有五个单元x1,x2,x3,x4,x5,它们的污染数据为如表2所示。数据矩阵为*80106250164906464057310124X⎛⎞⎜⎟⎜⎟⎜⎟=⎜⎟⎜⎟⎜⎟⎝⎠采用昀大值规格化法将数据规格化0.891.000.860.330.560.100.860.671.000.600.571.000.440.201.000.500.110.100.290.67X⎛⎞⎜⎟⎜⎟⎜⎟=⎜⎟⎜⎟⎜⎟⎝⎠用昀大昀小贴近度法构造模糊相似矩阵得到10.540.620.630.240.5410.550.700.530.620.5510.560.370.630.700.5610.380.240.530.370.381R⎛⎞⎜⎟⎜⎟⎜⎟=⎜⎟⎜⎟⎜⎟⎝⎠用平方追赶法可得传递闭包410.630.620.630.530.6310.620.700.53()0.620.6210.620.530.630.700.6210.530.530.530.530.531tRR⎛⎞⎜⎟⎜⎟⎜⎟==⎜⎟⎜⎟⎜⎟⎝⎠取λ=1,分成5类12345{},{},{},{},{}xxxxx;取λ=0.7,分成4类124{},{,},xxx35{},{}xx;类似处理下去直至合成一类12435{,,,,}xxxxx。动态聚类结果如图-1所示。图1动态聚类结果上面聚类方法是平方追赶法的应用过程,也可直接下从面相似矩阵R出发,以取λ=0.63为例说明。0.631001001010001001101000001R⎛⎞⎜⎟⎜⎟⎜⎟=⎜⎟⎜⎟⎜⎟⎝⎠在R0.63中,显然r14=r24=1,于是{x2,x4},{x1,x4}为相似类,所以有公共元素x4的相似类为{x1,x2,x4},故分类应为{x1,x2,x4},{x3},{x5}。图2模糊聚类步骤模糊聚类步骤可如图2所示。模糊聚类昀终结论的可靠性或者说参考价值与三大因素紧密相关:①样本选取是否随机,是否具有代表性;②规格化和相似度计算,特别是相似度计算;③阈值选取直接决定判断者的意图或结论。如何使模糊聚类分析的结果更加符合客观实际,仍然是今后研究的重点问题。本文将模糊聚类分析原理与实际问题结合起来,重点研究模糊聚类分析的过程和步骤,特别是聚类过程中参数的客主观处理方法,并就模糊聚类所存在的一些模糊问题进行了讨论,同时指出了未来研究的重点和方向。
本文标题:模糊聚类分析及其应用研究-李新社
链接地址:https://www.777doc.com/doc-4656478 .html