您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 聚类融合算法研究及其在电信中的应用
浙江大学信息科学与工程学院硕士学位论文聚类融合算法研究及其在电信中的应用姓名:王继丽申请学位级别:硕士专业:控制理论与控制工程指导教师:徐巍华;苏宏业20080501聚类融合算法研究及其在电信中的应用作者:王继丽学位授予单位:浙江大学信息科学与工程学院相似文献(4条)1.期刊论文李金磊.朱晓莲.朱海燕.LIJin-lei.ZHUXiao-lian.ZHUHai-yan一种基于投票策略的聚类融合算法-计算机仿真2008,25(3)在分类算法和回归模型中,融合方法正得到越来越广泛的应用,但在非监督机器学习领域,由于缺乏数据集的先验知识,则不能直接用于聚类算法.提出并实现了一种基于投票策略的聚类融合算法,该算法利用k-means算法每次随机选取聚类中心而得到不同样本划分的特性,将多次运行得到的聚类结果通过投票的方式合并,从而得到最终的结果.通过一系列真实数据和合成数据集的实验证明,这种方法比单一的聚类算法能更有效地提高聚类的准确率.在此基础上,为了降低高维数据运算的复杂性,将随机划分属性子空间的方法应用到上述聚类融合算法中,实验证明,该方法同时也能够在一个属性子空间上获得好的聚类结果.2.学位论文李金磊聚类分析及其在客户细分中的应用研究2007随着计算机科学与技术的普及和应用,特别是近年来,数据库技术和信息技术的蓬勃发展,人们产生和收集了大量的数据,但是如何从中发现有价值的信息,达到为决策服务的目的,成为了一个非常艰巨的任务。于是数据挖掘技术应运而生,并显示出其强大的生命力,从而逐渐成为研究的热点。数据挖掘(DataMining),又称为数据库中的知识发现(简称KDD),是从大量数据中提取或者“挖掘”知识的一个过程,而聚类分析是数据挖掘研究领域中一个非常重要的研究方向。所谓的聚类就是对数据集中的数据应用某种方法进行分组,使得每组内部的数据尽可能相似而不同组之间的数据尽可能不同,从而发现数据集内在的结构特征。聚类分析已经广泛地运用在许多领域,包括模式识别、数据分析、图象处理以及市场研究等。通过聚类,人们能识别密集的和稀疏的区域,从而发现全局的分布模式及数据属性之间的相互关系。在目前的许多领域活动中,多数情况是无先验规律的,数据划分的类是未知的,信息的整理、分析和知识转化是一个无监督的过程,因而聚类分析就拥有了广阔的市场,但目前聚类分析技术无论在理论研究还是实际应用中都还不成熟,有待进行更深入的研究。21世纪将是一个“客户经济”的时代,企业的经营理念正在由“以市场为中心”向“以客户为中心”转变。实际运作中,企业很快就发现并非所有的客户都能为企业带来利润。市场分析理论认为,企业80%的利润来源于20%的客户。因此,这就要求企业挖掘客户价值数据,掌握客户的行为规律,并运用于企业决策中。国外一些优秀的企业已经开始注意数据挖掘技术在这方面的应用,但在国内,无论是客户关系管理还是数据挖掘技术的应用,都还处于起步阶段。目前的研究多集中在数据挖掘算法的研究、改进和实现上,而将数据挖掘技术应用于客户价值挖掘方面的工作却很少。本文从研究数据挖掘聚类分析的基本算法入手,详细介绍了现有的经典聚类分析算法,并阐述了近年来才开始研究的聚类融合算法的基本思想及关键问题。在此基础上,提出了基于投票策略的聚类融合算法,并结合加权的思想和随机划分属性子空间的方法对算法作进一步的改进。随后,研究并实现了基于Co-association矩阵的聚类融合算法,同时引入随机划分属性子空间和随机划分样本子空间的方法对算法加以改进,实验结果进一步证明了聚类融合方法的优越性。最后,本文采用iava技术设计实现了一个客户细分原型系统,成功运用以上聚类分析算法对客户价值进行挖掘研究,对客户进行细分,从而找出各类客户的特征,为企业相关的经营活动提供有益的帮助。具体地,论文主要内容有:(1)系统综述了聚类算法特别是聚类融合算法的国内外研究现状,总结了聚类算法在客户细分领域的相关研究,指出了目前研究中存在的主要问题。(2)简要介绍了聚类分析的基本概念及其产生和发展过程,详细讨论了聚类分析中经常出现的数据类型及其预处理方法,总结分析了传统的聚类算法,进而重点阐述了聚类融合算法的基本思想,并详细分析了聚类融合算法中的两个关键问题。(3)以K-means算法作为基础算法,提出了基于投票策略的聚类融合算法和基于Co-aSsociation矩阵的聚类融合算法的一个变种算法。进一步地,在基于投票策略的聚类融合算法中引入加权和划分属性子空间的方法,在基于co-association矩阵的聚类融合算法中引入划分属性子空间和划分样本子空间的方法,并通过实验结果比较,证明了聚类融合方法的高效性和有效性。(4)成功地将本文提出的聚类融合算法应用于客户细分中,详细讨论了从客户数据的选取、客户细分原型系统的设计,到不同算法的实验结果与分析的过程,并论述了不同类别客户的服务策略。3.期刊论文王继丽.徐巍华.WANGJi-li.XUWei-hua故障诊断中聚类融合算法改进-组合机床与自动化加工技术2008,(10)近年来,数据挖掘技术已广泛应用于故障诊断领域.聚类分析作为数据挖掘的一项重要手段,在智能诊断中具有重要研究价值.2002年,聚类融合算法已经提出就得到广泛关注,成为聚类分析研究的新热点.文章在聚类融合算法的基础上,重点研究了聚类成员差异引起不同融合效果的问题,分析了K-means算法中聚类个数同融合质量的关系,提出一种改进算法ICEA(AnImprovedClusteringEnsembleAlgorithm),旨在进一步提高聚类融合算法的鲁棒性和精确度,提高故障诊断的准确性.ICEA中通过函数对各聚类成员加权,减少恶劣聚类成员对融合结果的影响;并以差异度为指标制定循环终止条件.实验证明,该算法在准确性及鲁棒性上均优于原算法.4.学位论文李雨桐空间环境生物信息学数据的分析方法研究2009生物信息学是由生物学、应用数学、计算机科学相互交叉所形成的学科,而数掘挖掘作为一个崭新的计算机应用领域在生物信息学中有着广泛的应用。空间环境生物信息学数据的分析方法研究是在生物信息学范畴内,基于当今日渐成熟的太空技术展开,主要用来研究空间环境对水稻种子产生的生物学效应的机制,即针对空间环境诱变因素数据以及生物学实验分析获取的表型组、蛋白质组的变化信息数据进行存储、集成和管理,在此基础上,对数据进行聚类分析、关联规则挖掘,试图找出空间环境诱变的机理及蛋白质组改变机制。本研究主要内容如下:⑴构建诱变水稻变化信息的数据库系统,其中包括空间环境诱因信息、诱变水稻的表型组和蛋白质组信息。⑵构建数据仓库,解决不同组学之间存在的数据不一致、冗余、噪声等问题,为后续的数据分析与挖掘工作打下良好的基础。⑶提出了基于投票机制的动态聚类融合算法,该算法自动确定聚类个数,利用不同的相似度准则运行k-means算法,实现了动态确定运行次数,并将多次运行得到的结果映射到关联矩阵,使用投票机制获得最终的数据划分。该算法具有对领域知识要求和参数依赖程度低等特点。⑷优化并改进了经典关联规则Apriori算法,该算法针对生物信息学数据普遍存在着维数过大、数据量巨大等特点,通过减少数据库记录的扫描次数及频繁项集的生成个数提高算法效率。本文链接:授权使用:西安工程大学(xagc),授权号:5a2624cf-74a1-4ab7-828f-9e570185a8b8下载时间:2010年12月25日
本文标题:聚类融合算法研究及其在电信中的应用
链接地址:https://www.777doc.com/doc-6290344 .html