您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 数据挖掘-第10章--聚类分析:基本概念和方法
数据挖掘与商务智能范勤勤物流研究中心第十章聚类分析1聚类分析2划分方法3层次方法4基于密度的方法1聚类分析28聚类分析:基本概念簇:每个子集是一个簇簇中的对象彼此相似与其他簇中的对象不相似典型应用作为一个独立的工具观察数据分布的情况,观察每个簇的特点,集中对特定的某些簇做进一步分析作为其他算法(如分类等)的一个预处理步骤,这些算法再在生成的簇上进行处理聚类分析是一个把数据对象划分成子集的过程,由聚类分析产生的簇的集合称作一个聚类聚类被称为无监督学习,因为没有提供类标号信息428聚类分析:应用示例Marketing在商业上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群Biology在生物学上,聚类能用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识Landuse在地球观测数据库中相似地区的确定528数据挖掘对聚类的典型要求可伸缩性:在大数据集合样本上进行聚类会导致有偏的结果处理不同属性类型的能力:如图、序列、图像等发现任意形状的簇:许多聚类算法基于欧式或曼哈顿距离,球状簇对于确定输入参数的领域知识的要求:对参数设定十分敏感处理噪声数据的能力:对数据敏感,可能导致低质量的聚类结果增量聚类(新数据)和对输入次序不敏感:不能将新数据合并到已有的聚类结构中,对于输入数据的顺序是敏感的聚类高维数据的能力:高维数据有可能是非常稀疏和高度倾斜基于约束的聚类:现实中有很多约束条件可解释性和可用性628可以用于比较聚类方法的诸方面划分准则分层或不分层相似性度量虽然基于距离的方法常常可以利用最优化技术,但是基于密度或基于连通性的方法常常可以发现任意形状的簇簇的分离性作为簇的主题可能不是互斥的聚类空间子空间聚类发现揭示对象相似性的簇和子空间728基本聚类方法概述划分方法(Partitioningapproach)基本思想:给定一个n个样本的数据库,划分方法将数据划分为k个划分(k=n),每个划分表示一个簇,同时满足:(1)每个簇至少包含一个样本;(2)每个样本必须属于且仅属于一个层次方法(Hierarchicalapproach)创建给定数据对象集的层次分解8基于密度的方法对给定簇中的每个数据点,在给定半径的领域中必须至少包含最少数目的点289基本聚类方法概述方法一般特点划分方法发现球形互斥的簇基于距离可以用均值或中心点等代表簇中心对中小规模数据集有效层次方法聚类是一个层次分解(即多层)不能纠正错误的合并或划分可以集成其他技术,如微聚类或考虑对象“连接”基于密度的方法可以发现任意形状的簇簇是对象空间中被低密度区域分隔的稠密区域簇密度:每个点的“邻域”内必须具有最少个数的点可能过滤离群点2划分方法28划分方法给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,并且k=n。每个组至少包含一个对象每个对象属于且仅属于一个组簇的表示k-平均算法(由簇的平均值来代表整个簇)k中心点算法(由处于簇的中心区域的某个值代表整个簇)划分准则同一个聚类中的对象尽可能的接近或相关,不同聚类中的对象尽可能的远离或不同1128K-均值:一种基于形心的技术假设数据集D包含n个欧式空间中的对象,划分把D中的对象分配到k个簇中。簇Ci的质量可以用簇内变差度量,它是Ci中所有对象和形心ci之间的误差的平方和,定义为1221,ikiiEdistpCpc28K-均值:一种基于形心的技术算法K-均值。用于划分的k–均值算法,其中每个簇的中心都用簇中所有对象的均值来表示方法从D中任意选择k个对象作为初始簇中心Repeat根据簇中对象的均值,将每个对象分配到最相似的簇更新簇均值,即重新计算每个簇中对象的均值Until不再发生变化输入k:簇的数目D:包含n个对象的数据集1328K-均值:例子-步骤114k1k2k3XY随机选择3个簇中心28K-均值:例子-步骤215k1k2k3XY分配每个点到最近的簇中心28K-均值:例子-步骤316XY移动每个簇中心到每个簇的平均位置k1k2k2k1k3k328K-均值:例子-步骤417XY把对象重新分布到离簇中心最近的簇中k1k2k328K-均值:例子-步骤4…18XYA:threepointswithanimationk1k3k228K-均值:例子-步骤4b19XY重新计算簇的均值k1k3k228K-均值:例子-步骤520XY把簇的中心移到簇的均值k2k1k328K-均值:缺点21是局部最优,不是全局最优要求用户必须事先给出要生成的簇的数目,选择初始划分的最佳方向、更新分区和停止准则不适合发现大小很不相同的簇或具有凹状的簇算法只有在簇的平均值被定义的情况下才能使用,这不适合涉及有类属性的数据对噪音和异常点非常敏感孤立点(极大值)的存在,会大幅度扭曲数据的分布28K-中心点:一种基于代表对象的技术k–中心点聚类:首先为每个簇随意选择选择一个代表对象mediod;剩余的对象根据其与代表对象的距离分配给最近的一个簇。然后反复地用非代表对象来替代代表对象,以改进聚类的质量。聚类结果的质量用一个代价函数来估算,该函数评估了对象与其参照对象之间的平均相异度。围绕中心点划分(PAM)与k–均值算法一样,初始代表对象任意选取。考虑用一个非代表对象替换一个代表对象是否能够提高聚类质量PAM在小型数据集上运行良好,但是不能很好地用于大数据集22PAM的改善CLARA:大型应用聚类CLARANS:基于随机搜索的聚类大型应用28K-中心点:一种基于代表对象的技术23012345678910012345678910012345678910012345678910K=2任意选取k个对象作为初始medoids012345678910012345678910将其余对象分配到最近的medoids所代表的类随机选取一非中心对象,Oramdom计算交换代价012345678910012345678910如果聚类质量被提高,则代替原medoidDoloopUntilnochange0123456789100123456789103层次方法28凝聚的与分裂的层次聚类对给定数据对象集合进行层次分解自底向上方法(凝聚):开始将每个对象作为单独的一个组,然后相继的合并相近的对象或组,直到所有的组合并为一个,或者达到一个终止条件自顶向下方法(分裂):开始将所有的对象置于一个簇中,在迭代的每一步,一个簇被分裂为多个更小的簇,直到最终每个对象在一个单独的簇中,或达到一个终止条件缺点:合并或分裂的步骤不能被撤销2528层次方法将距离矩阵作为聚类标准这种方法不需要把簇k的数量作为一个输入,但是需要一个终止条件26Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step2Step1Step0凝聚的(AGNES)分裂的(DIANA)28算法方法距离度量最小距离均值距离最大距离平均距离2728BIRCH:使用聚类特征树的多阶段聚类BIRCH聚类特征CF=n,LS,SSLS表示n个点的线性和,而SS是数据点的平方和采用了一种多阶段聚类技术:数据集的单遍扫描产生一个基本的好聚类,而一或多遍的额外扫描可以进一步的改进聚类质量阶段一:BIRCH扫描数据库,建立一棵存放于内存的初始CF-树,它可以被看做数据的多层压缩,试图保留数据的内在聚类结构阶段二:BIRCH采用某个(选定的)聚类算法对CF树的叶节点进行聚类,把稀疏的簇当作离群点删除,而把稠密的簇合并为更大的簇282829CF树结构CF1child1CF3child3CF2child2CF6child6CF1child1CF3child3CF2child2CF5child5CF1CF2CF6prevnextCF1CF2CF4prevnextB=7L=6Non-leafnodeLeafnodeLeafnode28Chameleon:使用动态建模的多阶段层次聚类Chameleon(变色龙)是一种层次聚类算法,它采用动态建模来确定一对簇之间的相似度如果两个簇的互联性都很高并且它们之间又靠的很近就将其合并3028概率层次聚类算法层次聚类的缺点很难选择一个好的距离度量数据对象不能有缺失的属性值结果聚类层次结构的优化目标可能不清晰概率层次聚类使用概率模型度量簇之间的距离生成模型:把待聚类的数据对象集看做要分析的基础数据生成机制的一个样本聚类的任务是使用待聚类的观测数据对象,尽可能准确地估计该生成模型314基于密度的方法28基于密度的方法基于距离的聚类方法的缺点只能发现球状的簇,难以发现任意形状的簇基于密度的据类只要临近区域的密度(对象或数据点的数目)超过某个临界值,就继续聚类优点:可以过滤掉“噪声”和“孤立点”,发现任意形状的簇3328DBSCAN:一种基于高密度连通区域的基于密度的聚类DBSCAN找出核心对象,即其邻域稠密的对象。它连接核心对象和它们的邻域,形成稠密区域作为簇密度可达:点p关于Eps,MinPts是从q密度可达的,如果存在一个节点链p1,…,pn,p1=q,pn=p使得pi+1是从pi直接密度可达的密度相连:点p关于Eps,MinPts与点q是密度相连的,如果存在点o使得,p和q都是关于Eps,MinPts是从o密度可达的34pqopqp1密度可达密度相连28DBSCAN:一种基于高密度连通区域的基于密度的聚类DBSCAN缺点对用户定义的参数是敏感的,参数难以确定(特别是对于高维数据,设置的细微不同可能导致差别很大的聚类)3528OPTICS:通过点排序识别聚类结构OPTICS:并不显式地产生数据集聚类,而是输出簇排序这个排序是所有分析对象的线性表,并且代表了数据的基于密度的聚类结构这个排序等价于从广泛的参数设置中得到的基于密度的聚类簇排序可以用来提取基本的聚类信息,导出内在的聚类结构,也可以提供聚类的可视化36每个对象需要存储两个值对象p的核心距离(core-distance)是使得p成为核心对象的最小。如果p不是核心对象,p的核心距离没有定义对象q关于另一个对象p的可达距离(reachability-distance)是p的核心距离和p与q的欧几里得距离之间的较大值.如果p不是一个核心对象,p和q之间的可达距离没有定义28OPTICS:通过点排序识别聚类结构37例:设=6(mm),MinPts=5.p的核心距离是p与第四个最近的数据对象之间的距离’。q1关于p的可达距离是p的核心距离(即’=3mm),因为它比从p到q1的欧几里得距离要大。q2关于p的可达距离是从p到q2的欧几里得距离,它大于p的核心距离。2838OPTICS中的簇次序‘未定义可达距离对象的簇排序28DENCLUE:基于密度分布函数的聚类密度估计是根据一系列观测数据集来估计不可观测的概率密度函数DENCLUE主要特征可以发现任意形状的簇适用于有大量噪声的数据集比现有的算法(DBSCAN)速度更快对密度参数σ和噪音阈值ξ核密度估计是一种源自统计学的非参数密度估计方法39谢谢关注欢迎指导
本文标题:数据挖掘-第10章--聚类分析:基本概念和方法
链接地址:https://www.777doc.com/doc-6800456 .html