您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 华中科技大学人工智能-机器学习-聚类
机器学习聚类分析简介基本方法分区层次基于密度基于网格的方法聚类概念类、簇(Cluster)数据对象的集合,集合中的对象满足:彼此足够相似;集合间的对象满足:彼此不相似聚类分析Birdsofafeatherflocktogether物以类聚无师学习无监督学习NumericaltaxonomyTypologyPartition别名简介概念聚类标准相似度应用基本方法聚类标准sheepdogcatsharklizardsparrowvipergoldfishfrogseagullredmullet是否存在肺sheepdogcatsharklizardsparrowvipergoldfishfrogseagullredmullet居住环境简介概念聚类标准相似度应用基本方法相似度数值型数据欧氏距离Manhattan距离Minkowski距离Binary,Nominal,Ordinaletc.Jaccard系数sim(pi,pj)=|pi∩pj|/|pi∪pj|混合型数据简介概念聚类标准相似度应用基本方法应用BusinessBiologyIdentificationofgroupsof…ImageprocessingGaindistributionofdataWebforinformationdiscoveryPreprocessingstep简介概念聚类标准相似度应用基本方法基本方法分区方法层次方法基于密度的方法基于网格的方法基于模型的方法(类似分类)简介基本方法分区层次基于密度基于网格聚类方法–分区给定n个对象数字k指定聚类个数判别函数解决以下问题n个对象分到k个类中所形成的类使得判别函数最优简介基本方法分区层次基于密度基于网格分区算法-PAMk-medoidmedoid:类的代表对象,居于类的中心PAM的目标找到k个medoids形成k个类(其它对象分配到最近的medoid代表的类中)同时满足判别函数最小kniOimedoidOid1))(,(简介基本方法分区层次基于密度基于网格分区算法-PAM搜索rightmedoidO1O2Ok…随机选择Oi…OhOk+1……On1m(Oj)=Oi;d(Oj,Oh)=d(Oj,Ox)Cjih=d(Oj,Ox)-d(Oj,Oi)+2m(Oj)=Oi;d(Oj,Oh)d(Oj,Ox)Cjih=d(Oj,Oh)-d(Oj,Oi)+/-3m(Oj)=Ox;d(Oj,Ox)d(Oj,Oh)Cjih=04m(Oj)=Ox;d(Oj,Ox)=d(Oj,Oh)Cjih=d(Oj,Oh)-d(Oj,Ox)-Oj…11knjjihC简介基本方法分区层次基于密度基于网格分区算法–CLARANCEO1O2O3n=5k=3numberlocalmaxneighborO1O2O4O4O2O3……O1O2O5O1O4O3O1O5O3O5O2O3简介基本方法分区层次基于密度基于网格分区算法–CLARANCEPAMO(k(n-k)2)每一轮迭代CLARANCE对结果质量影响不大简介基本方法分区层次基于密度基于网格聚类方法–层次nobjectskobjectsn-kobjects1object1object1object……………………简介基本方法分区层次基于密度基于网格聚类方法–密度动机Density简介基本方法分区层次基于密度基于网格基于密度的算法-DBSCANRadiusεMinpts=3Coreobject:OMPR简介基本方法分区层次基于密度基于网格基于密度的算法-DBSCAN1.ReadoneunclassifiedobjectofromD;2.inspectoo:notcoreobject,thenlableitnoisyo:coreobject,thenexec33.lableoanewclassIDco4.AddallobjectsinNEps(o)intoListandlablethemco;5.ForeachobjectpinList;6.InspectpNon-core:donothingCore:foreachobjectqinNEps(p)qisnoisy:lableitcoqisunclassified:lableitcoandadditintoListqisclassified:donothing简介基本方法分区层次基于密度基于网格基于密度的算法-DENCLUE简介基本方法分区层次基于密度基于网格基于密度的算法-DENCLUE影响函数密度函数简介基本方法分区层次基于密度基于网格基于密度的算法-DENCLUE基于中心点的聚类给定ξ0,X*为数据集D的密度吸引子(f(X*)=ξ),则由X*所吸引的数据点所构成的集合称以X*为中心的聚类,记做子集C。(如果f(X*)ξ,则称X*所吸引的数据点为离群点)任意形状的聚类子集C的集合,满足不同子集间存在路径P,该路径上的每个点的密度函数值不小于ξ简介基本方法分区层次基于密度基于网格聚类方法–网格将n维空间分割成单元格目的:提高效率聚类操作针对单元格而不是对象决定算法耗时的不再是对象的数目,而是单元格的数目简介基本方法分区层次基于密度基于网格基于网格的算法-CLIQUE搜索多维空间以及其子空间的所有类利用了频繁项目集的概念提出了类的最小描述方法简介基本方法分区层次基于密度基于网格Clustering-CLIQUEd-demensionalspaceNumberofintervalsξunitselectivityofaunitdensitythresholdDenseunitClusterRegionmaximalregionminimaldescriptionofacluster简介基本方法分区层次基于密度基于网格Clustering-CLIQUEStep1FindingDenseUnit简介基本方法分区层次基于密度基于网格Clustering-CLIQUEStep2FormingClustersStep3DescribeClusters……简介基本方法分区层次基于密度基于网格
本文标题:华中科技大学人工智能-机器学习-聚类
链接地址:https://www.777doc.com/doc-4877560 .html