您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业文化 > 第10章-聚类与集成算法-图文
10.聚类与集成算法聚类(Clustering)在“无监督学习”任务中研究最多、应用最广目标:将数据样本划分为若干个通常不相交的“簇”(cluster)既可以作为一个单独过程(用于找寻数据内在的分布结构)也可作为分类等其他学习任务的前驱过程性能度量聚类性能度量,亦称聚类“有效性指标”(validityindex)外部指标(externalindex)将聚类结果与某个“参考模型”(referencemodel)进行比较如Jaccard系数,FM指数,Rand指数内部指标(internalindex)直接考察聚类结果而不用任何参考模型如DB指数,Dunn指数等基本想法:•“簇内相似度”(intra-clustersimilarity)高,且•“簇间相似度”(inter-clustersimilarity)低距离计算距离度量(distancemetric)需满足的基本性质:常用距离形式:闵可夫斯基距离(Minkowskidistance)p=2:欧氏距离(Euclideandistance)p=1:曼哈顿距离(Manhattandistance)距离计算(续)对无序(non-ordinal)属性,可使用VDM(ValueDifferenceMetric)令表示属性u上取值为a的样本数,表示在第i个样本簇中在属性u上取值为a的样本数,k为样本簇数,则属性u上两个离散值a与b之间的VDM距离为对混合属性,可使用MinkovDM必须记住聚类的“好坏”不存在绝对标准thegoodnessofclusteringdependsontheopinionoftheuser故事一则聚类的故事:老师拿来苹果和梨,让小朋友分成两份。小明把大苹果大梨放一起,小个头的放一起,老师点头,恩,体量感。小芳把红苹果挑出来,剩下的放一起,老师点头,颜色感。小武的结果?不明白。小武掏出眼镜:最新款,能看到水果里有几个籽,左边这堆单数,右边双数。老师很高兴:新的聚类算法诞生了聚类也许是机器学习中“新算法”出现最多、最快的领域总能找到一个新的“标准”,使以往算法对它无能为力常见聚类方法原型聚类••••亦称“基于原型的聚类”(prototype-basedclustering)假设:聚类结构能通过一组原型刻画过程:先对原型初始化,然后对原型进行迭代更新求解代表:k均值聚类,学习向量量化(LVQ),高斯混合聚类密度聚类••••亦称“基于密度的聚类”(density-basedclustering)假设:聚类结构能通过样本分布的紧密程度确定过程:从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇代表:DBSCAN,OPTICS,DENCLUE层次聚类(hierarchicalclustering)•••假设:能够产生不同粒度的聚类结果过程:在不同层次对数据集进行划分,从而形成树形的聚类结构代表:AGNES(自底向上),DIANA(自顶向下)k-means每个簇以该簇中所有样本点的“均值”表示Step1:随机选取k个样本点作为簇中心Step2:将其他样本点根据其与簇中心的距离,划分给最近的簇Step3:更新各簇的均值向量,将其作为新的簇中心Step4:若所有簇中心未发生改变,则停止;否则执行Step2若不以均值向量为原型,而是以距离它最近的样本点为原型,则得到k-medoids算法高斯混合聚类(GausianMixtureClustering,GMM)•根据定义的先验分布选择高斯混合成分,其中为选择第i个混合成分的概率;•然后,根据被选择的混合成分的概率密度函数进行采样,从而生成相应的样本采用概率模型来表达聚类原型n维样本空间中的随机向量x若服从高斯分布,则其概率密度函数为假设样本由下面这个高斯混合分布生成:生成式模型高斯混合聚类(续)样本xj由第i个高斯混合成分生成的后验概率为:简记为参数估计可采用极大似然法,考虑最大化对数似然EM算法:•(E步)根据当前参数计算每个样本属于每个高斯成分的后验概率•(M步)更新模型参数集成学习(Ensemblelearning)集成学习通过构建并结合多个学习器来完成学习任务…...Problem…...ProblemLearnerLearnerLearnerLearner同质(homogeneous)集成:集成中只包含同种类型的“个体学习器”相应的学习算法称为“基学习算法”(baselearningalgorithm)个体学习器亦称“基学习器”(baselearner)异质(heterogeneous)集成:个体学习器由不同的学习算法生成不存在“基学习算法”WhyEnsemble?集成的泛化性能通常显著优于单个学习器的泛化性能一组神经网络的平均性能选择最优神经网络两种简单的神经网络集成方法一个观察:误差(曲线越低越好)[Hansen&Salamon,TPAMI90]令个体学习器“好而不同”如何得到好的集成?想获胜,用集成现实各类机器学习、数据挖掘应用中,广泛使用集成学习技术很多成功的集成学习方法序列化方法[Freund&Schapire,JCSS97][Friedman,AnnStat01][Demiriz,Bennett,Shawe-Taylor,MLJ06]•AdaBoost•GradientBoost•LPBoost•……并行化方法[Breiman,MLJ96][Breiman,MLJ01][Ho,TPAMI98]•Bagging•RandomForest•RandomSubspace•……Dataset1Dataset2DatasetTLearner1Learner2LearnerT…...…...…...byLearner1willplaymoreimportantrolesinthetrainingofLearner2weightedcombinationOriginaltrainingsetBoosting:AflowchartillustrationtraininginstancesthatarewronglypredictedBaggingDataset0Dataset1Dataset2Datasetn…...…...…...bootstrapasetoflearnersgeneratemanydatasetsfromtheoriginaldatasetthroughbootstrapsampling(randomsamplingwithreplacement),thentrainanindividuallearnerperdatasetaveragingforregressiontheoutputistheaverageoutputoftheindividuallearnersvotingforclassificationtheoutputistheclasslabelreceivingthemostnumberofvotesLearner1Learner2Learnern学习器结合常用结合方法:投票法•绝对多数投票法•相对多数投票法•加权投票法平均法•简单平均法•加权平均法学习法Stacking多样性“多样性”(diversity)是集成学习的关键(error-ambiguitydecomposition):误差-分歧分解多样性度量一般通过两分类器的预测结果列联表定义••••不合度量(disagreementmeasure)相关系数(correlationcoefficient)Q-统计量(Q-statistic)κ-统计量(κ-statistic)•……κ-误差图每一对分类器作为图中的一个点多样性增强常用策略数据样本扰动•例如Adaboost使用重要性采样、Bagging使用自助采样•注意:对“不稳定基学习器”(如决策树、神经网络等)很有效不适用于“稳定基学习器”(如线性分类器、SVM、朴素贝叶斯等)输入属性扰动•例如随机子空间(RandomSubspace)输出表示扰动•例如输出标记随机翻转、分类转回归、ECOC算法参数扰动“越多越好”?选择性集成(selectiveensemble):给定一组个体学习器,从中选择一部分来构建集成,经常会比使用所有个体学习器更好(更小的存储/时间开销,更强的泛化性能)ProblemLearner…...Learner…...Learner集成修剪(ensemblepruning)[Margineantu&Dietterich,ICML’97]较早出现,针对序列型集成减小集成规模、降低泛化性能选择性集成[Zhou,etal,AIJ02]稍晚,针对并行型集成,MCBTA(Manycouldbebetterthanall)定理减小集成规模、增强泛化性能目前“集成修剪”与“选择性集成”基本被视为同义词选择过程需考虑个体性能与多样性/互补性仅选出“精度最高的”通常不好!Z.-H.Zhou.EnsembleMethods:FoundationsandAlgorithms,BocaRaton,FL:Chapman&Hall/CRC,Jun.2012.(ISBN978-1-439-830031)更多关于集成学习的内容,可参考:
本文标题:第10章-聚类与集成算法-图文
链接地址:https://www.777doc.com/doc-5691034 .html