半监督学习简介

半监督学习前言半监督聚类半监督分类OUTLINE2010/10/282机器学习的目的：h:Y=h(X)(X,Y):训练样本空间Y空集（未知）——无监督学习全部已知——有监督学习只给了一部分——半监督学习三种机器学习-12010/10/283有监督学习从已标注数据中学习无监督学习从未标注数据中学习半监督学习从少量标注数据和大量未标注数据中学习三种机器学习-22010/10/284有监督——分类训练集，带标注数据训练过程：得一模型（分类器）预测：用得到分类器对新样例分类无监督——聚类相似个体聚集为一类最小化类内的距离最大化类间的距离三种机器学习-32010/10/285分类过程2010/10/286聚类过程2010/10/287结合少量标注数据和大量未标注数据半监督分类在少量标注数据上训练开拓大量未标注的数据不断迭代，最终得到一个更为精确的分类器利用未标注数据，目标是分类半监督聚类利用少量标注数据来帮助在未标注数据上的聚类利用标注数据作为约束，目标是聚类半监督学习2010/10/288大规模的标注数据代价昂贵常常需要人工标注耗时未标注数据很容易获得领域标注数据一般都是针对某个特定领域，换个领域就不适用了为什么要利用未标注数据2010/10/289输入未标注对象集，每个对象由一个特征集来描述输出K个聚类的划分目标最小化类内相似度，最大化类间相似度高内聚，低耦合半监督分类2010/10/2810半监督K-Means标签传播LP2010/10/2811半监督分类SeededK-Means用已标注数据初始化各个聚类的中心，以后的过程中，已标注数据的标签信息可以改变ConstrainedK-Means已标注数据初始化各个聚类的中心，以后的过程中，已标注数据的标签信息不得改变半监督K-MEANS2010/10/28121随机选取k个样例，作为聚类的中心2对剩下的n-k个样例计算与k个中心的相似度，将其归于相似度最大的中心的那个聚类3重新计算各个聚类的中心4重复2、3步骤直至收敛一般的K-MEANS2010/10/2813SEEDEDK-MEANS2010/10/2814SEEDEDK-MEANS例子-12010/10/2815SEEDEDK-MEANS例子-22010/10/2816SEEDEDK-MEANS例子-32010/10/2817SEEDEDK-MEANS例子-42010/10/2818SEEDEDK-MEANS例子-52010/10/2819CONSTRAINEDK-MEANS2010/10/2820CONSTRAINEDK-MEANS例子-12010/10/2821CONSTRAINEDK-MEANS例子-22010/10/2822CONSTRAINEDK-MEANS例子-32010/10/2823CONSTRAINEDK-MEANS例子-42010/10/2824CONSTRAINEDK-MEANS例子-52010/10/2825CONSTRAINEDK-MEANS例子-62010/10/2826CONSTRAINEDK-MEANS例子-72010/10/2827COPK-MEANS2010/10/2828Seeded与ConstrainedK-Means：部分标注数据COPK-Means：约束（Must-link和Connot-link）Constrained和COPK-Means要求所有的约束都要满足种子中如果包含了噪音，这种方法将不那么有效SeededK-Means只是在第一步中使用种子得到各个聚类的中心对种子中的噪音不敏感实验结果表明半监督的K-Means优于传统的K-Means比较2010/10/2829标签传播LabelPropagation假设：相似度越高的样例越有可能属于同一类建立一个图结点：所有的样例（标注+未标注）通过图中的边传递标签信息不同的边有不同的权值，权值越大的边越容易传递标签信息标签传播2010/10/2830图中每个结点代表一个样例计算这个样例之间的相似度wij图中两个样例有标签，其他都没有怎样预测未标注结点的标签，借助于图？示例-12010/10/2831示例-22010/10/2832示例-32010/10/2833标签传播-12010/10/2834标签传播-22010/10/2835标签传播-32010/10/2836标签传播-42010/10/2837利用少量标注数据来标注大量未标注数据相似的样例有相同的的类标签半监督分类2010/10/2838问题描述-12010/10/2839问题描述-22010/10/2840问题描述-32010/10/2841BootstrappingCo-training半监督分类的几种算法2010/10/2842最早的，也是最简单的也称作：self-teaching或self-trainingBOOTSTRAPPING2010/10/2843描述2010/10/2844SELF-TRAINING过程2010/10/2845在一些情况下所得到的数据特征是冗余的，我们可以在这些相对独立的特征集上训练得到两个或者更多的分类器所得到的两个分类器接受对每个样例的分类这样，我们可以利用未标注数据来约束两个分类器的训练过程CO-TRAINING2010/10/2846示例-12010/10/2847示例-22010/10/2848示例-32010/10/2849CO-TRAINING过程-12010/10/2850CO-TRAINING过程-22010/10/2851条件独立2010/10/2852CO-TRAINING过程2010/10/2853示例-12010/10/2854示例-22010/10/2855示例-32010/10/2856示例-42010/10/2857改进2010/10/2858怎样去训练每个分类器2010/10/2859INTUITIONBEHINDCO-TRAINING2010/10/2860半监督EMTransductiveSVM更多的半监督分类2010/10/28612010/10/2862Anyquestions？

半监督学习简介

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

莱芜钢铁股份有限公司客户关系管理模式研究

第三章机械创新设计的技术基础

蓝天白云草地放风筝ppt模板

谭为跃第六章旅游消费及其效果2

国际商务酒店

抽样调查10

大型地块桩基前期策划20170701

中国企业利基化生存手册(1)

惠州TCL金能电池有限公司质量手册

12项目重大危险源控制措施

相关文档

相关搜索

半监督学习简介

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

莱芜钢铁股份有限公司客户关系管理模式研究

第三章 机械创新设计的技术基础

蓝天白云草地放风筝ppt模板

谭为跃第六章旅游消费及其效果2

国际商务酒店

抽样调查10

大型地块桩基前期策划20170701

中国企业利基化生存手册(1)

惠州TCL金能电池有限公司质量手册

12项目重大危险源控制措施

相关文档

相关搜索

第三章机械创新设计的技术基础