您好,欢迎访问三七文档
数据挖掘中的新方法——支持向量机(SVM)©Allrightsreserved小组成员:李博、孟睿、余婷婷1、SVM相关简介1.1SVM定义及特点1.2VSM与文本分类方法的结合1.3主流文本分类方法1.4SVM分类思路1.1SVM定义及特点支持向量机(SupportVectorMachines,简称SVM)是近年来在统计学习理论的基础上发展起来的一种新的模式识别方法,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。由于其出色的学习性能,该技术在很多领域都得到了成功的应用:如人脸检测、手写体数字识别、文本自动分类等。1.1SVM定义及特点1.1SVM定义及特点1.1SVM定义及特点SVM是一种开创性的影响较大的机器学习方法,SVM分类算法具有4个显著特点:1)利用大间隔的思想降低分类器的VC维,实现结构风险最小化原则,控制分类器的推广能力;2)利用Mercer核实现线性算法的非线性化;3)稀疏性,即少量样本(支持向量)的系数不为零,就推广性而言,较少的支持向量数在统计意义上对应好的推广能力,从计算角度看,支持向量减少了核形式判别式的计算量;4)算法设计成凸二次规划问题,避免了多解性。1.1SVM定义及特点SVM分类方法四大特点:1.小样本2.非线性3.泛化性4.高维处理1.2VSM与文本分类方法的结合SVM两大基础结构:1.VSM模型2.最小化置信风险风险(VC)=经验风险+置信风险1.3主流文本分类方法给定训练集如下:第1类={第1篇,第2篇…第10篇}第2类={第1篇,第2篇…第10篇}。。。第10类={第1篇,第2篇…第10篇}1.3主流文本分类方法1.Rocchio方法第1类的标准=(第1篇,第2篇…第10篇)/10第2类的标准=(第1篇,第2篇…第10篇)/10。。。第10类的标准=(第1篇,第2篇…第10篇)/102.KNN方法3.朴素贝叶斯算法1.4SVM分类思路2.1平分最近点法2.2最大间隔法2.3二者比较及对偶问题2.4常用通解2、SVM基本数学原理2.1平分最近点法2.1平分最近点法2.1平分最近点法2.2最大间隔法2.2最大间隔法2.3二者比较及对偶问题平分最近点法:最大间隔法:2.4常用通解3.1推广平分最近点法3.2推广最大间隔法3.3松弛变量及惩罚因子3.4更加常用表达式3、SVM基本方法扩展3.1推广平分最近点法3.1推广平分最近点法3.1推广平分最近点法3.2推广最大间隔法3.2推广最大间隔法3.3松弛变量及惩罚因子偏斜问题3.3松弛变量及惩罚因子3.4更加常用表达式4.1线性不可分举例4.2复杂的线性不可分问题4.3构造核函数4.4核函数的构造方法4、线性不可分问题4.1线性不可分举例线性可分问题4.1线性不可分举例近似线性可分问题4.1线性不可分举例实质线性不可分问题4.1线性不可分举例4.2复杂的线性不可分问题映射:4.2复杂的线性不可分问题4.2复杂的线性不可分问题4.3构造核函数4.4核函数的构造方法常用的核函数主要有:5.1两类分类器5.2多类分类器5.3相关应用5、SVM分类器SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别。5.1两类分类器5.2多类分类器5.2多类分类器“一类对其余”方法“一对一”方法例:现有1,2,3,4,5五个类的情况5.2多类分类器DAGSVM:关于SVM:《SVM通俗入门》《核空间中的平分最近点法与模糊支持向量机》《数据挖掘中的新方法——支持向量机》关于文本分类:《文本分类入门》关于自然语言处理:《数学之美——谷歌黑板报》六、参考及推荐文献Thankyouforyourtime!
本文标题:SVM总结
链接地址:https://www.777doc.com/doc-6236855 .html