您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 机器学习基本算法介绍(提交版)
主讲人weibo罗青@小青青_Lo机器学习与数据挖掘基本算法介绍sina1234监督学习模型算法模型检验和评估优化算法数据筛选与预处理监督学习算法算法原理代码应用1234神经网络决策树贝叶斯SVM优缺点学习系统两大步骤:获取经验和学以致用学习系统模型应对外部环境的刺激输入,在实践的过程中不断学习,获取经验知识,并且运用我们所学到的经验知识指导我们日常生活实践,通过实践效果的反馈,也就是在实践过程中获得经验教训,从而不断更新我们的阅历知识,在以后的生活中,将自己的经验知识学以致用。监督学习模型分类器/学习器特征向量输出结果目标向量比较差距反馈更新知识输入输出以鸿翔买西瓜为例样本:西瓜输入:特征向量(大小、色泽、声响、产地)输出:甜不甜,水分多不多判断西瓜好坏依据:以往买西瓜的经验教训训练数据:特征向量目标向量测试数据:特征向量输出向量神经网络拓扑结构图x1y1输出层(k)隐藏层(j)输入层(i)xiykymxn…………ojo1op…输入:特征向量(x1,x2,…xi,…xn)输出:结果向量(y1,y2,…yk,…ym)BP神经网络环境实践学习知识库执行与评价输入向量网络权阵结点阈值输出向量目标向量误差改正激励函数训练二值函数S形函数双曲正切函数更新知识库返回重新实践学习学习模型——获取知识(经验方法)神经网络模型——获取知识(经验方法)输入层隐含层输出层神经网络应用实例—图像分类航空影像图分类结果图输入特征向量:第i分量表示样本多边形第i波段的平均灰度值(RGB)(R1,G1,B1)(R2,G2,B2)(R3,G3,B3)…(Rn,Gn,Bn)---特征向量输出向量:第k分量表示样本多边形属于第k类的概率(1,0,0,0)(0,1,0,0)(1,0,0,0)---训练样本目标向量(0.5,0.2,0.6,0.3)(0.13,0.88,0.12,0.4)---测试样本实际输出神经网络应用实例---新闻分组主题关键词体育球类、比赛、NBA、国足、超级丹…娱乐八卦、狗仔、绯闻、时尚、电影…财经股票、牛市、开盘、银行、通货膨胀…女性美容、瘦身、家居、感情、育儿…输入特征向量:每一个关键词在文中出现频次组成特征向量(23,18,20,30,10,0,4,2,3,….)输出向量:第k个分量是新闻稿属于第k个主题的概率训练目标向量:(1,0,0,0)实际输出:(0.5,0.6,0.7,0.2)BP神经网络代码实现决策树应用实例---给高鑫找对象性别年龄长相品性NO女男NO90后非90后NONOYES漂亮一般良好一般决策树算法算法思想–寻找合适变量,使得拆分的两个数据集合在混杂程度上能够尽可能小。熵–意义:描述集合的混杂度–公式:entropy=𝑝𝑖𝑙𝑜𝑔2𝑝𝑖𝑛𝑖=1信息增益–意义:当前熵与两个新群组经加权平均后的熵之间的差值。–公式:gain=ent-entleft∗𝑃+entright∗(1−𝑃)决策树代码[性别,年龄,长相,品性]A[女,20,良好,一般]yesB[女,24,漂亮,良好]yesC[女,26,一般,良好]noD[女,28,漂亮,良好]noE[男,22,漂亮,良好]no贝叶斯---以疾病诊断为例贝叶斯公式P(A|B)=P(A)P(B|A)/P(B)P(Disease|Symptom)=P(Disease)*P(Symptom|Disease)/P(Symptom)先验概率根据以往的经验和分析得到的概率患病概率P(Disease)和显现某种症状P(Symptom)通过统计病例库获得后验概率得到“结果”的信息后重新修正的概率P(Symptom|Disease)通过统计确诊病例库患某种病显现某种症状的概率获得前提假设(朴素贝叶斯)各个特征之间应该是相互独立的如果疾病1显现症状A时,很大可能显现症状B,则症状AB之间就是相互依赖的关系。朴素贝叶斯—垃圾邮件过滤问题描述–给定一封邮件,判定它是否属于垃圾邮件–前提假设:各单词之间相互独立公式推导–P(h+|D)=P(h+)*P(D|h+)/P(D)–P(h-|D)=P(h-)*P(D|h-)/P(D)–P(D|h+)=P(d1,d2,..,dn|h+)–P(D|h+)=P(d1|h+)*P(d2|d1,h+)*P(d3|d2,d1,h+)*..–P(D|h+)=P(d1|h+)*P(d2|h+)*P(d3|h+)*..–P(di|h+)为单词di在垃圾邮件中出现的频率支持向量机--SVM基本原理—通过一些支持向量(H1、H2上的点数据)确定一个分类平面H,使得数据分成两类,甚至多类。优点---适用小样本,高维特征数据分类各监督学习算法比较贝叶斯决策树神经网络SVM是否支持增量式学习支持不支持支持不支持黑盒or白盒解析性好解析性好黑盒黑盒抗噪性较好较好较好不好能否能进行特征组合不能较好不能较好能能能否处理特征间的依赖关系不能较好能较好可以可以线性or非线性非线性线性非线性非线性时间效率快较快慢慢空间效率一般较多一般一般最大优势高效率,具有一定解析性具有解析性处理复杂非线性问题,不需要了解内部机制支持小样本,高维以及非线性最大缺陷无法处理基于特征组合所产生的变化结果不适合大规模数据训练时间长,连接权重难以解释,在参数设置方面没有明确的规则可参照对于核函数的选择没有明确规则可参照对于噪声数据敏感适用情况大样本且需要了解内部机制数据规模不大且需要了解内部机制大样本且内部系统结构未知大样本且内部系统结构未知模型检验评估交叉验证–方法:将已知类别信息的样本数据分为k份,k-1份用来作为训练样本数据训练出模型,一份作为测试数据测试模型的好坏–检测指标:分类准确率、混淆矩阵、kappa系数等A/B测试–方法:建立一个测试页面,测试页面与原有页面前端相似,但是后端测试页面采用新的推荐算法,而原有页面没有推荐算法或是旧算法–检测指标:点击率,转化率等非监督学习物以类聚,人以群分–描述聚类点:特征向量–相似性衡量:欧式距离法、皮尔逊相关系数法–聚类法则:Kmeans,系统聚类舞会party的抱团–特征向量:每个人的喜好向量–欧式距离:喜好向量的欧式距离–聚类法则:kmeans优化算法数学模型{x|minfx,x∈D}在解空间D中寻找使得f(x)值最小的x。主要步骤–描述题解–目标函数–搜索题解搜索策略穷尽搜索启发式搜索基本搜索思想遍历解空间中所有的可能解沿着使成本变小的方向进行搜索具体实例灰度图像二值化(OSTU)算法在[0,255]区间寻找最佳阈值贪心算法和动态规划随机搜索,爬山法,A*搜索,模拟退火,进化计算(遗传算法,群体智能,如蚁群算法)优点算法简单,能保证得到最优解算法能很快得到结果一般能得到最优解缺点时间复杂度高,效率低下容易陷入局部最优,可能得不到全局最优解算法相对复杂改进方法及适用情况穷尽搜索一般适用于解空间范围较小的情况,如灰度图像(8bit图)取值范围为[0,255]随机重复爬山法最适合者+最幸运者群体智能优化算法搜索策略比较优化举例—图像二值化问题描述将一副灰度图像分为前景和背景的黑白图像描述题解灰度取值为[0,255]的整数值目标函数f(g)=类内方差/类间方差类间方差越大,类内方差越小,目标函数值越小,其分割的前景和背景对比度越大,二分图像质量越好。搜索策略穷举[0,255],或者按照进化计算,蚁群算法等遗传进化创建随机物种计算适应度并排序选择优秀物种基因交叉、变异新物种更新全局最佳物种繁衍代数是否满足要求结束是否遗传进化实例—大学聚会安排最优出行方案问题描述大学同学回长沙聚会,为大家安排时间成本和金钱花销最少的车次序列描述题解假设每个同学从出发点到长沙都有6趟的车次。编号为0,1,2,3,4,5所有同学车次序列:10345253(基因片段,其长度为人数)目标函数F(x)=a*价格+b*旅行时间+c*等待时间+d*(出发时间-12)a+b+c+d=1搜索策略选择、交叉、变异有效数据才是王道---数据预处理数据抽样–样本量足够–无偏–样本数据能反映总体数据数据整理–清除无效数据,使其噪音小–图像去噪增强处理,高分影像分类的多尺度分割–文本分类的分词以及关键词筛选特征提取–针对具体应用,抽取能反映样本的本质特征–图像处理最主要是颜色信息,其次是形状信息–文本处理一般以关键词的频次,距离作为特征Review---knowhowtouse•机器学习系统模型•监督学习的输入输出•各种算法的优缺点和适应场景•算法模型的评价和验证•数据的筛选和解读Questions•机器学习系统主要的维度有哪几个?•机器学习系统有效最关键的步骤是什么?•机器学习的主要步骤是什么?•少量粗糙的数据+复杂的算法?•大量有效的数据+简单的算法?•如何进行数据筛选?•如何进行数据的解读?•机器学习在web应用中最关键的是什么?•机器学习相关应用存在的机遇和挑战,比如推荐系统存在的困境?•机器学习基本算法介绍笔记•非码农也能看懂的机器学习•神经网络---空间信息智能处理•决策树----集体智慧编程•数学之美番外篇:平凡而又神奇的贝叶斯方法•支持向量机详细讲解•如何做好「推荐算法」?有哪些常见的错误需要避免?参考资料集体智慧编程TobySegaran机器学习(美)TomMitchell谢谢Q&A,敬请各位批评指正!
本文标题:机器学习基本算法介绍(提交版)
链接地址:https://www.777doc.com/doc-1437338 .html