您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 招聘面试 > 培乐园-机器学习公开课讲义
机器学习入门蒋龙2012年8月12日Outline一、机器学习基础二、朴素贝叶斯分类及应用三、机器学习与自然语言处理课程•计算机自动从数据中发现规律,并应用于解决新问题–给定数据(X1,Y1),(X2,Y2),…,(Xn,Yn),机器自动学习X和Y之间的关系,从而对新的Xi,能够预测Yi•垃圾邮件识别:(邮件1,垃圾),(邮件2,正常),(邮件3,垃圾),…(邮件N,正常)•邮件X=垃圾or正常?–从输入规则到输入数据–从机器执行到机器决策什么是机器学习基于规则的问题解决框架测试数据发现规律预测预测结果规则邮件XiYi:垃圾or正常1.发件人邮件地址异常;2.标题含有“低价促销”3.…机器学习执行框架训练数据测试数据学习预测预测结果模型训练过程应用过程(X1,Y1)(X2,Y2)…(Xn,Yn)XiYi•1,8,27,64,?–125–f(n)=n^3•1,3,6,10,?–15–f(n)=f(n-1)+n–f(n)=(n^2+n)/2智商测试1,3,6,10,?151,8,27,64,?125•假设构造––f(n)=n^3•K=3,a1=1,a2,…,ak,b=0–f(n)=(n^2+n)/2•K=2,a1=1/2,a2=1/2,a3,..,ak,b=0bnanananfkkk...)(121发现规律的过程模型(族)参数参数参数参数估计•假设选择–确定策略(目标):准确解释已知数据•f(1)=1,f(2)=3,f(3)=6,f(4)=10–模型训练:确定模型参数•调整参数的值以满足策略•需要优化算法•K=2,a1=1/2,a2=1/2,a3,..,ak,b=0•=f(n)=(n^2+n)/2发现规律的过程bnanananfkkk...)(121•模型–问题的影响因素(特征)有哪些?它们之间的关系如何?•策略–什么样的模型是好的模型•算法–如何高效的找到最优参数机器学习三要素•又一道智商测试:•6,34,102,228,?f(n)=3*n^3+2*n^2+n为什么需要机器学习•计算能力–大数据,快速•信息交换能力强•不受情绪影响•应用–人机对弈–天气预测–图象处理–语音识别–自然语言处理为什么需要机器学习•监督学习–给定数据(X1,Y1),(X2,Y2),…,(Xn,Yn)–对新的Xi,预测其Yi–分类,回归•非监督学习–给定数据X1,X2,…,Xn–f(Xi),f(Xi,Xj)–概率估计,降维,聚类监督VS非监督•什么是机器学习•机器学习的执行框架•学习过程的阶段•机器学习三要素•监督学习与非监督学习小结Outline一、机器学习基础二、朴素贝叶斯分类及应用三、机器学习与自然语言处理课程•最常见的机器学习任务•定义:给定一个对象X,将其划分到预定义好的某一个类别yi中–输入X–输出Y(取值于有限集{y1,y2,…yn})•应用:–人群,新闻分类,Query分类,商品分类,网页分类,垃圾邮件过滤,网页排序分类•类别数量–二值分类•Y的取值只有两种,如:email是否垃圾邮件–多值分类•Y的取值大于两个,如:网页分类{政治,经济,体育,…}•类别关系–水平分类•类别之间无包含关系–层级分类•类别形成等级体系手机智能手机安卓系统Windows…普通手机不同类型的分类新闻分类•任务–为任一新闻,例如{股市,反弹,有力,基金,建仓,加速…}–指定其类别={军事,财经,科技,生活…}•基于规则的方式–列举每个类别的常用词•军事:导弹,军舰,军费,。。。•科技:云计算,siri,移动互联网,。。。–问题•如果保证列举全?•冲突如何处理?苹果:科技?生活?•不同的词有不同的重要度,如何决定?•如果类别很多怎么办?新闻分类•新闻分类•特征表示:X={昨日,是,国内,投资,市场…}•特征选择:X={国内,投资,市场…}•模型选择:朴素贝叶斯分类器•训练数据准备:(X,Y)1,(X,Y)2,(X,Y)3,…•模型训练:learn.exetrainingDataFilemodel•预测(分类):classify.exemodelnewDataFile•评测:Accuracy:90%分类任务解决流程•朴素贝叶斯(NaïveBeyes,NB)分类器–概率模型–基于贝叶斯原理•P(X):待分类对象自身的概率,可忽略•P(yi):每个类别的先验概率,如P(军事)•P(X|yi):每个类别产生该对象的概率•P(xi|yi):每个类别产生该特征的概率,如P(苹果|科技))()|()()()()|()|(XPyxPyPXPyPyXPXyPjijiiii朴素贝叶斯分类•策略:最大似然估计(maximumlikelihoodestimation,MLE)–P(Yi)•Count(yi):类别为yi的对象在训练数据中出现的次数–例如:•总共训练数据1000篇,其中军事类300篇,科技类240篇,生活类140篇,….•P(军事)=0.3,p(科技)=0.24,p(生活)=0.14,…kkiiyCountyCountyP)()()(模型训练/参数估计•最大似然估计(maximumlikelihoodestimation,MLE)–P(xj|yi)•Count(xj,yi):特征xj和类别yi在训练数据中同时出现的次数–例如:•总共训练数据1000篇,其中军事类300篇,科技类240篇,生活类140篇,….•军事类新闻中,谷歌出现15次,投资出现9次,上涨出现36次•P(谷歌|军事)=0.05,p(投资|军事)=0.03,p(上涨|军事)=0.12…模型训练/参数估计)(),()|(iijijyCountyxCountyxP•P(yi)–P(军事)=0.3,p(科技)=0.24,p(生活)=0.14,…•P(xi|yi)–P(谷歌|军事)=0.05,p(投资|军事)=0.03,p(上涨|军事)=0.12…–P(谷歌|科技)=0.15,p(投资|科技)=0.10,p(上涨|科技)=0.04…–P(谷歌|生活)=0.08,p(投资|生活)=0.13,p(上涨|生活)=0.18…–….模型示例)()|()()()()|()|(XPyxPyPXPyPyXPXyPjijiiii•分类原则–给定X,计算所有的p(yi|X),选择概率值最大的yi作为输出•X={国内,投资,市场…}•P(军事|X)=P(国内|军事)*p(投资|军事)*p(市场|军事)…p(军事)•同样计算P(科技|X)P(生活|X)…–二值和多值分类同样的做法预测)()|()()()()|()|(XPyxPyPXPyPyXPXyPjijiiii•测试数据–(微软更新必应搜索,科技)–(安街首名企精装直降30万,房产)–(国际板利空突袭周一大盘堪忧,财经)–…•混淆表混淆表(confusiontable)分类器预测的类别y1y2实际的类别y1C11C12y2C21C22评测–准确度Accuracy:(C11+C22)/(C11+C12+C21+C22)–精确率Precision(y1):C11/(C11+C21)–召回率Recall(y1):C11/(C11+C12)混淆表(confusiontable)分类器预测的类别y1y2实际的类别y1C11C12y2C21C22评测指标–准确度Accuracy:(50+35)/(35+5+10+50)=85%–精确率Precision(军事):50/(50+5)=90.9%–召回率Recall(军事):50/(50+10)=83.3%混淆表(confusiontable)分类器预测的类别军事科技实际的类别军事(60)5010科技(40)535评测指标•优点–简单有效–结果是概率,对二值和多值同样适用•缺点–独立性假设有时不合理–=最大熵分类朴素贝叶斯分类特点•什么是分类?类型有哪些?•机器学习处理分类问题的步骤•朴素贝叶斯分类–模型,策略,方法•分类问题评测小结Outline一、机器学习基础二、朴素贝叶斯分类及应用三、机器学习与自然语言处理课程分类回归图模型聚类排序机器学习与自然语言处理课程介绍•理论内容–分类问题概述(特点,实例,评测)–朴素贝叶斯分类–SVM分类–特征选择•实训:–文本分类应用(新闻分类/Query分类),分别用朴素贝叶斯方法,SVM方法完成分类算法及应用•理论内容–回归问题概述(特点,评测)–线性回归–逻辑回归•实训:–广告点击率预估应用(逻辑回归)回归模型•谷歌,百度的主要收入来源广告广告搜索广告•理论内容–马尔科夫模型–语言模型–隐马尔科夫模型•实训:–中文分词应用–Query拼写纠错图模型及应用Query拼写纠错Query拼写纠错•理论内容–聚类问题概述(特点,评测)–层级聚类与K均值聚类–混合高斯模型与EM算法•实训–文本聚类应用(层级聚类和K均值聚类)聚类算法及应用Query聚类•理论内容–关联规则挖掘概述–Apriori算法•实训–电子商务中的商品推荐关联挖掘技术•理论内容–排序问题及应用(特点,评测)–Learningtorank•point-wise方法•pair-wise方法•实训–网页搜索排序(point-wise和pair-wise方法)排序技术•搜索引擎网页排序网页库排序总结一、机器学习基础二、朴素贝叶斯分类及应用三、机器学习与自然语言处理课程谢谢
本文标题:培乐园-机器学习公开课讲义
链接地址:https://www.777doc.com/doc-4253940 .html