您好,欢迎访问三七文档
智能科学与技术系刘冀伟机器学习基础第一章绪论1主要参考书1、周志华,《机器学习》,清华大学出版社,20152、李航,《统计学习方法》,清华大学出版社,2012考核方式1、平时成绩-大作业-40%2、期末考试-闭卷-60%目录CONTENT123机器学习是什么基本概念模型评估与选择机器学习的发展和应用41.1机器学习是什么?机器学习基础-第一章绪论of45机器学习领域奠基人之一、美国工程院院士T.Mitchell教授在其经典教材《MachineLearning》中所给出的机器学习经典定义为“利用经验来改善计算机系统自身的性能”。系统对应于数据模型,如决策树、支持向量机等。经验对应于历史数据,如互联网数据、科学实验数据等。性能则是模型对新数据的处理能力,如分类和预测性能等。机器学习的根本任务是数据的智能分析与建模。61.1机器学习是什么?机器学习基础-第一章绪论of45机器学习主要是设计和分析让计算机可以自动“学习”的算法。学习算法是一类从数据中自动分析获得规律,利用规律对未知数据进行预测的算法。需要多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。71.1机器学习是什么?机器学习基础-第一章绪论of45例:经验收集归纳学习应用模型青绿、稍卷、浊响y=好or坏81.2机器学习的基本概念机器学习基础-第一章绪论of45问题域图像识别腐蚀预测温度预测交通状态标记空间输出空间标签预测值模型经验采集经验数据图像语音流量数据温度特征空间特征变量特征向量模板特征提取经验数据集合数据集合假设空间101.2机器学习的基本概念机器学习基础-第一章绪论of45一、特征空间选择一组变量描述问题性质,称为特征变量(属性),特征变量组成的向量称为特征向量,变量张成的空间称为特征空间(样本空间),变量的取值称为属性值。特征变量(属性)记为:xi,i=1、、d特征向量记为:1dxxx二、数据集合样本:特征空间(样本空间)中的一组示例。记为:D={x1、x2、、xm}标记空间:标签变量或预测变量的取值集合,记为:Y样例集合:特征向量与标签变量对集合,记为:D={(x1、y1)、(x2、y2)、、(xm、ym)}特征空间记为:G111.2机器学习的基本概念机器学习基础-第一章绪论of45学习(训练)数据:在训练过程中使用的数据称为训练数据,每一个样例称为训练样本,全体训练样本集合称为训练集(trainingset)。测试数据(testingdata):用于检测学习得到模型的数据称为检测数据,每一个样例称为检测样本,全体检测样本集合称为检测集(testingset)。三、学习的任务-y=f(x)分类:Y={1,2,3,},是离散值集合。二分类、多分类。回归:Y(01),是连续值集合,预测。聚类:没有Y的信息。有监督学习无监督学习强化学习Y的信息不完全泛化能力:学习的结果对新样本的适应能力,对样本空间的描述能力。121.2机器学习的基本概念机器学习基础-第一章绪论of45359四、假设空间(H)机器学习是通过数据集学得规律,是一个典型的归纳推理的过程,学习的结果是从样本空间到标记空间的一个映射,所有可能的映射的集合我们称为假设空间。机器学习的任务:求fH:f:GY,满足数据集合例:西瓜问题-假设色泽、根蒂和敲声完全决定西瓜的品质,我们可以用布尔表达式表达好瓜的概念。好瓜(色泽=?)∧(根蒂=?)∧(敲声=?)好瓜(色泽=青绿)∧(根蒂=卷缩)∧(敲声=浊响)引入通配符:*(色泽=*)∧(根蒂=卷缩)∧(敲声=浊响)131.2机器学习的基本概念机器学习基础-第一章绪论of45西瓜问题的所有布尔表达式表达:假设空间版本空间:假设空间的一个子集,与训练样例一致的所有假设的集合。141.2机器学习的基本概念机器学习基础-第一章绪论of45五、归纳偏好(奥卡姆剃刀、没有免费午餐)色泽=*;根蒂=卷缩;敲声=浊响色泽=*;根蒂=*;敲声=浊响色泽=*;根蒂=卷缩;敲声=*版本空间:中有多个假设,每一个假设都可以是我们学习获得的模型,应该使用那个模型?那个模型会更好?色泽=青绿;根蒂=卷缩;敲声=沉闷版本空间-假设2-好瓜但不满足假设1和假设3版本空间例矛盾!151.2机器学习的基本概念机器学习基础-第一章绪论of45以上两个例子给我们提出了新的问题-如何在版本空间获得模型?在机器学习算法学习的过程中对某种假设的偏好称为归纳偏好。奥卡姆剃刀(Occam’srazor):若多个假设与观察一致,选择最简单的那个。没有免费午餐定理(NFLNoFreeLunchTheorem):总误差与算法无关。,,oteaotebffELXfELXf具体问题具体分析16黑点训练样本白点测试样本机器学习基础-第一章绪论of45一、经验误差与过拟合错误率(errorrate):分类错误的样例数占样例总数的比例,即:E=a/m精度(accuracy):精度=1-错误率,即:acc=1-a/m过拟合(overfitting)与欠拟合(underfitting):导致学习器泛化功能下降的现象称为过拟合,相对的为欠拟合。误差(error):学习器的预测输出与样例的真实输出间的差异称为误差,在训练集上的误差称为训练误差(trainingerror)或经验误差(empiricalerror),在新样本上的误差称为泛化误差(generalizatiuonerror)。18机器学习基础-第一章绪论of45二、评估方法留出法(hold-out):直接将数据集D划分为两个互斥的集合,其中一个是训练集S,另一个为测试集T。即:D=ST;交叉验证法:(crossvalidation)19机器学习基础-第一章绪论of45自助法(bootstrapping):11lim10.368mmme调参与最终模型:20机器学习基础-第一章绪论of45对学习器的泛化性能评估需要评价标准,这就是性能度量(performancemeasure),如常用的均方误差(meansquarederror)2121()()()()()miiiiixDEfDfxymEfDfxypxdx;;三、性能度量1、错误率与精度:假设数据集D={(x1,y1),(x2,y2),,(xm,ym)},学习器为y=f(x)错误率(errorrate):分类错误的样例数占样例总数的比例精度(accuracy):精度=1-错误率11(,)(())miiiEfDfxym11(,)(())1(,)miiiaccfDfxyEfDm21机器学习基础-第一章绪论of452、查准率、查全率和F1:查准率(precision)TPPTPFP查全率(recall)TPRTPFN平衡点(Break-eventpoint)12PRFPR22(1+)(1+)PRFPR混淆矩阵(ConfusionMatrix)P-R曲线22机器学习基础-第一章绪论of45宏查准率、宏查全率和宏F1:有多个混淆矩阵时,我们可以在每个混淆矩阵上计算查准率、查全率和F1,得到:(P1,R1),(P2,R2),,(Pn,Rn),则有:11112;1nniiiimacroPmacroRmacroPPmacroRRmacroFnnmacroPmacroR;微查准率、微查全率和微F1:111111;11nniiiinniiiiTPTPFPFPnnFNFNTNTNnn;;21TPTPmicroPmicroRTPFPTPFNmicroPmicroRmacroFmicroPmicroR;23机器学习基础-第一章绪论of452、ROC与AUC:很多学习器的输出是连续值,然后通过一个实现给定的阈值构成分类器。ROC(ReceiverOperatingCharacteristic)受试者工作特征,二战时期雷达信号分析,六十年代开始用于心理学医学检测纵轴:真正例率TPTPRTPFN横轴:假正例率FPFPRTNFP111112miiiiiAUCxxyyAUC:ROC曲线下的面积24机器学习的发展和应用机器学习的发展和应用机器学习基础-第一章绪论of45机器学习是人工智能发展到一定阶段的必然产物。人工智能的几个发展阶段:二十世纪50~60年代-推理阶段-以模拟人类推理能力为研究的主流,这一时期的代表成果-Newell和Simon的LT和GPS-1975图灵奖;1970~1980-知识阶段-认为人类智能源于人类应用知识解决问题的能力,这一时期的代表工作费根鲍姆的专家系统-1994图灵奖。知识的获取困难-机器自己学习二十世纪50年代-IBM的A.Samuel的带有学习功能的美国跳棋;基于神经网络的连接主义,如感知机;基于逻辑表示的符号主义的学习技术,如:Winston的结构学习系统Michalski的基于逻辑的归纳学习系统Hunt的概念学习系统一、机器学习的兴起与发展26机器学习的发展和应用机器学习基础-第一章绪论of4527•机器学习是人工智能的一个分支,也是人工智能的一种实现方法。它从样本数据中学习得到知识和规律,然后用于实际的推断和决策。它和普通程序的一个显著区别是需要样本数据,是一种数据驱动的方法。•机器学习并不是人工智能一开始就采用的方法。人工智能的发展经历了逻辑推理,知识工程,机器学习三个阶段。•第一阶段的重点是逻辑推理,例如数学定理的证明。这类方法采用符号逻辑来模拟人的智能。•第二阶段的代表是专家系统,这类方法为各个领域的问题建立专家知识库,利用这些知识来完成推理和决策。如果要让人工智能做疾病诊断,那就要把医生的诊断知识建成一个库,然后用这些知识对病人进行判断。一、机器学习的兴起机器学习的发展和应用机器学习基础-第一章绪论of4528知识的获取困难-机器自己学习•机器学习这一名词以及其中某些方法可以追溯到1958年,甚至更早,但真正作为一门独立的学科要从1980年算起,在这一年诞生了第一届机器学习的学术会议和期刊。到目前为止,机器学习的发展经历了3个阶段:•1980年代正式成形期,不具备影响力。•1990-2010年代是蓬勃发展期,诞生了众多的理论和算法,真正走向了实用。•2012年之后是深度学习时期,深度学习技术诞生并急速发展,较好的解决了现阶段AI的一些重点问题,并带来了产业界的快速发展。机器学习的发展和应用机器学习基础-第一章绪论of4529线性回归:已知-数据集合(D):112212,,,,,,:;mmiidiiidDxyxyxyxxwherexRyRx假设空间(H):(),,,TdHffxWxbWxRbR求:W和bLogistic回归:使用回归的方法完成分类的任务101()0xDyfxxD11+zye机器学习的发展和应用机器学习基础-第一章绪论of4530已知-数据集合(D):11221212,,,,,,:;{,,,}mmiiidiiNDxyxyxyxxwherexxyY假设空间(H):先验概率分布P(ωi),类条件概率分布P(x|ωi)求判别函数:ωi=h(x)1(|)Px2()Pxx(|)iPx类条件概率1(|)Px2(|)Pxx2.04.06.08.00.1(|)iPx后验概率1()()()()()iiiciijpxPPxpxP贝叶斯决策理论朴素贝叶斯分类器机器学习的发展和应用机器学习基础-第一章绪论of4531•1980s:登上历史舞台:1980年机器学习作为一支独立的力量登上了历史舞台。在这之后的10年里出现了一些重要的方法和理论,典型的代表是:1980夏-在卡内基梅隆举行第一届机器学习研讨会(IWML);
本文标题:机器学习-1-绪论
链接地址:https://www.777doc.com/doc-3995556 .html