您好,欢迎访问三七文档
机器学习是怎样的学科:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。机器学习主要分为两大类:监督学习、非监督学、强化学习(AlphaGo)、半监督学习。机器学习所要研究的主要内容是关于计算机在从数据中产生“模型”的算法,即“学习算法”。(有了学习算法,我们把经验提供给它,他就能基于这些数据产生模型)。学习的特点:数据驱动,以方法为中心,概率统计优化为基础。从数据中学得模型的过程称为“学习”或“训练”,这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为“训练数据”,每一个样本称为“训练样本”,训练样本组成的集合称为“训练集”。三要素:模型、策略、算法。学得模型后,使用其进行预测得过程称为“测试”。被测样本称为“测试样本”。机器学习的目标是使学得的模型能很好地适用于“新样本”。独立同分布学得模型适用于新样本的能力,称为“泛化”能力。具有强泛化能力的模型能很好地适用于整个样本空间。“奥卡姆剃刀”原则,是一种常用地、自然科学研究中最基础地原则,即“诺有多个假设与观察一致,则选最简单地那个”。(采用这个原则,则所描绘地曲线更平滑,更简单)。20世纪50年代-70年代初,人工智能处于“推理期”。20世纪70年代中期开始,人工智能进入“知识期”。20世纪80年代:被研究最多的应用最广的是“从样本中学习”,其中的两个主流技术:符号主义学习(决策树,ILP:归纳逻辑程序设计),基于神经网络的连接主义学习20世纪90年代中期:统计学习:代表性技术,支持向量机21世纪以来,连接主义学习“深度学习”即很多层的神经网络1980年夏,美国卡耐基梅隆大学举办了第一届机器学习研讨会(IWML)。同年《策略分析与信息系统》连出三期机器学习专辑。1986年,第一本机器学习专业期刊MachineLearning创刊。1989年,人工智能领域地权威期刊ArtificialIntelligence出版机器学习专辑。2006年,卡耐基梅隆大学宣告成立世界上第一个“机器学习系”。经验误差:学习器在训练集上的误差称为“训练误差”或“经验误差”。泛化误差:在新样本上的误差称为“泛化误差”。“测试误差”作为泛化误差的近似。模型评估时用来测试模型的数据集叫什么集:A训练集B测试集C评估集D验证集(训练集是用来训练模型的,通过尝试不同的方法和思路使用训练集来训练不同的模型,再通过验证集使用交叉验证来挑选最优的模型,通过不断的迭代来改善模型在验证集上的性能,最后再通过测试集来评估模型的性能。将一个数据集D分为训练集S和测试集T的方法:留出法:直接将数据集D划分为两个互斥的集合,其中一个作为S一个作为T。注意点:训练/测试集的划分要尽可能保持数据分布一致。单次使用留出法得到的估计结果往往不够稳定可靠。一般采用若干次随机划分、重复进行实验评估后取平均值作为结果。常见做法是将大约2/3~4/5的样本用于训练剩余样本用于测试。保留类别比例的采样方式通常称为“分层采样”。交叉验证法:(可能大题)将数据集D划分为k个大小相似的的互斥子集,每个子集尽可能保持数据分布的一致性,即通过分层采样得到。然后每次用k-1个子集的并集作为训练集,余下的一个子集作为测试集并进行K次训练和测试。例如:5折交叉验证,D分为D1~D5,第一次取4个子集的并集,D2-D5作为训练集,D1作为测试集。第二次取D1、D3、D4、D5的并集作为训练集,D2作为测试集。以此类推,最后将5次测试结果平均得到返回结果。其中,如果D一共有m个样本,k=m,则得到交叉验证法的特例:留一法。因为m个样本只有唯一的划分方式,即划分为m个子集,每一个子集只有一个样本。这样所用的训练集只比原数据少一个样本。留一法的优点:评估结果往往被认为比较精确(并非最精确),缺点:数据集较大时,训练m个模型的计算开销可能难以忍受。自助法:(这种方法有一些样本永远取不到)建立一个新的数据集D’在D中随机取一个样本复制到D’中,进行m次后,D’中的样本数量和D一样,这时将D’作为训练集D\D’(表示D中不包括D’的部分)作为测试集。因为是复制到D’中所以D中的一部分样本会取不到,则不被取到的概率为(1-1/m)^m取极限得到=1/e≈0.368,即数据集D中约有36.8%的样本未出现在D’中。得到结果也称为“包外估计”。在数据集较小、难以有效划分训练/测试集时很有用此外,自助法能从初始数据集中产生多个不同的训练集,对集成学习有很大好处。但是自助法改变了初始数据集的分布,这会引入估计偏差。所以数据足够多的时候其他两种方法更加常用。错误率与精度错误率:分类错误的样本占样本总数的比例。精度:分类正确的样本数占样本总数的比例。查准率、查全率与F1认为是正例的样本中:真正例TP假正例FP认为是假例的样本中:假反例FN真反例TN查准率P:TP/(TP+FP)即在查到的正例中正确的占比。查全率R:TP/(TP+FN)即在所有正确的例子中查到的正例的占比。一般来说,查准率高,查全率偏低,查全率高,查准率偏低。根据这一现象可以得到“P-R曲线”,当R(X轴)相同时,P(Y轴)越大越好。曲线和P=R的直线的交点称为平衡点。越大越优。因为平衡点过于简化,所以用F1来衡量优劣:F1=(2*P*R)/(P+R)=(2*TP)/(样本总数+TP-TN)=1/F1=1/2*(1/P+1/R)有时因为场景的需要,可能回偏向查全率或者查准率,则有了F1的变形:FβFβ=((1+β²)*P*R)/((β²*P)+R)当β=1时,则为标准的F1;β1时查全率有更大影响;β1时查准率有更大影响。线性模型:给定d个描述x=(x1;x2x3...xd)(例如西瓜颜色、形状2个描述,d=2),xi是x在第i个属性上的取值(即颜色=x1;形状=x2)。从而有线性模型的基本形式f(x)=wTx+b加粗表示向量线性回归这里的数据集为D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi=(xi1,xi2,...,xid)即线性模型的描述。此处的y应该是判断结果,我猜测为正确答案。简单化xi,将其中的值缩减到1个,则D={(xi,yi)}i=1m。同时,若属性间存在“序”,并且为离散值,则可以将输入变为类似身高={1,0}其中1表示高,0表示矮。如果不存在“序”关系,k个属性就用k维向量表示。线性回归目的是求出f(x)=wTx+b的函数使得带入的值经过函数计算后得到的f(x)与预测的y近似。所以为了近似,则需要做差最小。使用均方误差得到:(w*,b*)=argminΣ(i=1~m)(f(xi)-yi)²不方便同时做上下标简单表示=argminΣ(i=1~m)(yi-wxi-b)²这里我理解的是承接上面简化属性值仅有一个分别对w和b做偏导得到书上P51的3.5和3.6,然后两个式子=0,解后得到3.7和3.8的解。(过程作业有写,需要熟悉)此时如果使用原本的数据集,而不简化,即f(x)=wTx+b≈yi称为“多元线性回归”最小二乘法就是通过使两个式子的均方误差最小化,来求得函数的未知值。来近似标准函数,可以百度关键词“最小二乘法”,其中原理的部分较好理解。对数线性回归:即之前的线性回归是为了逼近y值,如果要使得函数逼近与y相关的值,例如lny,就是改变指数尺度=lny=wTx+b这一式子则称为对数线性回归,本质是使得e底的wTx+b逼近y。该式子在本质上仍然是线性回归。P56图3.1表现得较为明显。如果有g(.)使得y=g-1(wTx+b)这样得到得模型称为“广义线性模型”,函数g(.)称为“联系函数”,则对数线性回归是广义线性模型在g(.)=ln(.)时得特例。我这里认为g(.)中.表示输入值。对数几率回归:是分类问题通过找一个单调可微函数g(.)将分类任务的真实标记y与线性回归模型的预测值f(x)联系起来。设预测值z=wTx+b则将z的值通过“单位越阶函数”P57(3.16)与输出标记y一致。即通过g(.)获取到的函数为P57图3.2中的黑线。红色部分则为判断的输出标记。因为希望函数值接近0或1,所用用y=1/1+e-z作为“替代函数”且可微。带入z=wTx+b,得到P58(3.18)(3.19)则为了求“对数几率”,最后就是求ln(y/1-y),将y和1-y分别视为为1和为0的概率,则有P59(3.23)(3.24)作业有相关内容。熵模型:百度内容:给定一个概率分布,则熵的定义为:Hp=−p(x)logp(x)放到作业中即-plnq大致意思是要求一个函数的最小值就取它的负,这样反过来求它的最大值。线性判别分析:是一种经典的线性学习方法,再二分类问题上提出。简称LDA:给定训练集例集,设法将样例投影到一条直线上,使得同类的样例的投影尽可能得靠近,异类样例尽可能远离;对新样本进行分析时,将样本投影到这条直线上,再根据位置判断类别。快速判断是否可以线性可分:将两类样本包起来,类似连接每类样例的最外层样本,形成一个封闭的图形,如果两个类别不重叠,则可以线性可分,反之不可。多类别学习:有些二分类学习方法可直接推广到多分类,但是再更多情形下,我们是基于一些基本策略,利用二类学习器来解决多分类问题。即多次利用二分类来解决多分类。最经典的拆分策略有三种:“一对一”(OvO),“一对其余”(OvR)和“多对多”(MvM)。OvR只需要N个分类器,OvO需要N(N-1)/2个分类器。通常,OvO的存储开销和测试时间开销比OvR更大,但是OvO每次只用到两类样例,OvR则是全部样例。所以在类别多的的情况下OvO的训练时间开销通常比OvR更小。取决于具体数据分布。P64图3.4(大题)信息增益:信息熵:是度量样本集合纯度最常用的一种指标。集合D的信息熵定义为Ent(D)值越小表示纯度越高。神经元模型:“M-P神经元模型”P97图5.1xi为输入y为输出Wi为对应xi的连接权重激励函数:类似神经传播,当一个电位超过一定值,则激活神经元,从而进行再传递。类似地接收到带权重地输入信号,将总输入值和阀值进行比较,然后通过“激励函数”处理产生输出。所以这里地激励函数最好是跃阶函数(即只有y=1或y=0)但是实际用Sigmoid函数将值压缩在0-1之间。(1表示兴奋,0表示抑制)把许多个这样地神经元按一定地层次结构连接起来,就得到了神经网络。感知机和多层网络:要求会计算“与”、“或”、“非”:这里用跃阶函数计算。wi和θ的值是可变化的,设定值后。带入x1和x2计算,达到x1与x2x1或x2非x的效果。y=f(Σiwi*xi-θ)深度学习:“深”在哪里?参数越多、“容量”越大、复杂模型典型的深度学习模型就是很深层的神经网络,显然,对神经网络模型,提高容量的一个简单办法是增加隐层的数目=隐层数目大。“多隐层”是指三个及以上隐层。深度学习通常有八九层甚至更多隐层。支持向量机:两大重点:最大间隔、核技巧在样本空间中,划分超平面可通过如下线性方程描述:wTx+b=0间隔:距离超平面最近的几个训练样本点中,两个异类支持向量到超平面的距离之和称为“间隔”。最大间隔:找到满足式子P122(6.3)中约束的参数w和b,使得间隔最大。支持向量机(SVM)的基本型:P123(6.6)函数间隔:实际上是|wTx+b|,函数间隔代表了我们认为特征是正例还是反例的确信度。针对全局样本的定义的函数间隔:意思就是找到训练样本中函数间隔最小的那个样本,并且要让它的函数间隔最大。几何间隔:几何间隔首先简单一点说就是点到直线距离。在式子中的表现为||w||。硬间隔:要求所有样本均满足约束。P122(6.3)软间隔:允许某些样本不满足约束。P130(6.28)常用的“软间隔支持向量机”在P130P131min和s.t.部分。线性间隔:不需要升维,就可以找到一个超平面将训练样本正确分类。非线性间隔:需要升维,才能将训练样本分类。组合,有线性软间隔、线性硬间隔、非线性软间隔、非线性硬间隔。对偶问题:作业大题。主要还是求偏导。因为在解对偶问题时,有用到二次规划算法,该问题的规模正比于训练样本数,这会在实际任务中造成很大
本文标题:机器学习期末复习
链接地址:https://www.777doc.com/doc-6477372 .html