您好,欢迎访问三七文档
序有一位计算机科学家曾经和很多其他学科的科学家们在一起合作,大家互相介绍各自的工作的时候,这位计算机科学家苦心构思了这么一个例子,他说:我的工作就是要让计算机认识这个,然后他画了下面这幅图,严格的说是写了这组严格对齐的数字0000000000000000000000000000000000000000011000000000110001100000000011000110000000001100011000000000110001100000000011000110000000001100011000000000111111111000000011111111100000000000011000000000000001100000000000000110000000000000000000000000000000000000桑克(sank):“一台计算机若不能进行学习,就不能说它具有智能”Simon(1983):学习就是系统中的变化,这种变化使系统比以前更有效地去做同样的工作。无统一的机器学习定义。机器学习是研究如何使用机器来模拟人类学习活动的一门学科。稍严格的提法是:ML是一门研究机器获得新知识和新技能,并识别现有知识的学问1、机器学习的定义人工智能主要是为了研究人的智能,模仿其机理将其应用于工程的科学。在这个过程中必然会问道:“机器怎样做才能像人类一样具有学习能力”。机器学习广泛应用于机器人、图像处理、语音识别、数据挖掘等领域。机器学习的发展有利于推动其他领域的发展。2、为什么要研究机器学习?预测难:学习后知识库发生了什么变化,系统功能的变化的预测。归纳推理:是论证的前提支持结论但不确保结论的推理过程(演绎推理保真);而且,归纳的结论是无限多的,其中相当多是假的,给生成的知识带来不可靠性。判断难:机器目前很难观察什么重要、什么有意义。3、实现的困难54系统学习性能评价分类精度:是否能够对输入的数据进行正确、精确的分类。解答的正确性和质量:无论是用于分类的,还是解决问题的系统都有解答正确性问题。同时,正确性不一定保证有好的质量,好的质量包括:可读性、稳定性等多方面的因素。学习的速度:学习速度是一个很重要的系统指标。它不仅仅影响系统的设计,同时,影响系统的实现。一个很费时的学习方法,某种意义上也是很难实现的。因为,通常花费大量时间所进行的操作表现在对学习样本量的要求、系统空间的要求、系统硬件性能的要求上。6环境学习环节知识库执行环节学习是建立理论、形成假设和进行归纳推理的过程。整个过程包括:信息的存储、知识的处理两部分三、机器学习模型学习系统环境学习环节知识库执行环节学习系统所感知到的外界信息集合,也是学习系统的外界来源对环境提供的信息进行整理、分析归纳或类比,形成知识,并将其放入知识库存储经过加工后的信息(即知识)根据知识库去执行一系列任务,并将执行结果或执行过程中获得的信息反馈给学习环节学习模型输入x输出约束条件机器学习的分类根据是否需要已知类别的样本进行学习,机器学习可以分为两大类:有教师学习(监督学习)无教师学习(非监督学习和强化学习)监督学习supervisedlearning利用已知类别的样本去训练算法从而调整分类器的参数,这样的学习过程叫做监督学习。监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个很好的预测。常见的监督学习算法有:决策树adbost算法朴素贝叶斯算法回归算法支持向量机训练集学习系统测试系统测试集模型测试结果监督学习示意图体重翼展脚蹼后背颜色种属11000.1125.0无棕色红尾鵟23000.7200.0无灰色鹭鹰33300.0220.3无灰色鹭鹰44100.0136.0有黑色普通潜鸟53.011.0无绿色蜂鸟上表是用于区分不同鸟类需要使用的四个不同的属性值,分别选取的是体重、翼展、脚蹼和后背颜色作为评测基准。这些测量的四种值成为特征,也叫属性。数据X={x1,x2,x3,x4}表示一组数据标签labelY={y1,y2,y3,y4}训练集T={(x1,y1),(x2,y2),(x3,y3)}测试集{(x4,y4)}特征损失函数,训练误差,测试误差经验风险最小化与结构风险最小化交叉验证选取特定的机器学习算法进行分类,首先需要做的是训练算法,既学习如何分类。通常我们为算法输入大量已分类数据作为算法的训练集。训练集就是用于训练机器学习算法的数据样本集合,表1是包含5个样本集合的训练集,每个训练样本有4中特征和一个目标变量,目标变量是机器学习算法的预测结果既F(x),其中x为一组输入样本。损失函数在监督学习中,给定x,根据F(x)给出相应的输出,而这个输出是预测输出,和真实值y可能一致,也可能不一致。用一个损失函数或者代价函数来度量预测错误的程度。损失函数是F(x)和y的非负值函数,记做L(y,F(x))。常用的损失函数(1)0-1损失函数(2)平方损失函数(3)绝对损失函数(4)对数损失函数)(,0)(,1))(,(xFyxFyxFyL2))(())(,(xFyxFyL)())(,(xFyxFyL)|(log))(,(xyPxFyL经验风险最小化与结构风险最小化经验风险最小化的策略认为,经验风险最小的模型是最优模型结构风险最小化是为了防止过拟合而提出的策略。结构风险在经验风险的上加上表示模型复杂度的正则化项或者说是惩罚项minR(f))())(,(1)(1FJxFyLNfRNiii奥卡姆剃刀原理:在所有可能的模型中,能够很好地解释已知数据并且十分简单的次啊是最好的模型,也是应该选择的模型。如果给定的样本数据充足,进行模型选择的一种简单方法就是随机地将数据切分成三部分,分别为训练集,验证集和测试集。训练集用来训练模型,验证机用于模型选择,测试集用于最终对学习方法的评估。在学习到不同的复杂度的模型中,选择对验证集有最小预测误差的模型。但是,许多实际应用中数据并不是充分的,为了选择好的模型,可以采用交叉验证的方法。交叉验证的基本思想是重复的使用数据;把给定的数据进行切分,将切分的数据集组合成训练集与测试集,在此基础上反复地进行训练,测试以及模型的选择。交叉验证(1)简单交叉验证:首先随机地将已给数据分为两部分,一部分作为训练集,另一部分最为测试集;然后用训练集在各种条件下训练模型,从而得到不同的模型,在测试集上评价各个模型的测试误差,选出测试误差最小的模型(2)S折交叉验证:首先随机的把已给的数据切分成s个互不相交的大小相同的子集,然后利用s-1个子集的数据训练模型,利用余下的自己测试模型;重复的随机选择训练子集,最后选出评测中平均测试误差最小的模型(3)留一交叉验证:当S=N时,成为留一交叉验证,这往往在数据缺乏的时候使用。交叉验证朴素贝叶斯算法贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类假设一个样本集的数据分类两类。P1(x,y)表示数据点(xy)属于类别1的概率,p2(x,y)表示数据点(xy)属于类别2的概率如果p1(x,y)p2(x,y)则数据(xy)属于类别1如果p1(x,y)p2(x,y)则数据(xy)属于类别2贝叶斯分类的基础——贝叶斯定理)()()|()|(xPcPcxPxcPiii)|()...|()|()|...,()|...,()|(11211121121capcapcapcaaapcaaaPcxPmmmi基本流程1、设为一个待分类项,而每个a为x的一个特征属性。2有类别集合3计算4求出最大的则x划分为类别}......{,2,1maaax}......{,2,1nyyyC)|(),......|(),|(21xyPxyPxyPn)|(xyPkky某个医院早上收了六个门诊病人,如下表。症状职业疾病打喷嚏护士感冒打喷嚏农夫过敏头痛建筑工人脑震荡头痛建筑工人感冒打喷嚏教师感冒头痛教师脑震荡现在又来了第七个病人,是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大?P(感冒|打喷嚏x建筑工人)=P(打喷嚏x建筑工人|感冒)xP(感冒)/P(打喷嚏x建筑工人)打喷嚏和建筑工人这两个特征是独立的P(感冒|打喷嚏x建筑工人)=P(打喷嚏|感冒)xP(建筑工人|感冒)xP(感冒)/P(打喷嚏)xP(建筑工人)P(感冒|打喷嚏x建筑工人)=0.66x0.33x0.5/0.5x0.33=0.66因此,这个打喷嚏的建筑工人,有66%的概率是得了感冒。同理,可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率,就可以知道他最可能得什么病。这就是贝叶斯分类器的基本方法:在统计资料的基础上,依据某些特征,计算各个类别的概率,从而实现分类。基于朴素贝叶斯的文本分类首先需要拆分文本以便从中获取特征(词条),一个词条是任意字符的组合。‘my’'dog''has''flea''problems''help''please'0(正常言论)'maybe''not''take''him''to''dog''park''stupid'1(侮辱性)'my''dalmation''is''so''cute''i''love''him'0'stop''posting''stupid''worthless''garbage'1'mr''licks''ate''my''steak''how''to''stop''him'0'quit''buying''worthless''dog''food''stupid'1)()()|()|(wpcpcwpwcpiii)|.....,,,()|(4321inic)|()....|()|()|(321iniiicwpcwpcwpcwp将W作为一个个独立的特征,上述公式可写成假设所有词都相互独立(独立性加色)训练阶段创建包含所有文档中出现的不重复的词列表['cute''love''help''garbage''quit''I''problems''is''park''stop''flea''dalmation''licks''food''not''him''buying''posting''has''worthless''ate''to''maybe''please''dog''how''stupid''so''take''mr''steak''my']然后将每一个文本片段表示为一个词条向量,1表示词条出现在文档中,0表示未出现。[00100010001000000010000110000001]给出一个新的文档,计算testC通过训练集,对算法进行训练得出P1,P2。测试阶段给定一个测试词条,转换成词条向量计算==比较大小。testw)()()|()|(111testtesttestwpcpcwpwcp)()()|()....|()|(111211testtestntesttestwpcpcwpcwpcwp)()()|()|(222testtesttestwpcpcwpwcp)()()|()....|()|(222221testtestntesttestwpcpcwpcwpcwp)|(1testwcp)|(2testwcp优点:在数据较少的情况下仍然有效,可以处理多类别问题缺点:对于输入数据的准备方式比较敏感。决策树学习决策树在示例学习中,每一个概念实际上可以看成是例子中所属的一个类别示例学习就可以转化为对例子集进行分类的任务体形(++++)大中小颜色颜色(--)(+-)(--)(+-)黑黑棕棕可以看做是一个对目标分类的划分和获取策略由一个根结点,若干叶结点和非叶结点构成。根结点对应于学习任务,分类的开始。每个叶结点都包含一个分类名(概念),表示一个实例的结束。每个非叶结点都包含表示相应实例中的某一属性。边代表某一属性可能的属性值。决策树体形(++++)大中小颜色颜色(--)(+-)(--)(+-)黑黑棕棕从根节点到叶节点的每一条路径都代表一个具体的实例同一路径上的所有属性之间为合取关系,不同路径(即一个属性的不同属性
本文标题:机器学习专题.
链接地址:https://www.777doc.com/doc-2325065 .html