您好,欢迎访问三七文档
强化学习目录引言强化学习发展史强化学习简介强化学习算法强化学习应用未来展望引言在连接主义学习中,在学习的方式有三种:非监督学习(unsupervisedlearning)、监督学习(supervisedleaning)和强化学习。监督学习也称为有导师的学习,需要外界存在一个“教师”对给定输入提供应有的输出结果,学习的目的是减少系统产生的实际输出和预期输出之间的误差,所产生的误差反馈给系统来指导学习。非监督学习也称为无导师的学习。它是指系统不存在外部教师指导的情形下构建其内部表征。学习完全是开环的。什么是强化学习生物进化过程中为适应环境而进行的学习有两个特点:一是人从来不是静止的被动的等待而是主动的对环境作试探;二是环境对试探动作产生的反馈是评价性的,生物根据环境的评价来调整以后的行为,是一种从环境状态到行为映射的学习,具有以上特点的学习就是强化学习。强化学习(reinforcementlearning)又称为再励学习,是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖励值最大的一种机器学习方法,智能控制机器人及分析预测等领域有许多应用。强化学习发展史强化学习技术是从控制理论、统计学、心理学等相关学科发展而来,最早可以追溯到巴甫洛夫的条件反射实验。1911年Thorndike提出了效果律(LawofEffect):一定情景下让动物感到舒服的行为,就会与此情景增强联系(强化),当此情景再现时,动物的这种行为也更易再现;相反,让动物感觉不舒服的行为,会减弱与情景的联系,此情景再现时,此行为将很难再现。动物的试错学习,包含两个含义:选择(selectional)和联系(associative),对应计算上的搜索和记忆。强化学习的研究发展史可分为两个阶段。第一阶段是50年代至60年代,为强化学习的形成阶段。1954年,Minsky在他的博士论文中实现了计算上的试错学习,并首次提出“强化学习”术语。最有影响的是他的论文“通往人工智能的阶梯”(Minsky,1961),这篇文章讨论了有关强化学习的几个问题,其中包括他称为信誉分配的问题:怎样在许多的、与产生成功结果有关的各个决策中分配信誉。后来,Farley和Clark的兴趣从试错学习转向泛化和模式识别,也就是从强化学习转向监督学习,这引起了几种学习方法之间的关系混乱。由于这些混乱原因,使得真正的试错学习在二十世纪六、七十年代研究得很少。第二阶段是强化学习的发展阶段。直到上世纪八十年代末、九十年代初强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛研究和应用,并被认为是设计智能系统的核心技术之一。强化学习的发展历程1956Bellman提出了动态规划方法1977Werbos提出自适应动态规划方法1988Sutton提出了TD算法1992Watkins提出了Q学习算法1994Rummery等提出了SARSA学习算法1996Bertsekas等提出了解决随机过程优化控制的神经动态规划方法1999Thrun提出了部分可观测马尔科夫决策过程中的蒙特卡罗方法2006Kocsis等提出了置信上限树算法2009Lewis等提出了反馈控制自适应动态规划算法2014Silver等提出确定性策略梯度算法国内发展现状强化学习在国内处于发展阶段,并取得一定成绩。杨璐采用强化学习中的TD算法对经济领域的问题进行预测;蒋国飞将Q学习应用在倒立摆控制系统,并通过对连续空间的离散化,证明了在满足一定条件下的Q学习的收敛性;张健沛等对连续动作的强化学习方法进行了研究,并将其应用到机器人避障行为中……。随着强化学习的数学基础研究取得突破性进展后对强化学习的研究和应用成为目前机器学习领域的研究热点之一。主要内容包括:1)连续状态和连续动作问题;2)与遗传算法与神经网络的结合;3)不完全感知问题;4)强化学习算法的规划规则抽取和偏差。工作原理强化学习是一种在线的、无导师机器学习方法。在强化学习中,我们设计算法来把外界环境转化为最大化奖励量的方式的动作。我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动作得到了最多的奖励来自己发现。主体的动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励。强化学习与其他机器学习任务(例如监督学习)的显著区别在于,首先没有预先给出训练数据,而是要通过与环境的交互来产生,其次在环境中执行一个动作后,没有关于这个动作好坏的标记,而只有在交互一段时间后,才能得知累积奖赏从而推断之前动作的好坏。例如,在下棋时,机器没有被告知每一步落棋的决策是好是坏,直到许多次决策分出胜负后,才收到了总体的反馈,并从最终的胜负来学习,以提升自己的胜率。学习者必须尝试各种动作,并且渐渐趋近于那些表现最好的动作,以达到目标。尝试各种动作即为试错,也称为探索,趋近于好的动作即为强化,也称为利用。探索与利用之间的平衡,是强化学习的一个挑战。探索多了,有可能找到差的动作,探索少了,有可能错过好的动作。总体趋势:探索变少,利用变多。举例1如果通过几次尝试,走位置1比走位置2赢棋的可能大,得出经验,则为强化学习。举例2一个机器人在面临:进入一个新房间去寻找更多垃圾、寻找一条回去充电的路两个命令选择时根据以前找到充电器的快慢和难易程度来作决定。这是以前与环境交互得到的经验。举例3一个进行石油提炼操作的搅拌控制器。该控制器逐步优化产量/成本/质量之间的平衡而不是严格按照工程师的最初设置来搅拌。这些例子中,随时间推移,学习者利用它获得的经验不断提高自己的性能。简言之,强化学习就是试出来的经验。它们都涉及一个积极作决策的Agent和它所处的环境之间的交互,尽管环境是不确定的,但是Agent试着寻找并实现目标。Agent的动作允许影响环境的未来状态(如下一个棋子的位置,机器人的下一位置等),进而影响Agent以后可利用的选项和机会。强化学习模型定义Agent(学习的主体,如小猫、小狗、人、机器人、控制程序等)其中,Agent具有特点如下:1、能感知环境的状态2、选择动作(可能会影响环境的状态)3、有一个目标(与环境状态有关的)Agent以最终目标为导向,与不确定的环境之间进行交互,在交互过程中强化好的动作,获得经验。在强化学习中,Agent选择一个动作a作用于环境,环境接收该动作后发生变化,同时产生一个强化信号(奖或罚)反馈给Agent,Agent再根据强化信号和环境的当前状态s再选择下一个动作,选择的原则是使受到正的奖赏值的概率增大。Agent环境奖赏值R状态S动作ActionAgent环境奖赏值R状态S动作Action选择的动作不仅影响立即奖赏值,而且还影响下一时刻的状态及最终强化值。强化学习的目的就是寻找一个最优策略,使得Agent在运行中所获得的累计报酬值最大。强化学习基本要素除了Agent和环境之外,强化学习系统的四个主要子要素:策略(policy)、奖赏函数(rewardfunction)、值函数(valuefunction)和一个可选的环境模型(model)。PolicyRewardValueModelofenvironmentIsunknownIsmygoalIsIcangetIsmymethod四要素之间的包含关系策略策略定义了Agent在给定时间内的行为方式。简单地说,一个策略就是从环境感知的状态到在这些状态中可采用动作的一个映射。对应在心理学中被称为刺激-反应的规则或联系的一个集合。在某些情况下策略可能是一个简单函数或查找表,而在其他情况下策略可能还涉及到大量计算。策略在某种意义上说是强化学习Agent的核心。奖赏函数奖赏函数定义了在强化学习问题中的目标。简单地说,它把环境中感知到的状态(或状态-动作对)映射为单独的一个数值,即奖赏(reward),表示该状态内在的可取程度。强化学习Agent的唯一目标就是最大化在长期运行过程中收到的总奖赏。奖赏函数定义了对Agent来说什么是好和坏的事件。在生物系统中,用愉快和痛苦来定义奖赏似乎有些不合适。而奖赏是Agent所面对的问题的直接的和规定性的特征。正因为这样,奖赏函数必须是Agent所不能改变的,但是它可以是调整策略的基础。值函数对于一个策略,如果我们可以在一个状态上就看到这个策略未来将会取得的累积奖赏,这将为强化学习带来很大的方便,提供这种功能的函数在强化学习中称为值函数(Valuefunction)。奖赏决定了环境状态的直接、内在的可取性,而值表示的是把可能的后续的状态以及在这些状态中可获得的奖赏考虑在内的状态的长期可取性。例如,一个状态可能会总是得到一个低的直接奖赏但仍有较高的值,因为该状态的后续状态能获得高的奖赏。或者反过来也是可能的。拿人类做类比,奖赏就象当前的快乐(奖赏高)和痛苦(奖赏低),而值就像是我们在一个特定的环境中用更完善、更长远的目光来看我们有多开心或不开心。从某种意义上说奖赏是主要的,而值是对奖赏的预测,是第二位的。没有奖赏就没有值,而估计值的唯一目的就是获得更多的回报(总奖赏)。然而,我们在做决策和评价决策的时候考虑最多的却是值。动作的选择是根据值来判断的。我们选择带来最高值的动作,而不是带来最高奖赏的动作,因为这些带来最高值的动作在长期运行过程中获得的奖赏总和最多。环境模型有些强化学习系统中还存在着第四个也是最后一个要素:环境模型。它模拟了环境的行为。例如,给定一个状态和动作,这个模型可以预测必定导致的下一状态和下一奖赏。强化信号1.强化信号可以从环境的状态中直接获得。例如:传感器检测到机器人与障碍物的距离信息小于给定值时都可看做一个失败信号。倒立摆的角度大于一定值就可产生一个失败信号。2.强化信号也可从环境的状态信息中间接获得,当环境的状态值达不到预期的要求时,也可以认为产生了一个失败的强化信号。强化信号r的取值可以是以下形式中的一种:1)二值{-1,0},其中-1表示失败,0表示成功。2)介于[-1,1]区间的多个离散值,分段表示失败或成功的程度。3)介于[-1,1]区间的实数连续值,能够更加细致地刻画成功和失败的程度。从获取的时间看,强化信号分为立即回报和延时回报。立即回报指学习Agent执行完动作后立即从环境中获得回报;延时回报指学习系统在以后的某个时机,将从环境中获得的回报传给先前的决策,作为先前决策的回报。一般来说,立即回报越多,系统的学习速度就越快。Agent对动作的搜索策略主要有贪婪策略和随机策略。贪婪策略总是选择估计报酬为最大的动作;随机策略是用一个随机分布来根据各动作的评价值确定其被选择的概率,其原则是保证学习开始时动作选择的随机性较大,随着学习次数的增大,评价值最大的动作被选择的相对概率也随之增大。所有的强化学习算法的机制都是基于值函数和策略之间的相互作用,利用值函数可以改善策略,而利用对策略的评价又可以改进值函数。强化学习在这种交互过程中,逐渐得到最优的值函数和最优策略。什么是马尔可夫决策(MDP)许多强化学习都基于一种假设,即Agent与环境的交互可用一个马尔可夫决策(MDP)过程来刻画:1)可将Agent和环境刻画为同步的有限状态自动机2)Agent和环境在离散的时间段内交互3)Agent能感知到环境的状态,作出反应性动作4)在Agent执行完动作后,环境的状态会发生变化5)Agent执行完动作后,会得到某种回报马尔可夫决策过程(MDP)可定义为4元组S,A,P,R。其中S为环境状态集合;A为Agent执行的动作集合;P:S×A×S→[0,1]为状态转换概率函数,记为P(s'|s,a);R:S×A→IR为奖赏函数(IR为实数集),记为r(s,a)马尔可夫决策本质:设系统在某任意时刻t的状态为s,则其Agent在时刻t执行动作a后使状态转变到下一状态s'的概率P(s'|s,a),以及获得的顺时奖赏值r(s,a)都仅仅依赖于当前状态s和选择的动作a,而与历史状态和历史动作无关,即“将来”与“现在”有关,而与过去有关。强化学习分类如果在学习过程中Agent无需学习马尔可夫决策模型知识(即T函数和R函数),而直接学习最优策略,将这类方法称为模
本文标题:强化学习
链接地址:https://www.777doc.com/doc-4972928 .html