您好,欢迎访问三七文档
强化学习介绍简介•一种能够让机器解决科学或经济方面学习问题的设计方案,并通过数学分析或计算实验来评估的方法称为强化学习。•从交互中进行,以目标为导向。强化学习介绍•学习者不被告知采取哪个动作,而是通过尝试来发现获得最大奖赏的动作。•agent必须尝试各种动作,并且渐渐趋近于那些表现最好的动作,以达到目标。强化学习介绍•监督学习是从样例中学习,样例是由富有知识的外部监督者提供的。这是一种重要的学习方法,但是它不能单独地用于交互学习。•强化学习没有外部指导者,是在交互中,从自身经验中学习。强化学习挑战•学习者必须尝试各种动作,并且渐渐趋近于那些表现最好的动作,以达到目标。•尝试各种动作即为试错,也称为探索•趋近于好的动作即为强化,也称为利用探索与利用之间的平衡,是强化学习的一个挑战。探索多了,有可能找到差的动作,探索少了,有可能错过好的动作。总体趋势:探索变少,利用变多监督学习中根本就不存在探索和利用的平衡问题,样例学习阶段之后,就只有利用了。例子•一个机器人决定:1、进入一个新房间去寻找更多垃圾,2、寻找一条回去充电的路。•它根据以前找到充电器的快慢和难易程度来作决定。这是以前与环境交互得到的经验强化学习关键特征•强化学习明确整个问题时一个以目标为导向的agent与不确定环境交互问题例子•五子棋:棋手通过数学公式计算,发现位置1比位置2价值大,这是强化学习吗?•这不叫强化学习,叫规划•如果通过几次尝试,走位置1比走位置2赢棋的可能大,得出经验,则为强化学习例子•小牛羚在出生后几分钟内挣扎着站起来。半小时后,每小时能跑几十公里例子•一个进行石油提炼操作的搅拌控制器。•该控制器逐步优化产量/成本/质量之间的平衡•而不是严格按照工程师的最初设置来搅拌。例子•走到电梯门口,发现等电梯的人很多•选择:1等电梯;2走下去•根据经验来选择,是强化学习例子•家长一直采用严厉的方法对待子女,从不尝试平和的方式对待子女。•或许错过了采取更好动作的机会(如平和的教育方式)。例子这些例子中,随时间推移,学习者利用它获得的经验不断提高自己的性能。简言之,强化学习就是试出来的经验。自主学习分析一下动物自主学习的特点:1、试错:尝试不同的做法(动作)2、强化:有好处多做,没有好处少做3、目标:是动物努力的方向,目标导向动物(学习者)必须尝试各种动作,并且渐渐趋近于那些表现最好的动作,以达到目标。相关定义•为便于研究,定义几个概念agent(学习的主体,如小猫、小狗、人、机器人、控制程序等)agent以目标为导向,与不确定的环境之间进行交互,在交互过程中强化好的动作,获得经验。agent特点1、能感知环境的状态2、选择动作(可能会影响环境的状态)3、有一个目标(与环境状态有关的)相关定义•agent的目标导向•与许多其他学习方法相比,其他方法只考虑了子任务,而没有解决怎样可以把这些子任务整合到一个更大的框架中。•而强化学习是以最终目标为导向的,可以把不同的子任务整合到一个大框架中。强化学习的基本要素•策略•奖赏函数•值函数•环境模型强化学习的基本要素•策略定义了agent在给定时间内的行为方式,一个策略就是从环境感知的状态到在这些状态中可采用动作的一个映射。•可能是一个查找表,也可能是一个函数强化学习的基本要素•奖赏函数是强化学习问题中的目标,它把环境中感知到的状态映射为单独的一个奖赏•奖赏函数可以是改变策略的基础。强化学习的基本要素•值函数:一个状态的值一个agent从那个状态开始到将来预期的累积的奖赏和。•在决策和评价决策中考虑最多的是值。强化学习的基本要素•环境模型模拟了环境的行为,即给定一个状态和动作,模型可以预测必定导致下一个状态和下一个奖赏。模型一般用于规划。•规划是算出来的,强化学习是试出来的。•将模型和规划结合到强化学习是一个新进展,也是我们学习研究的重要内容。强化学习介绍•本书中所有强化学习方法围绕估计值来组织,但这不是解决强化学习问题所必须的。•直接在策略空间中搜索而不利用值函数的方法称为进化方法。•适合用在策略空间比较小或者策略空间被构造地很好地情况下。例子:Tic-Tac-Toe初始1→0.52→0.53→0.54→0.5。。。39→0.5当前1→0.52→0.53→0.5S4→0.5。。。100→1S’。。。39→0.5()()[(')()]VsVsVsVs不断对弈,不断更新估计例子:Tic-Tac-Toe更新贪心走棋之前的状态s:()()[()()]VsVsVsVs例子:Tic-Tac-Toe强化学习关键特征•学习时与环境交互(本例中与对手交互)•有一个清晰的目标强化学习历史•主要有两条线路•一条线路关注试错学习,以动物心理学为起点。(贯穿人工智能早期)•另一条线路关注最优控制问题以及使用值函数和动态规划的解决方案。强化学习历史•最优控制描述的问题是如何设计一个控制器来随时间而最小化动态系统的行为计量•一个解决这个问题的方法是使用动态系统中状态和值函数的概念来定义一个函数方程,即贝尔曼方程。•用贝尔曼方程来解决最优控制问题的就是动态规划。强化学习历史•另一条路以试错学习为中心。•改变动作选择的趋向是根据动作结果好坏来决定的。强化学习历史•围绕以上两条路产生了第三条路,即时间差分方法。•三条路线整合起来形成现代强化学习。
本文标题:1强化学习介绍
链接地址:https://www.777doc.com/doc-3026721 .html