您好,欢迎访问三七文档
当前位置:首页 > 机械/制造/汽车 > 机械/模具设计 > 第6章-学习控制-增强学习
第6章学习控制-增强学习智能控制基础增强学习的基本思想6.2.2增强学习的主要算法6.2.3增强学习在控制中的应用6.2增强学习增强学习的基本思想强化学习是介于监督学习和无监督学习之间的一种学习方法,它不需要训练样本,但需要对行为结果进行评价,通过这些评价来间接指导行为的改进,直至满足目标。心理学基础19世纪末,俄国生理学家巴甫洛夫(Pavlov)建立经典条件反射(classicalconditioning)理论。美国心理学家桑代克(Thorndike)也通过动物实验发现了效果律(lawofeffect),即动物可以根据试错尝试(trial-and-error)中得到的赏罚信息,学得情景下的有效行为。这种行为的效果被随后的斯肯纳(Skinner)称为强化作用(reinforcement),而相应的学习则被称为操作条件学习(operantconditioning)。发展历史二十世纪五十年代,Minsky首次提出。六十年代,Waltz和付京孙将这种思想应用在智能控制中。八十年代以后,大量标志性的成果涌现。系统结构图感知行动agent环境强化信号r状态s动作a增强学习的建模有限Markov决策过程MDP(MarkovDecisionProcesses)。系统状态集合为S;允许行为集合为As,As与状态s有关;行动为at下的状态转移概率P(st+1|st,at)得到即时回报(immediatereward)rt+1的期望为),,|{),,(111tttttttsasrEsasr确定系统其中,为状态转移函数),(1tttass),,(),(11ttttttsasrasrr即时回报举例惩罚中性奖赏101tr增强学习的问题目标函数构造如何获得最优决策和最优目标函数值目标函数用累计回报(return)期望来作为学习的价值函数。无限折扣模型(infinite-horizondiscountedmodel)有限模型(finite-horizonmodel)平均回报模型(average-rewardmodel),},|{)(013221tkktktttttsrEsrrrEsV,)(01thkkttsrEsV,1)(01thkkttsrEhsV为策略(IterativePolicyEvaluation)目标函数可写作递推形式V(s)是递推公式的不动点,可用迭代逼近sttAastntttttttttnsVsasrassPassV1)](ˆ),,()[,|(),()(ˆ1111sttAastttttttttsVsasrassPas1)](),,()[,|(),(111},|{)(3221tttttsrrrEsV存在的问题需要了解整个系统的模型(状态转移、即时回报等)。法目标函数为期望,在统计上可以用累计回报采样的平均值来逼近。011)(ˆ)1()(ˆkktktntnrsVsV)(ˆ)(ˆ1011tnkktktnsVrsV存在的问题要完成整个尝试才能进行目标函数估计的更新。离线学习。瞬时差分法(TemporalDifference)Sutton在1988年提出。根据可得:},|)({)(11ttttssVrEsV)](ˆ)(ˆ[)(ˆ)](ˆ[)(ˆ)1()(ˆ111111111tntnttntnttntnsVsVrsVsVrsVsV特点结合了迭代策略计算法和MonteCarlo法。不需要完整的模型可进行在线学习最优策略的求解最优策略的求解动态规划法推广策略迭代动态规划法将递推公式两边取最优得到sttAasttttttttttsVsasrassPassV1)](),,()[,|(),()(1111)](*),,()[,|(max)(*111tststttttttAatsVsasrassPsV推广策略迭代GPI推广策略迭代GPI(GeneralizedPolicyIteration)特点1)](ˆ),,()[,|(max)(ˆ1111tststnttttttAatnsVsasrassPsVV*,*V0,0V的计算的选取增强学习的基本思想6.2.2增强学习的主要算法6.2.3增强学习在控制中的应用6.2增强学习增强学习的主要算法增强学习的主要算法Q-学习算法(Watkins提出)Sarsa算法学习算法定义一个与行为有关的价值函数Q函数:可知策略选取},,|{),(3221tttttttasrrrEasQ),(*max)(*ttAatasQsVst),(*maxarg)(*ttatasQst具体算法因为借鉴瞬时差分的思想11)],(*max),|(},|{),(*1111ttsttattttttttasQassPasrEasQ)],(ˆ),(ˆmax),,([),(ˆ),(ˆ1111111ttnttnatttnnttnttnasQasQsasrasQasQt确定MDP下的收敛性定理6-7:在确定MDP下采取Q学习算法,如果对任意允许的(s,a),有|r(s,a)|和Q0(s,a)有界,01,n=1,则当n,且每一个(s,a)会被无限访问时,以概率1趋向于最优值Q*(s,a)。证明|),(*max),([)],(ˆmax),([||),(*),(ˆ|1asQasrasQasrasQasQanan),(*max),(ˆmax1asQasQana|),(*),(ˆ|max1asQasQna11,|),(*),(ˆ|maxnnasQasQasQ01QQQnnnn时,Qn0不确定MDP下的收敛性定理6-6:在不确定MDP下采取Q学习算法,如果对任意允许的(s,a),有|r(s,a)|和Q0(s,a)有界,01,0n1,且满足则当n,且每一个(s,a)会被无限访问时,以概率1趋向于最优值Q*(s,a)。其中,N(n,s,a)为第n次迭代时,单元(s,a)被访问的累计次数。1),,(nasnN12),,(][nasnN学习步长选择上述定理告诉我们学习步长既不可衰减太快慢、又不可衰减太快,一般可取n为:),,(11asnNn遍历性条件的策略选择)],(ˆ),(ˆmax),,([),(ˆ),(ˆ1111111ttnttnatttnnttnttnasQasQsasrasQasQt),(ˆmaxarg)(ttatasQst隐含了贪婪原则的选择策略,无法同时保证遍历性,需要寻找其它选择策略在下面的迭代过程中-贪婪方法其中|A(st)|为决策集合的大小,为探索概率,一般随时间的增长而递减。elseasQasAQsaPttattttt),(maxarg1|)(|1),,|(分布法模仿热力学中的Boltzman分布,得到了一种新的策略选取方法,可以使价值函数值大的行为获得更大的被选概率。的取值一般也随时间的增长而减小。aasQasQttttteeQsaP/),(/),(),,|(算法Rummery和Niranjan于1994年提出由于算法中只用到了st、at、r、st+1和at+1五个量,所以Sutton在其书中将其命名为Sarsa。一种策略有关(on-policy)的学习算法)],(ˆ),(ˆ),,([),(ˆ),(ˆ111111ttnttntttnnttnttnasQasQsasrasQasQ学习算法的收敛性定理6-8:有限MDP下,如果Sarsa学习算法的策略选择满足GLIE(GreedyintheLimitwithInfiniteExploration)条件或RRR(RestrictedRank-basedRandomized)条件,且Var{r(s,a)}有界,0n1,满足则当n,收敛于最优值Q*(s,a)。1),,(nasnN12),,(][nasnN策略选择条件GLIE(GreedyintheLimitwithInfiniteExploration)条件每一个(s,a)会被无限访问;Q函数的策略选择随着迭代次数的增长,以概率1收敛于贪婪方法RRR条件是另一类常见的策略选择思想,这一条件要求对某一行为的选择概率应与该行为的价值函数值呈非减关系,即:),(),(asQasQ),,|(),,|(QsaPQsaP存在问题收敛速度慢(状态空间、决策空间规模)因为在一步学习中,获得的即时回报只能影响相邻状态的价值函数值预测。Markov条件多步学习算法学习公式改为:en(s)资格迹(eligibilitytrace)(时间信度)01为衰减因子,dn(st,at,st+1)为TD误差,例如:)(),,(),(ˆ),(ˆ11sesas
本文标题:第6章-学习控制-增强学习
链接地址:https://www.777doc.com/doc-6493019 .html