您好,欢迎访问三七文档
2019/11/30强化学习史忠植1高级人工智能第十章史忠植中国科学院计算技术研究所强化学习2019/11/30强化学习史忠植2内容提要引言强化学习模型动态规划蒙特卡罗方法时序差分学习Q学习强化学习中的函数估计应用2019/11/30强化学习史忠植3引言人类通常从与外界环境的交互中学习。所谓强化(reinforcement)学习是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖励值最大。在强化学习中,我们设计算法来把外界环境转化为最大化奖励量的方式的动作。我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动作得到了最多的奖励来自己发现。主体的动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励。试错搜索(trial-and-errorsearch)和延期强化(delayedreinforcement)这两个特性是强化学习中两个最重要的特性。2019/11/30强化学习史忠植4引言强化学习技术是从控制理论、统计学、心理学等相关学科发展而来,最早可以追溯到巴甫洛夫的条件反射实验。但直到上世纪八十年代末、九十年代初强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛研究和应用,并被认为是设计智能系统的核心技术之一。特别是随着强化学习的数学基础研究取得突破性进展后,对强化学习的研究和应用日益开展起来,成为目前机器学习领域的研究热点之一。2019/11/30强化学习史忠植5引言强化思想最先来源于心理学的研究。1911年Thorndike提出了效果律(LawofEffect):一定情景下让动物感到舒服的行为,就会与此情景增强联系(强化),当此情景再现时,动物的这种行为也更易再现;相反,让动物感觉不舒服的行为,会减弱与情景的联系,此情景再现时,此行为将很难再现。换个说法,哪种行为会“记住”,会与刺激建立联系,取决于行为产生的效果。动物的试错学习,包含两个含义:选择(selectional)和联系(associative),对应计算上的搜索和记忆。所以,1954年,Minsky在他的博士论文中实现了计算上的试错学习。同年,Farley和Clark也在计算上对它进行了研究。强化学习一词最早出现于科技文献是1961年Minsky的论文“StepsTowardArtificialIntelligence”,此后开始广泛使用。1969年,Minsky因在人工智能方面的贡献而获得计算机图灵奖。2019/11/30强化学习史忠植6引言1953到1957年,Bellman提出了求解最优控制问题的一个有效方法:动态规划(dynamicprogramming)Bellman于1957年还提出了最优控制问题的随机离散版本,就是著名的马尔可夫决策过程(MDP,Markovdecisionprocesse),1960年Howard提出马尔可夫决策过程的策略迭代方法,这些都成为现代强化学习的理论基础。1972年,Klopf把试错学习和时序差分结合在一起。1978年开始,Sutton、Barto、Moore,包括Klopf等对这两者结合开始进行深入研究。1989年Watkins提出了Q-学习[Watkins1989],也把强化学习的三条主线扭在了一起。1992年,Tesauro用强化学习成功了应用到西洋双陆棋(backgammon)中,称为TD-Gammon。2019/11/30强化学习史忠植7内容提要引言强化学习模型动态规划蒙特卡罗方法时序差分学习Q学习强化学习中的函数估计应用2019/11/30强化学习史忠植8主体强化学习模型i:inputr:rewards:statea:action状态sisi+1ri+1奖励ri环境动作aia0a1a2s0s1s2s32019/11/30强化学习史忠植9描述一个环境(问题)Accessiblevs.inaccessibleDeterministicvs.non-deterministicEpisodicvs.non-episodicStaticvs.dynamicDiscretevs.continuousThemostcomplexgeneralclassofenvironmentsareinaccessible,non-deterministic,non-episodic,dynamic,andcontinuous.2019/11/30强化学习史忠植10强化学习问题Agent-environmentinteractionStates,Actions,RewardsTodefineafiniteMDPstateandactionsets:SandAone-step“dynamics”definedbytransitionprobabilities(MarkovProperty):rewardprobabilities:EnvironmentactionstaterewardRLAgent1Pr,forall,,().asstttPssssaassSaAs11,,forall,,().assttttRErssaassssSaAs2019/11/30强化学习史忠植11与监督学习对比ReinforcementLearning–Learnfrominteractionlearnfromitsownexperience,andtheobjectiveistogetasmuchrewardaspossible.Thelearnerisnottoldwhichactionstotake,butinsteadmustdiscoverwhichactionsyieldthemostrewardbytryingthem.RLSystemInputsOutputs(“actions”)TrainingInfo=evaluations(“rewards”/“penalties”)SupervisedLearning–Learnfromexamplesprovidedbyaknowledgableexternalsupervisor.2019/11/30强化学习史忠植12强化学习要素Policy:stochasticruleforselectingactionsReturn/Reward:thefunctionoffuturerewardsagenttriestomaximizeValue:whatisgoodbecauseitpredictsrewardModel:whatfollowswhatPolicyRewardValueModelofenvironmentIsunknownIsmygoalIsIcangetIsmymethod2019/11/30强化学习史忠植13在策略Π下的Bellman公式1t1t4t23t2t1t4t33t22t1ttRrrrrrrrrrRThebasicidea:So:sssVrEssRE)s(Vt1t1tttOr,withouttheexpectationoperator:asassass)s(VRP)a,s()s(Visthediscountrate2019/11/30强化学习史忠植14Bellman最优策略公式11()()()max(),max()ttttaAsaassssaAssVsErVsssaaPRVs2019/11/30强化学习史忠植15MARKOVDECISIONPROCESSk-armedbanditgivesimmediaterewardDELAYEDREWARD?CharacteristicsofMDP:asetofstates:Sasetofactions:Aarewardfunction:R:SxARAstatetransitionfunction:T:SxA∏(S)T(s,a,s’):probabilityoftransitionfromstos’usingactiona2019/11/30强化学习史忠植16MDPEXAMPLE:TransitionfunctionStatesandrewardsBellmanEquation:(Greedypolicyselection)2019/11/30强化学习史忠植17MDPGraphicalRepresentationβ,α:T(s,action,s’)SimilaritytoHiddenMarkovModels(HMMs)highlowsearchwaitrechargesearchwaitSearchR,waitR,13,10,1SearchR,1SearchR,waitR,12019/11/30强化学习史忠植18动态规划DynamicProgramming-ProblemAdiscrete-timedynamicsystemStates{1,…,n}+terminationstate0ControlU(i)TransitionProbabilitypij(u)AccumulativecoststructurePolicies10),,,(juirk},,{10)()|(1ipiijipkijkk2019/11/30强化学习史忠植19FiniteHorizonProblemInfiniteHorizonProblemValueIteration动态规划DynamicProgramming–IterativeSolutioniiiiiriGEiVNkkkkkkNNN0101)),(,()()(iiiiirEiVNkkkkkkn0101)),(,(lim)(nijVjuirupiVTnjijiUu,,1,)(),,()(max)(0)()()(1iVTiVkk)(min)(*iViV2019/11/30强化学习史忠植20动态规划中的策略迭代/值迭代11()argmax()()(,)()()max()aassssasaaksssskasaaksssskassPRVsVssaPRVsVsPRVs***1010VVVpolicyevaluationpolicyimprovement“greedification”PolicyIterationValueIteration2019/11/30强化学习史忠植21动态规划方法11()()tttVsErVsTTTTstrt1st1TTTTTTTTT2019/11/30强化学习史忠植22自适应动态规划(ADP)Idea:usetheconstraints(statetransitionprobabilities)betweenstatestospeedlearning.SolvejijjUMiRiU)()()(=valuedetermination.Nomaximizationoveractionsbecauseagentispassiveunlikeinvalueiteration.usingDPLargestatespacee.g.Backgammon:1050equationsin1050variables2019/11/30强化学习史忠植23ValueIterationAlgorithmANALTERNATIVEITERATION:(Singh,1993)(Importantformodelfreelearning)Stop
本文标题:高级人工智能第十章
链接地址:https://www.777doc.com/doc-1862282 .html