您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 《神经网络与深度学习》
深度强化学习《神经网络与深度学习》2强化学习•智能体(Agent)–感知外界环境的状态(State)和奖励反馈(Reward),并进行学习和决策。智能体的决策功能是指根据外界环境的状态来做出不同的动作(Action),而学习功能是指根据外界环境的奖励来调整策略。•环境(Environment)–智能体外部的所有事物,并受智能体动作的影响而改变其状态,并反馈给智能体相应的奖励。《神经网络与深度学习》3强化学习•强化学习问题可以描述为一个智能体从与环境的交互中不断学习以完成特定目标(比如取得最大奖励值)。•强化学习就是智能体不断与环境进行交互,并根据经验调整其策略来最大化其长远的所有奖励的累积值。《神经网络与深度学习》4马尔可夫决策过程•马尔可夫过程《神经网络与深度学习》5强化学习中的基本要素•环境的状态集合:S;•智能体的动作集合:A;•状态转移概率:p(s’|s,a),即智能体根据当前状态s做出一个动作a之后,下一个时刻环境处于不同状态s’的概率;•即时奖励:R:S×A×S’→R,即智能体根据当前状态做出一个动作之后,环境会反馈给智能体一个奖励,这个奖励和动作之后下一个时刻的状态有关。《神经网络与深度学习》6策略π(a|s)•马尔可夫决策过程的一个轨迹(trajectory)•τ的概率《神经网络与深度学习》7总回报•给定策略π(a|s),智能体和环境一次交互过程的轨迹τ所收到的累积奖励为总回报(return)–γ∈[0,1]是折扣率。当γ接近于0时,智能体更在意短期回报;而当γ接近于1时,长期回报变得更重要。–环境中有一个或多个特殊的终止状态(terminalstate)《神经网络与深度学习》8强化学习目标函数•强化学习的目标是学习到一个策略πθ(a|s)来最大化期望回报(expectedreturn)–θ为策略函数的参数《神经网络与深度学习》9状态值函数•一个策略π期望回报可以分解为•值函数:从状态s开始,执行策略π得到的期望总回报《神经网络与深度学习》10Bellman方程《神经网络与深度学习》11状态-动作值函数(Q函数)•状态-动作值函数是指初始状态为s并进行动作a,然后执行策略π得到的期望总回报。•Q函数的贝尔曼方程《神经网络与深度学习》12最优策略•最优策略:存在一个最优的策略π∗,其在所有状态上的期望回报最大《神经网络与深度学习》13深度强化学习•深度强化学习是将强化学习和深度学习结合在一起,用强化学习来定义问题和优化目标,用深度学习来解决状态表示、策略表示等问题。–两种不同的结合强化学习和深度学习的方式,分别用深度神经网络来建模强化学习中的值函数、策略,然后用误差反向传播算法来优化目标函数。《神经网络与深度学习》14基于值函数的策略学习《神经网络与深度学习》15强化学习算法•基于模型的强化学习算法–基于MDP过程:状态转移概率p(s’|s,a)和奖励函数R(s,a,s’)–策略迭代–值迭代•模型无关的强化学习–无MDP过程–蒙特卡罗采样方法–时序差分学习《神经网络与深度学习》16基于模型的强化学习《神经网络与深度学习》17策略迭代《神经网络与深度学习》18值迭代•值迭代方法将策略评估和策略改进两个过程合并,来直接计算出最优策略。《神经网络与深度学习》19模型无关的强化学习《神经网络与深度学习》20蒙特卡罗采样方法《神经网络与深度学习》21ϵ-贪心法•利用和探索–对当前策略的利用(Exploitation),–对环境的探索(Exploration)以找到更好的策略•对于一个确定性策略π,其对应的ϵ−贪心法策略为《神经网络与深度学习》22时序差分学习方法•结合了动态规划和蒙特卡罗方法从s,a开始,采样下一步的状态和动作(s′,a′),并得到奖励r(s,a,s′),然后利用贝尔曼方程来近似估计G(τ)蒙特卡罗误差《神经网络与深度学习》23SARSA算法(StateActionRewardStateAction,SARSA)《神经网络与深度学习》24Q学习算法–Q学习算法不通过πϵ来选下一步的动作a′,而是直接选最优的Q函数,《神经网络与深度学习》25基于值函数的深度强化学习•为了在连续的状态和动作空间中计算值函数Qπ(s,a),我们可以用一个函数Qϕ(s,a)来表示近似计算,称为值函数近似(ValueFunctionApproximation)《神经网络与深度学习》26目标函数•存在两个问题:–目标不稳定,参数学习的目标依赖于参数本身;–样本之间有很强的相关性。•深度Q网络–一是目标网络冻结(freezingtargetnetworks),即在一个时间段内固定目标中的参数,来稳定学习目标;–二是经验回放(experiencereplay),构建一个经验池来去除数据相关性。《神经网络与深度学习》28策略梯度《神经网络与深度学习》29基于策略函数的深度强化学习•可以直接用深度神经网络来表示一个参数化的从状态空间到动作空间的映射函数:a=πθ(s)。•最优的策略是使得在每个状态的总回报最大的策略,因此策略搜索的目标函数为《神经网络与深度学习》30策略梯度(PolicyGradient)•策略搜索是通过寻找参数θ使得目标函数J(θ)最大。•梯度上升:总回报轨迹概率τ:轨迹《神经网络与深度学习》31REINFORCE算法《神经网络与深度学习》32带基准线的REINFORCE算法《神经网络与深度学习》33Actor-Critic算法《神经网络与深度学习》34不同强化学习算法之间的关系《神经网络与深度学习》35汇总《神经网络与深度学习》36谢谢
本文标题:《神经网络与深度学习》
链接地址:https://www.777doc.com/doc-3722020 .html