深度学习课件：深度强化学习

IntroductiontoDeepReinforcementLearningYen-ChenWu2015/12/11Outline•ReinforcementLearning•MarkovDecisionProcess•HowtoSolveMDPs–DP–MC–TD–Q-learning(DQN)•PaperReviewREINFORCEMENTLEARNINGBranchesofMachineLearningWhatmakesdifferent?•Thereisnosupervisor,onlyarewardsignal•Feedbackisdelayed,notinstantaneous•Timereallymatters(sequential,noni.i.ddata)•Agent’sactionsaffectthesubsequentdataitreceivesGoal:MaximizeCumulativeReward•Actionsmayhavelongtermconsequences•Rewardmaybedelayed•Itmaybebettertosacrificeimmediaterewardtogainmorelong-termrewardAgent&Enviroment→←↑↓DefenseAttackJumpMARKOVDECISIONPROCESSMarkovProcessesMarkovRewardProcessesMarkovDecisionProcessesMarkovProcessMarkovRewardProcessesMarkovDecisionProcessMarkovDecisionProcess(MDP)•S:finitesetofstates(observations)•A:finitesetofactions•P:transitionprobability•R:immediatereward•γ:discountfactor•Goal:–Choosepolicyπ–Maximizeexpectedreturn:HOWTOSOLVEMDPDynamicProgrammingMonte-CarloTemporal-DifferenceQ-LearningModel-based•DynamicProgramming–Evaluatepolicy–UpdatepolicyModelFree•UnknownTransitionProbability&Reward•MCvsTDModelFree:Q-learning•Insteadoftabular•optimalaction-valuefunction(Q-learning)–=•BellmanequationBasicidea:iterativeupdate(lackofgeneralization)Inpractical:functionapproximatorLinear?UsingDNN!DEEPQ-NETWORK(DQN)Video•=LJ4oCb6u7kkDeepQ-Network•computeQ-valuesforallactionsInput:84x84x4Convolves32filtersof8x8withstride4Convolves64filtersof4x4withstride2Convolves64filtersof3x3withstride1Full-connected512nodesOutputanodeforeachactionUpdateDQN•Lossfunction•GradientTwoTechnique•ExperienceReplay–Experience–PooledMemory•Dataefficiency(bootstrap)•Avoidcorrelationbetweensamples(variancebetweenbatches)•Off–policyissuitableforQ-learning–Randomsampledmini-batch–Prioritizedsweeping(activelearning)•SeparateTargetNetwork–morestablethanonlinelearningExampleLearnthevalueof…Pros&ConsOn-policySARSApolicybeingcarriedoutbytheagentFastbutweakOff-policyDQNoptimalpolicyindependentlyoftheagent'sactionsSlowbutrobustDEMOPAPERREVIEWPaperlist•MassivelyParallelMethodsforDeepReinforcementLearning•Continuouscontrolwithdeepreinforcementlearning•DeepReinforcementLearningwithDoubleQ-learning•PolicyDistillation•DuelingNetworkArchitecturesforDeepReinforcementLearning•MultiagentCooperationandCompetitionwithDeepReinforcementLearningMassivelyParallelMethodsforDeepReinforcementLearningArunNairarXiv:1507.04296DDPG(DeterministicPolicyGradient)•DDAC(DeepDeterministicActor-Critic)ContinuouscontrolwithdeepreinforcementlearningTimothyP.LillicraparXiv:1509.02971•SofttargetDuelingNetworkMultiagent

深度学习课件：深度强化学习

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

沙发“十二五”纺织节能减排的建议

服装标识要求

水利水电科技主题词在_水电站设计_试用初探

国际金融名词解释

我国汽车工业的成本管理创新战略

本期主题：资源税改革

酒店基层员工工作倦怠、组织承诺与工作绩效的关系

劳动合同制度的构建

武汉天澄环保科技公司计划经营部计划管理考核指标

文档：某项目融资协议

相关文档

相关搜索

深度学习课件：深度强化学习

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

沙发“十二五”纺织节能减排的建议

服装标识要求

水利水电科技主题词在_水电站设计_试用初探

国际金融 名词解释

我国汽车工业的成本管理创新战略

本期主题：资源税改革

酒店基层员工工作倦怠、组织承诺与工作绩效的关系

劳动合同制度的构建

武汉天澄环保科技公司计划经营部计划管理考核指标

文档：某项目融资协议

相关文档

相关搜索

国际金融名词解释