您好,欢迎访问三七文档
当前位置:首页 > 机械/制造/汽车 > 综合/其它 > 以加强式学习建构机器人行为融合演算法
以加強式學習建構機器人行為融合演算法中正大學電機工程學系黃國勝博士2大綱•研究動機•背景介紹•單一行為模仿演算法•融合行為學習演算法(FBQL)•實驗設計與討論•結論與未來展望3研究動機問題一設計機器人行為構成的困難:環境多變需要縝密的考量需要機器人學的知識由實測結果來調整修正HardComputingv.s.SoftComputing4研究動機問題二多個行為如何並存?•合作-Behavioralfusion,Gametheory•競爭-Subsumption5背景介紹•加強式學習•Q-Learning•決策樹分割法•SubsumptionArchitecture加強式學習理論結構控制系統狀態獎勵激發)(tu)(tr)(ts)1(ts)1(tr1z外部環境a(t)Stateencoder7加強式學習理論結構•控制系統與外部環境互動•控制系統能接收一組環境狀態•S={s1,s2,….,st}•控制系統有一組可執行動作•A={a1,a2,..at}•環境繼以反應一獎勵值rt=r(st,at)•環境同時也隨之移轉到一新的狀態st+1=δ(st,at)•r,δ環境的一部份,控制系統不需已知8加強式學習理論結構•Markovdecisionprocess(MDP)•r(st,at),δ(st,at)只相依現有狀態與執行動作•政策(policy)的形成•控制系統學習政策π:S→A,根據現有狀態st,挑選一最有利的動作at•可行的政策需可滿足最大化積累獎勵值Vπ(st)•Vπ(st)=rt+rt+1+rt+2+…π*=argmaxVπ(s)foralls2n29•Exampler(s,a)immediaterewardvaluesGGGG0000000000100100000OneoptimalpolicyQ(s,a)valuesV*(s)values819010090100(supposeγ=0.9)V=0+0.9x0+0.92x100+0.93x0...=81V=0+0.9x100+0.92x0+...=90V=100+0.9x0+...=10081817272909090811008181100加強式學習理論結構AdaptiveHeuristicCritic結構PlantACEASEExternalReinforcementSignalInternalReinforcementSignalActionStateVariablesrrˆYa(t)Stateencoder11背景介紹:Q-Learning•直接學習π*:S→A有所困难,因為學習資料少有s,a的形式•每當V*(s1)V*(s2),控制系統較喜的在狀態s1而非狀態s2•在狀態s下,最佳的動作a,係可最大化獎勵值-r(s,a)以及以算下一狀態的V*π*=argmaxa[r(s,a)+V*(δ(s,a))]12背景介紹:Q-Learning•CorrelatedmeasurementQQ(s,a)=r(s,a)+*(δ(s,a))π*=argmaxaQ(s,a)•RelationbetweenQandV*V*(s)=maxa‘Q(s,a’)•EstimateQ-valueiterativelyQ'(s,a)←r+maxa'Q'(s,a’)13背景介紹:Q-Learning),()','(max),(),('asQasQrasQasQaagentenvironmentreward)(tr)1(tr)(ts)1(tsactionstate)(taagentenvironmentreward)(tr)1(tr)(ts)1(tsactionstate)(ta14背景介紹:決策樹分割法5x5x18y5x18y18y1fz2fz3fzyx3f2f1f5x18y5x5x18y5x18y18y1fz2fz3fzyx3f2f1f5x18y15背景介紹:SubsumptionArchitecture感測訊號致動器探索新區域避開障礙物移動撿起罐子回家放下罐子感測訊號致動器探索新區域避開障礙物移動撿起罐子回家放下罐子SSApproachOffWallGoBallSSApproachOffWallGoBallSSApproachOffWallGoBall16單一行為模仿演算法•加強式學習之決策樹分割法(RL-basedDT)•決策樹結構狀態空間之加強式學習agent(歸納者)environment(決策樹))(tr)1(tr)(ts)1(ts)(tastate(內部節點)action(切割位置)reward(切割成本+純度改善)agent(歸納者)environment(決策樹))(tr)1(tr)(ts)1(ts)(tastate(內部節點)action(切割位置)reward(切割成本+純度改善)控制系統狀態獎勵激發)(tu)(tr)(ts)1(ts)1(tr1z外部環境17加強式學習之決策樹分割法(RL-basedDT)agent(歸納者)environment(決策樹))(tr)1(tr)(ts)1(ts)(tastate(內部節點)action(切割位置)reward(切割成本+純度改善)agent(歸納者)environment(決策樹))(tr)1(tr)(ts)1(ts)(tastate(內部節點)action(切割位置)reward(切割成本+純度改善)18加強式學習之決策樹分割法(RL-basedDT)•純度計算公式:-1.7806)163()log163()163()log163()162()log162()168()log168(N12222的純度JjjjppE12)(log)((10,0)x(0,6)N1y(10,0)x(0,6)N1y19加強式學習之決策樹分割法(RL-basedDT)切割終止條件:內部節點所包含的區域太小內部節點所包含的資料量太少切割過後,會導致某一邊沒有資料內部節點的純度夠純20加強式學習之決策樹分割法(RL-basedDT)0204060801001201400-0.2-0.4-0.6-0.8-1切割成本-1.4-1.2-1-0.8-0.6-0.4-0.20葉子總數純度葉子總數純度0204060801001201400-0.2-0.4-0.6-0.8-1切割成本-1.4-1.2-1-0.8-0.6-0.4-0.20葉子總數純度葉子總數純度21加強式學習之決策樹分割法(RL-basedDT)05010015020002004006008001000訓練次數葉子節點數22加強式學習之決策樹分割法(RL-basedDT)-1-0.8-0.6-0.4-0.2005001000訓練次數總純度23加強式學習之決策樹分割法(RL-basedDT)Z(類別)X(距離)Y(角度)Z(類別)X(距離)Y(角度)24決策樹結構狀態空間之加強式學習agentenvironmentreward)(tr)1(tr)(ts)1(tsactionstate)(ta25Z(輪速)X(距離)Y(角度)Z(輪速)X(距離)Y(角度)決策樹結構狀態空間之加強式學習Z(輪速)X(距離)Y(角度)Z(輪速)X(距離)Y(角度)26加強式學習之決策樹分割法(RL-basedDT)•展示模擬影片•展示實體影片27融合行為學習演算法(FBQL)FBQL環境sensoryrewardFused)(tr)1(tr)(tsen)1(tsen)(tFBBehaviorinput狀態標記28agentenvironmentagentenvironment融合行為學習演算法(FBQL)BehaviorrewardFusedrFBsenw(s,1)w(s,2)w(s,|B|)Behavior(|B|)FBQLBehavior(2)Behavior(1)sensoryinputBehaviorrewardFusedrFBsenw(s,1)w(s,2)w(s,|B|)Behavior(|B|)FBQLBehavior(2)Behavior(1)w(s,1)w(s,2)w(s,|B|)Behavior(|B|)FBQLBehavior(2)Behavior(1)sensoryinput29融合行為學習演算法(FBQL)•狀態標記法(RL-basedDecisionTree):6y0846x12093分類表示範圍(x,y)N1(0,3,0,8)N2(3,6,0,8)N3(6,9,0,4)N4(9,12,0,4)N5(6,12,4,6)N6(6,9,6,8)N7(9,12,6,8)30融合行為學習演算法(FBQL)•狀態標記法(FBQL):state={N5,N1,N7}31•融合輸出動作(FusedBehavior):融合行為學習演算法(FBQL),),(1BiiBiswFB1),(1Biisw32融合行為學習演算法(FBQL)•回饋值(reward):DenserewardSparsereward設計難易度困難容易學習速度快慢學習系統複雜度低高局部極小值問題可能發生不會發生33融合行為學習演算法(FBQL)•評估值Q值更新:),(),'(),'(),(),(),(1isQjsQjswriswisQisQBj立即回饋值積累回饋值34融合行為學習演算法(FBQL)•權重值W值更新:•權重值W值正規化:Bjjswiswisw1),(),(),(forallBiotherwisefisQiswisQiiffisQiswiswiswi,,),(0),(maxarg,),(),(1),(),(35融合行為學習演算法(FBQL)•示範動作:•為了加快FBQL的學習速度•引領機器人去接觸到特定的回饋值•節省隨機搜尋所空耗的時間•不需要特殊的操控BehaviorrewardFusedrFBsenFBQLBehavior(|B|)Behavior(2)Behavior(1)sensoryinputExamplePolicyBehaviorrewardFusedrFBsenFBQLBehavior(|B|)Behavior(2)Behavior(1)sensoryinputExamplePolicy加強式學習之決策樹分割法•追球行為模仿•避撞行為模仿•跑位行為模仿36agent(歸納者)environment(決策樹))(tr)1(tr)(ts)1(ts)(tastate(內部節點)action(切割位置)reward(切割成本+純度改善)agent(歸納者)environment(決策樹))(tr)1(tr)(ts)1(ts)(tastate(內部節點)action(切割位置)reward(切割成本+純度改善)控制系統狀態獎勵激發)(tu)(tr)(ts)1(ts)1(tr1z外部環境37實驗設計與討論:追球行為模仿共122種類38實驗設計與討論:避牆行為模仿共11種類39實驗設計與討論:跑位行為模仿共37種類40實驗設計與討論:FBQLApproachApproach_angleRobot_angleGoBallBall_distanceBall_angleRobot_XRobot_Yw2w1w3OffWallWall_distanceWall_angleApproachApproach_angleRobot_angleGoBallBall_distanceBall_angleRobot_XRobot_Yw2w1w3OffWallWall_distanceWall_angleApproachApproach_angleRobot_angleApproac
本文标题:以加强式学习建构机器人行为融合演算法
链接地址:https://www.777doc.com/doc-44992 .html