您好,欢迎访问三七文档
当前位置:首页 > 建筑/环境 > 工程监理 > 北京交通大学(最优控制理论与算法研究生课程)第六章动态规划与离散系统最优控制.
动态规划与离散系统最优控制(1/3)第6章动态规划与离散系统最优控制前面讨论了连续系统最优控制问题的基于经典变分法和庞特里亚金的极大值原理的两种求解方法。所谓连续系统,即系统方程是用线性或非线性微分方程描述的动态系统。该类系统的控制问题是与传统的控制系统和控制元件的模拟形式实现相对应,如模拟运算放大器件、模拟自动化运算仪表、模拟液压放大元件等。随着计算机技术及其计算机控制技术的发展,离散系统的最优控制问题也必然成为最优控制中需深入探讨的控制问题,而且成为现代控制技术更为关注的问题。动态规划与离散系统最优控制(2/3)离散系统的控制问题为人们所重视的原因有二,1)连续系统在实现控制时,在应用计算机控制技术、数字控制技术时,须经采样后成为离散化系统,再加以控制如许多现代工业控制领域的实际计算机控制问题。2)有些实际控制问题本身即为离散系统,如某些经济计划系统、人口系统的时间坐标只能以小时、天或月等标记;再如机床加工中心的时间坐标是以一个事件(如零件加工活动)的发生或结束为标志的。动态规划与离散系统最优控制(3/3)本节将介绍解决离散系统最优控制的有效工具—贝尔曼动态规划,以及线性离散系统的二次最优控制问题。内容为最优性原理与离散系统的动态规划法线性离散系统的二次型最优控制最优性原理与离散系统的动态规划法(1/3)6.1最优性原理与离散系统的动态规划法基于对多阶段决策过程的研究结果,贝尔曼在20世纪50年代首先提出了求解离散多阶段决策优化问题的动态规划法。多阶段决策优化问题方法在许多领域得到应用和发展,如在生产计划、资源配置、信息处理、模式识别等方面都有成功的应用。本节介绍将动态规划优化方法应用于动态系统的最优控制问题,构成最优控制的两种主要求解方法之一的最优控制动态规划法。最优性原理与离散系统的动态规划法(2/3)动态规划的核心是贝尔曼最优性原理这个原理归结为一个基本的递推公式。求解多阶段决策问题时,要从末端开始,逆向递推,直至始端。动态规划的离散基本形式受到问题的维数的限制,应用有一定的局限性。但对于求解决线性离散系统的二次型性能指标的最优控制问题特别有效。至于连续系统的最优控制问题的动态规划法,不仅是一种可供选择的有充分性的最优控制求解法,它还揭示了动态规划与变分法、极大值原理之间的关系,具有重要的理论价值。最优性原理与离散系统的动态规划法(3/3)下面分别介绍多阶段决策问题最优性原理一般问题的问题描述离散系统的动态规划法多阶段决策问题(1/12)1.多阶段决策问题在讨论动态规划法之前,先考察一个简单的最短时间行车问题,简称行车问题。例如图10所示,某交通工具从S站出发,终点为F站,全程可分为4段。中间可能经过的各站及站间的行车时间均已标记在图上。图10某行车路线图试求最短行车时间的行车路线。多阶段决策问题(2/12)由S站出发至终点F站可有多种不同的行车路线,沿各种行车路线所耗费的时间不同。为使总的行车时间最短,司机在路程的前3段要作出3次决策。首先,一开始司机要在经过x1(1)站还是x2(1)站两种情况中作出决策。到x1(1)站或x2(1)后,又面临下一站是经过x1(2)站还是x2(2)站的第2次决策。同样,在后续的每个阶段都要作出类似的决策。多阶段决策问题(3/12)因此,计算8种不同的行车路线所耗费的总行车时间,取最小者即可求出最短时间行车路线。若行车问题需作决策的阶段数n较大,每次决策中可供选择的方案较多时,用上述的穷(枚)举法来解决最短行车时间问题计算量非常大。一般说来,用穷举法计算时间与作决策的阶段数n和每次决策中可供选择的方案数成指数关系,即通常所称的指数爆炸、维数灾难。多阶段决策问题(4/12)通过分析发现,另一种求最短时间行车路线方法的是:从最后一阶段开始,先分别算出x1(3)站和x2(3)站到终点F的最短时间(成本),并分别记为J[x1(3)]和J[x2(3)]。实际上,最后一阶段没有选择的余地。因此,由图10可求得J[x1(3)]=4,J[x2(3)]=3多阶段决策问题(5/12)为便于今后求解过程的应用,可将从x1(3)站和x2(3)站到终点的最短时间J[x1(3)]和J[x2(3)]的数值标记于代表该站的小圆圈内,如图11所示。其他站的情况依此类推。图11最优行车路线图多阶段决策问题(6/12)由此向后倒推,继续考察倒数第2段,计算x1(2)站和x2(2)站到终点F的最短时间,并分别记为J[x1(2)]和J[x2(2)]。由图10可知,从x1(2)站到达终点F的路线中下一站只能是x1(3)站和x2(3)站中之一。由于从x1(3)站和x2(3)站分别前往终点的最短时间已经计算出,因此,从x1(2)站和x2(2)到终点的最短时间分别为,J[x1(2)]=min{1+J[x1(3)],1+J[x2(3)]}=4J[x2(2)]=min{2+J[x1(3)],2+J[x2(3)]}=5其相应的最短时间行车路线{x1(2),x2(3),F}和{x2(2),x2(3),F}。多阶段决策问题(7/12)类似于前面过程,其他各站到终点的最短时间和相应的行车路线如图11所示.从图11得到各站到终点站F的最短时间行车路线和所耗费的行车时间,从起点站S到终点站F的最短时间行车路线和所耗费的行车时间。多阶段决策问题(8/12)上述最短行车时间路线问题及其求解方法可以推广为多阶段决策优化问题,如建筑安装工期计划、经济发展计划、资源合理配置等,其相应的最优性指标可以为所耗费的时间最短,也可以为所耗费的能源最小、所得到的效益最好等。因此,前面介绍逆向递推求解最优化问题的方法是一种具有普遍性意义的多阶段决策优化方法,称为动态规划法。从上述解题的叙述过程可以看出,动态规划法具有如下特点。多阶段决策问题(9/12)1)与穷举法相比,动态规划法可使计算量大为减少。事实上,用动态规划法解多阶段决策问题,只需作一些简单的、非常有限的加法运算和求极大运算。如对一个有n个阶段,除最后一段外每一个状态下一步有m种可能决策方案的多阶段决策问题,共需作(n-2)m2+m=(mn-2m+1)m次加法运算,以及(mn-2m+1)(m-1)次从二取一的极大运算而对穷举法,则需作m×mn-2×(n-1)=mn-1(n-1)次加法运算和mn-1-1次的从二取一的极大运算。如对前面的n=4,m=2的最短时间行车问题,用动态规划法求解共需作10次加法运算和5次从二取一的极大运算。而用穷举法求解,则分别为24次和8次。多阶段决策问题(10/12)因此,动态规划法在减少计算量上的效果是显著的。阶段数n越大,决策方案m越多,则动态规划法的优点更为突出。如对n=10,m=4的多阶段决策问题,用动态规划法求解共需作132次加法运算和33次从二取一的极大运算,而用穷举法求解分别为2359296次和262143次。因此,动态规划法的效果是非常显著的。多阶段决策问题(11/12)2)用动态规划法求解多阶段决策问题的思路是:为了最后确定由起点S至终点F的最优路线,首先逆向递推求出各状态至终点F的最优路线在求取当前状态到终点的极值时,只需知道当前状态值和上一次的最优(集合)值,就可以得到当前的最优值,并以此作为下一次优化的初始数据贝尔曼的最优性原理就是运用这个原理给出递推方法的多阶段决策问题(12/12)3)由图11可知,与从起点S至终点F的最优路线{S,x2(1),x1(2),x2(3),F}相对应的,该最优路线的从x2(1)站至终点F部分的路线{x2(1),x1(2),x2(3),F}是从x2(1)站至终点F的最优路线类似地,从x1(2)站至终点F的最优路线{x1(2),x2(3),F}是从起点S至终点F的最优路线{S,x2(1),x1(2),x2(3),F}的一部分,也是从x2(1)至终点F的最优路线{x2(1),x1(2),x2(3),F}的一部分对于多阶段决策问题,最优路线和最优决策具有这种性质不是偶然的,而反映了该问题的一种规律性,即所谓的贝尔曼的最优性原理它是动态规划法的核心最优性原理一般问题的问题描述(1/22)2.最优性原理一般问题的问题描述动态规划的基本原理介绍一些专有名词介绍多阶段决策问题介绍最优性原理应用最优性原理求解多阶段决策过程,并推广至离散系统最优控制下面将在函数空间中描述N个阶段的决策过程,为此先引进下述概念与定义。1)状态向量x(k),表示过程在k时刻的状态。对控制问题,相当于状态变量向量。最优性原理一般问题的问题描述(2/22)2)决策向量u(k),表示过程在k时刻的从某一状态转变为另一状态的动因(激励)。对控制问题,则相当于控制输入向量。3)策略{u(0),u(1),…,u(N-1)}是各个阶段的决策所组成的决策集合。对控制问题,则相当于控制输入向量的序列。4)成本(cost)J,由于状态发生转移所耗费的成本。对最优控制问题,相当于其性能指标。最优性原理一般问题的问题描述(3/22)设在决策u(k)的作用下,发生了状态从x(k)到x(k+1)的转移。显然新的状态x(k+1)完全取决于原来的状态x(k)和所采取的决策u(k)。也可以把这种转移看成是在决策u(k)作用下的状态从x(k)到x(k+1)的一种变换,且这种变换关系是唯一的,即x(k+1)=f(x(k),u(k),k)在每一阶段,通常有若干个决策可供选择,我们用Ω(k)代表第k个阶段可供选择的决策集合。一般说来,阶段不同,其决策集合Ω(k)也不同。用Ω代表全部可供选择的决策的集合,即Ω=Ω(0)∪Ω(1)∪…∪Ω(N-1)最优性原理一般问题的问题描述(4/22)多阶段的决策问题描述如下:设系统由决策u(k),经变换式(182)把状态从x(k)转移到x(k+1),其相应耗费的成本为F(x(k),u(k),k),k=0,1,…,N-1。现需通过一变换序列f(x(0),u(0),0),f(x(1),u(1),1),…,f(x(N-1),u(N-1),N-1)将初始状态x(0)经x(1),…,x(N-1)转移到终态x(N),这N次转移相对应的所耗费的总成本为试求出一个决策序列{u(0),u(1),…,u(N-1)}Ω,使N阶段决策问题的总成本最小。))),(),(()]1(),...,1(),0(),0([10NkkkkFNJuxuuuxx(k+1)=f(x(k),u(k),k)(182)最优性原理一般问题的问题描述(6/22)问题(183)的描述形式和最短路径问题有所不同。如果把(182)看作约束条件,最短路径问题是一个无约束的动态规划问题,而问题(183)是一个具有约束的动态规划问题,因为在每一级优化(决策)的时候,都要考虑状态与控制之间的变换关系。动态规划法是求解多阶段决策问题的一种最优化方法。这一问题的核心是最优性原理。最优性原理可以表述如下:一个最优性决策具有这样的性质,即不论初始状态和初始决策如何,对于前面决策所形成的状态来说,其余诸决策序列必须构成一个最优决策。为了证实最优性原理,有下面的定理.10(1)((),(),)(182)[(0),(0),(1),...,(1)]((),(),)(183)NkkkkkJNFkkkxfxuxuuuxu最优性原理一般问题的问题描述(7/22)—定理7-17定理17若用u(0,N-1)表示N阶段决策过程中的一个策略,u(0,k-1)和u(k,N-1)分别为前k个阶段和后N-k个阶段的子策略;并用J[x(0),u(0,N-1)]表示N阶段决策过程的总成本,J[x(0),u(0,k-1)]和J[x(k),u(k,N-1)]分别为前k个阶段和后N-k个阶段的总成本,即存在如下两个等式u(0,N-1)={u(0,k-1),u(k,N-1)}J[x(0),u(0,N-1)]=J[x(0),u(0,k-1)]+J[x(k),u(k,N-1)]则策略
本文标题:北京交通大学(最优控制理论与算法研究生课程)第六章动态规划与离散系统最优控制.
链接地址:https://www.777doc.com/doc-2621720 .html