您好,欢迎访问三七文档
第六章最优控制模型6.0引言•1、经济行为人决策的典型特征经济活动的行为主体主要有家庭、企业和政府。家庭在做决策时,既要考虑今天,也要考虑明天,既要考虑当代,还要考虑下一代;企业在做决策时,不仅要考虑当期的收益,也要考虑未来的持续经营;政府在做决策时,不仅要考虑当前,也要考虑未来。总之,经济行为人的决策是一个跨期优化(intertemporaloptimazation)问题。•2、处理跨期优化问题的方法•(1)最优控制(optimalcontrol)•(2)变分法(calculusofvariations)•(3)动态规划(dynamicprogramming)6.1离散跨期选择问题•1、离散跨期选择的经典问题——“吃糕”问题•假设行为人拥有一些不可再生的资源,如一块蛋糕,该资源的初始存量为S0,行为人在时期t的消费量为ct,则在时期t资源的存量为:St=St-1-ct再假设行为人确切地知道他能活3个时期,如青年、中年、老年三个时期,问题是该行为人如何将其资源在各个时期中消费?6.1离散跨期选择问题•2、“吃糕”问题的数学表述•记行为人的效用函数为u(ct),该效用函数在各个时期均相同,且有:u´(c)0,u´´(c)0,u´(0)=再记未来效用的折现率为ρ,行为人追求一生当中效用的现值的最大化,则该行为人的消费决策问题就可表示为:式中St称为状态变量,ct称为控制变量。3322211102321;;:11:ScSScSScSstcucucuLMaxtc6.1离散跨期选择问题•3、“吃糕”问题的求解•假设行为人并没有留有遗产的动机,则有:S3=0,c3=S2,c2+c3=S1,c1+c2+c3=S0•使用拉格朗日乘子法,得:MaxL=u(c1)+u(c2)/(1+ρ)+u(c3)/(1+ρ)2+λ(S0-c1-c2-c3)•使L最大化的一阶条件为:L/c1=u´(c1)-λ=0L/c2=u´(c2)/(1+ρ)-λ=0L/c3=u´(c3)/(1+ρ)2-λ=0即有:u´(c1)=u´(c2)/(1+ρ)=u´(c3)/(1+ρ)26.1离散跨期选择问题•3、“吃糕”问题的求解•由式u´(c1)=u´(c2)/(1+ρ)=u´(c3)/(1+ρ)2,可知:•如果折现率=0,则有:u´(c1)=u´(c2)=u´(c3)即:c1=c2=c3•如果折现率0,则有:u´(c1)u´(c2)u´(c3)即:c1c2c3•如果确切知道和S0的值,则可具体求出c1、c2和c3。6.2连续时间的最优控制•6.2.1基本概念•1、跨期效用函数•所谓跨期效用函数,即行为人一生的总效用函数,如“吃糕”问题中的效用函数:U(c1,c2,c3)=u(c1)+u(c2)/(1+ρ)+u(c3)/(1+ρ)2其中,每个时期的效用函数u(ct)称为“幸福”(felicity)函数。•对于连续时间的情形,跨期效用函数通常写为:U(ct)=t0Tu(ct)e-ρtdt其中每时刻的效用函数u(ct)又称为瞬时效用函数,或“幸福”函数。6.2连续时间的最优控制•1、跨期效用函数•如此设定的跨期效用函数具有可加性(additivity)或称可分离性(separability)的性质。•可分离性的条件为:Mij/ck=0其中Mij为不同时期消费的边际替代率(marginalrateofsubstitutionbetweenconsumptioninperiodiandj),即:Mij=Ui(.)/Uj(.)=(U/ci)/(U/cj)6.2连续时间的最优控制•2、指数折现率•在跨期效用函数中,通常需要有折现因子。一般地,折现因子可表示为α(t)。在连续时间的跨期效用函数中,折现因子一般设定为指数形式,即有:α(t)=e-ρt•设定指数折现形式的好处是可避免时间不一致性(timeinconsistency)。所谓时间不一致性是指,一个消费计划在开始时被认为是最优的,但过了一段时间再评估就不是最优的了。6.2连续时间的最优控制•3、目标函数•跨期最优化问题的目标函数的一般形式为:F(s,c,t)=t0Tf[s(t),c(t),t]dt其中,T可以是无穷大,折现因子已包含在了f[s(t),c(t),t]函数之中。s(t)称为状态变量,c(t)称为控制变量,t为时间。•若时间t只是间接地通过s(t)和c(t)出现在函数f之中,则称此跨期优化问题为自治问题(autonomousproblem),若t直接出现在函数f之中,则称为非自治问题(non-autonomousproblem)。6.2连续时间的最优控制•4、状态变量的运动方程•状态变量就是不由行为人直接控制的系统内生决定的变量,而控制变量则是行为人可直接控制的变量。行为人通过对控制变量的控制可以间接地影响状态变量,状态变量的变化方程是控制变量的函数,可表示为:ś(t)=g[s(t),c(t),t]称为状态变量的运动方程。最优控制问题就是要找出控制变量在各个时刻的最优取值,使得目标函数值达到最大(或最小)。控制变量从初始时刻到终结时刻的变化过程称为控制变量的路径,状态变量的变化过程称为状态变量的路径。6.2连续时间的最优控制•5、横截条件•所谓横截条件,就是可以把状态变量的最优路径与其他允许路径区别开来的条件。类似于微分方程中的初始条件,横截条件确定了状态变量的具体路径,即决定了状态变量和控制变量的最优轨线(optimaltrajectory)。•最简单的横截条件是固定始点和固定终点条件,即:s(t0)=s0,s(T)=sT许多经济问题都有一个给定的出发点s0,当其终点值sT本身就是优化问题的一部分。6.2连续时间的最优控制•6、拉格朗日函数•最简单的最优控制问题可以写为:J(s,t)=Maxt0Tf(s,c,t)dts.t:ś(t)=g(s,c,t)s(t0)=s(0)=s0,s(T)自由•由于在区间[t0,T]上,状态变量的运动方程ś(t)=g(s,c,t)始终成立,从而始终有[g(s,c,t)-ś]=0。使用拉格朗日乘子的概念,则有:ψ(t)[g(s,c,t)-ś]=0也必然有:t0Tψ(t)[g(s,c,t)-ś]dt=06.2连续时间的最优控制•6、拉格朗日函数•因此,将此式0Tψ(t)[g(s,c,t)-ś]dt加入目标函数之中,并不影响目标函数的值,于是可将目标函数扩展为:L=t0Tf(s,c,t)dt+t0Tψ(t)[g(s,c,t)-ś]dt=t0T{f(s,c,t)+ψ(t)[g(s,c,t)-ś(t)]}dt•对于此式中的最后一部分使用分部积分,则有:-t0Tψ(t)ś(t)dt=-ψ(t)s(t)|0T+t0Ts(t)ψׂ(t)dt=-ψ(T)s(T)+ψ(t0)s(t0)+t0Ts(t)ψׂ(t)dt代入前式,得拉格朗日函数为:L=t0T[f(s,c,t)+ψg(s,c,t)+sψׂ]dt-ψ(T)s(T)+ψ(t0)s(t0)6.2连续时间的最优控制•7、一阶条件•为了导出最优控制问题的一阶条件,假设已得到了拉格朗日函数的最大值L,则拉格朗日函数中变量的任何变化都会引起L值的下降。也就是说,在最优点,将L对c和s微分,必然有dL0,即有:dL=t0T[fc+ψgc)dc+(fs+ψgs+ψׂ)ds]dt-ψ(T)ds(T)+ψ(t0)ds(t0)0•要使dL0成立,上式中的每一项都必须小于或等于0。由于dc和ds均可正可负,所以必须有:fc+ψgc=0fs+ψgs+ψׂ=0此二必要条件就称为最优控制问题的一阶条件。6.2连续时间的最优控制•8、横截条件•在最优控制问题中,如果状态变量的初始值s(t0)和终点值s(T)都已给定,则ds(t0)和ds(T)都为0。如果仅初始值s(t0)给定,而终点值s(T)没有给定,则要使dL中的ψ(T)ds(T)0,就必须有:ψ(T)=0这也称为固定时限的自由终值问题的横截条件。该条件表明,对于可以自由选择终点值的最优控制问题,终点时刻的拉格朗日乘子值必须为0。6.2连续时间的最优控制•9、共态变量•在最优控制问题的拉格朗日函数中,拉格朗日乘子ψ(t)是伴随着状态变量而引进的,称为共态变量(costatevariables)。由拉格朗日函数可得:L/s0=ψ(t0)L/sT=-ψ(T)这表明,状态变量的初始值每增加一个单位,就可使优化目标函数值增加ψ(t0)个单位;而状态变量的终点值每增加一个单位,则可使优化目标函数值减少ψ(T)个单位。因此,共态变量ψ(t)用目标函数的度量单位计量了状态变量s(t)的价值,可称为状态变量的影子价格(shadowprice)。6.2连续时间的最优控制•10、汉密尔顿(Hamilton)函数•在最优控制问题的拉格朗日函数中,与控制变量c(t)有关的只有其前两项,因此可单独列出此两项为:H=f(s,c,t)+ψg(s,c,t)此式就称为汉密尔顿函数。•对于拉格朗日函数细加分析,可以看出汉密尔顿函数的经济含义。6.2连续时间的最优控制•11、庞特里雅金(Pontryagin)最大值原理•最优控制问题的一阶条件,如果使用汉密尔顿函数,则可表示为:Hc=fc+ψgc=0ψׂ=-Hs=-(fs+ψgs)其中,第1个方程是最优化问题的必要条件,它给出了控制变量c在每个时刻可能的最优值;第2个方程是共态变量ψ的运动方程,称为辅助方程或伴随方程(auxiliaryoradjointequation),该方程与状态变量s的运动方程:ś=Hψ=g(s,c,t)一起称为最优控制问题的汉密尔顿系统或标准系统。6.2连续时间的最优控制•11、庞特里雅金(Pontryagin)最大值原理•由上述一阶条件和状态变量的运动方程,还可导出控制变量的运动方程。一阶条件方程对时间求导,得:fccċ+fcsś+ψgccċ+ψgcsś+ψׂgc+fct+ψgct=0将ś=g(s,c,t)代入,并解出ψׂ,得:ψׂ=-[(fcc+ψgcc)ċ+(fcs+ψgcs)g+(fct+ψgct)]/gc令此式与前面给出的共态变量的运动方程相等,并将必要条件ψ=-fc/gc代入,得控制变量的运动方程为:ċ=[(gcfs-fcgs)gc-(gcfcs-fcgcs)g-(gcfct-fcgct)]/(gcfcc-fcgcc)•在相位图分析中,视方便可以作出c和s的相位图,也可以作出ψ和s的相位图。6.2连续时间的最优控制12、边界解如果控制域是一个闭区间ac(t)b,则汉密尔顿函数H的最大值可能出现在控制域的一个内部点(曲线1),也可能出现在边界点如c=a或c=b处(曲线2和3)。对于边界点,一阶条件H/c=0将不再适用。此时,最大值原理可以表述为:MaxcH(s,c,t,ψ)ś=Hψ=g(s,c,t)ψׂ=-Hs=-(fs+ψgs)这时,需要对边界点进行考察。H曲线1曲线2曲线3a0bc6.2.2吃糕控制问题•1、问题•假设行为人拥有一些不可再生的资源,如一块蛋糕s,该资源的初始存量为s0,行为人在时刻t的消费量为c(t),消费的效用函数为u(c)。又假设行为人的规划期从0时到T时,时期长度固定,其未来效用的折现率为固定折现率ρ,且行为人要在T时期末将此蛋糕消费完,不留遗产。问题是,该行为人如何在0到T的整个时期内分配此蛋糕的消费量,以使其获得的效用最大?6.2.2吃糕控制问题•2、吃糕问题的数学表述•由于行为人追求整个规划期内效用的最大化,所以该行为人的消费决策问题就可表示为:Max:U[c(t)]=0Te-ρtu[c(t)]dtuc(c)0,ucc(c)0,uc(0)=;s.t.:ś=-cs(0)=s0,s(T)=0,T给定。其中c(t)为控制变量,s(t)为状态变量,表示蛋糕在t时刻的存量。6.2.2吃糕控制问题•3、吃糕问题的一阶条件•由目标函数和约束条件,可写出其汉密尔顿函数为:H=e-ρtu[c(t)]-ψc•由此得一
本文标题:最优控制模型
链接地址:https://www.777doc.com/doc-3960860 .html