您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 国内外标准规范 > 基于多步回溯Q_学习算法的多目标最优潮流计算
华南理工大学学报(自然科学版)第38卷第10期JournalofSouthChinaUniversityofTechnologyVo.l38No.102010年10月(NaturalScienceEdition)October2010文章编号:1000565X(2010)10013907收稿日期:20100321*基金项目:国家自然科学基金资助项目(50807016);广东省自然科学基金资助项目(9151064101000049);中央高校基本科研业务费专项资金资助项目(2009ZM0251)作者简介:余涛(1974),男,博士,副教授,主要从事复杂电力系统的非线性控制理论和最优化方法研究.Emai:ltaoyu1@scut.edu.cn基于多步回溯Q()学习算法的多目标最优潮流计算*余涛胡细兵刘靖(华南理工大学电力学院,广东广州510640)摘要:为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q()学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成算法中的状态、动作与奖励,通过不断的试错、回溯、迭代来动态寻找最优的动作.将该算法在多个IEEE标准算例中与其他算法进行比较,取得了良好的效果,验证了多步Q()学习算法在处理多目标最优潮流问题时的可行性和有效性.关键词:电力系统;最优潮流;Q()学习算法;多目标优化;强化学习中图分类号:TM761;TP273do:i10.3969/.jissn.1000565X.2010.10.026电力系统最优潮流(OPF)问题是20世纪60年代由法国学者Carpentier作为一种带网络约束的经济负荷调度提出的[1].OPF作为经典潮流的发展与延伸,寻找经济性和安全性的最优结合点,成为重要的电力系统调度运行和优化分析工具.OPF问题是一个复杂的混合非线性规划问题,求解方法可分为经典优化方法和人工智能优化方法两大类.非线性规划[2]、二次规划[3]、内点法[4]、牛顿法[5]等OPF经典优化方法依赖于初始点的选取,以及基于一阶或二阶梯度进行寻优,很多情况下会陷入局部极小或接近最优解时难以收敛,不适合处理离散问题.遗传算法[6]、模拟退火算法[7]等OPF人工智能优化方法具有随机性以及并行处理特性,容易跳出局部极值点,适宜处理非线性和离散性的问题,但缺点是计算速度缓慢,很大程度上依靠人的经验[8].近年来,人工智能领域中的强化学习[9]取得了快速发展.强化学习以马尔可夫决策过程(MDP)模型为数学基础,与监督学习、统计模式识别和人工神经网络不同,不需要精确的历史训练样本及系统先验知识,是一种基于值函数迭代的在线学习和动态最优技术[10].强化学习的诸多算法中,经典单步Q学习最具代表性,已被成功应用于电力系统的动态优化运行[11]、稳定控制[12]与自动发电控制[13]中,取得了良好效果.国际上普遍认为以Q学习为代表的强化学习和多代理智能体技术是实现智能电网的最重要的智能化手段之一[12,14].笔者研究中发现,经典单步Q学习算法较为简单,但动态寻优和学习速度较慢,实时性上难以满足实际大电网潮流的滚动优化.因此,文中引入具备多步预见能力的Q()学习,多步Q()在线回溯算法显式地利用资格迹衰退系数[15]对将来多步决策的在线强化信息进行高效的回溯操作,能够有效地解决上述问题,提高算法收敛速度,满足在线应用的实时性要求实现电网潮流快速滚动优化.目前,包括多步回溯Q()学习算法在内的一类半马尔可夫决策(SMDP)方法尚未在国内外电力系统最优潮流问题领域内得到应用.1多目标OPF数学模型现代OPF问题中一般均考虑电压稳定约束,文中的电压稳定约束分为两个部分:一是电力系统不等式约束中的节点电压限制;二是目标函数中的电压稳定分量.对于上述电压稳定分量,结合文献[11]和[16]中电压无功优化控制的目标函数,定义文中OPF多目标函数中的电压稳定分量V为V=nj=12Vj-Vj,max-Vj,minVj,max-Vj,min(1)式中:n为负荷节点个数;Vj为负荷节点j的节点电压;Vj,max、Vj,min分别为负荷节点j的最大、最小电压限制.综上所述,文中的多目标OPF以有功网损和电压稳定分量为目标函数,考虑多种运行约束的多目标最优潮流模型表示如下:min(1-)f(x1,x2)+V(2)式中:f(x1,x2)为非线性函数描述的有功网损分量;V为电压稳定分量;为权重系数,Î[0,1],其取值视电网实际运行情况而定;x1为控制变量,x1=[VG,c,Qc],其中VG、c、Qc分别为发电机的机端电压值、有载调压变压器的变比和无功补偿容量;x2为状态变量,x2=[VL,QG,Pref],其中VL、QG、Pref分别为负荷节点电压、发电机的无功出力和平衡节点的有功出力.最优潮流中的电力系统潮流约束的等式和不等式条件不再赘述,可参见文献[5].2基于多步回溯Q()的多目标OPF2.1多步Q()学习算法的原理强化学习的目的在于寻找一种策略p.所谓的策略p,是指从状态sÎS和动作aÎA(s)到概率p(s,a)的映射,其目的在于使得每个状态s的值函数达到最大[9].这里的值函数可以定义为Qp(s,a)=E{r1+r2++i-1ri+s0=s,a0=a}(3)式中:Q(s,a)代表s状态下执行动作a的Q值函数,其实现方式均采用lookup查表法;E为期望;ri为第i次迭代的立即奖励;为一个参数,称为折扣率,决定将来奖励信号对现在的作用;s0、a0分别为初始状态和初始动作.强化学习的本质不要求当前的立即奖励达到最大,而是希望最终的奖励折扣总和达到最大.多步Q()学习[17]是基于离散马尔可夫决策过程的经典Q学习[10],结合了TD()算法[9]多步回报的思想.Q()学习算法充分考虑了随机过程的时间回溯因素,将值函数与资格迹相互融合,资格迹用于解决延时强化学习的时间信度分配问题,第k步迭代时刻的矩阵形式ek(s,a)是对过去所访问状态与动作信息的一种临时记录.对任何状态-动作对而言,资格迹都将以时效性按指数k衰减.一旦执行非贪婪探索动作时,资格迹可以复位设置为0.资格迹更新公式定义如下:Ixy=1,x=y0,其他(4)ek(s,a)=IsskIaak+ek-1(s,a),Qk-1(sk,ak)=maxaQk-1(sk,a)0,其他(5)式中:Ixy为迹特征函数;Qk-1(sk,ak)为过去的第k-1次由状态sk经动作ak所得到的Q值.多步Q()学习算法的回溯机理如图1所示,值函数的回溯更新规则利用资格迹来获取算法行为的频度和渐新度两种启发信息,从而考虑了未来控制决策的影响.多步Q()学习算法的向前观察在第一个探索动作之后结束,或当在事件终点之前没有探索动作时,则在事件终点结束.在这里假设是离线更新,在回溯图中表明了Q()的后向估计,它显示了所有的回溯组成,其中,T为t+n时刻到终止状态所需的迭代步数.图1Q()方法!后向估计∀回溯学习更新图Fig.1Q()backtracklearningofbackwardestimation140华南理工大学学报(自然科学版)第38卷资格迹-回报算法的!后向估计∀机理提供了一个逼近最优值函数Q*的渐进机制,而这类对所有状态-动作对Q值的高效持续更新是以提高算法复杂度和增加计算量为代价的.设Qk代表Q*估计值的第k次迭代值,Q()学习迭代更新公式如下:!k=R(sk,sk+1,ak)+maxa#Qk(sk+1,a#)-Qk(sk,ak)(6)Qk+1(s,a)=Qk(s,a)+∀!kek(s,a)(7)式中:!k为理论更新值;R(sk,sk+1,ak)为第k步迭代时刻环境由状态sk经动作ak转移到sk+1后的奖励函数值;∀称为学习因子,0∀1.多步Q()学习算法中动作选择策略是控制算法的关键,面临着探索和利用的权衡问题,定义控制器在当前状态下总是选择具有最高Q值的动作称为贪婪策略p*:p*(s)=argmaxQkaÎA(s,a)(8)但是,总是选择最高Q值的动作会导致智能体总是沿着相同的路径并未充分搜索空间中的其他动作而收敛于局部最优.文中采用一种基于概率分布选择动作的追踪算法[15]来构造动作选择策略.该策略在学习初始阶段由控制器随机开始选择动作,即初始化使得各状态下任意可行动作被选择的概率相等.然后在学习过程中随着Q值函数表格变化,各状态下动作概率分布按下式进行更新.Pk+1s(ag)=Pks(ag)+#(1-Pks(ag))Pk+1s(a)=Pks(a)(1-#),aÎA,a∃agPk+1s(a)=Pks(a),aÎA,sÎS,s∃s(9)式中:Psk(a)为第k次迭代时状态s下选择动作a的概率;ag为由式(8)得到的贪婪动作;#为动作搜索速度,0#1,#值越接近1说明控制动作策略越趋于贪婪策略,仿真比较研究显示#值在0!8~1!0范围内都能很好地平衡Q()学习控制器的动作搜索与经验强化问题,文中算例的#取值为0!9.从式(9)中可知,有较高Q值的动作被赋予较高的概率,对应某个具体的状态,选择贪婪动作的概率随着状态的复现而增大,在经过足够迭代次数的探索和利用之后,Qk将会以概率1收敛于最优值函数Q*,最终得到一个Q*矩阵表示的最优控制策略.2.2多步Q()学习算法的流程及参数设置2.2.1多步Q()学习算法的计算流程常规的OPF计算中,电网的负荷和拓扑结构已知,在满足约束条件的基础上,仅需调整发电机出力、变压器变比、无功补偿设备等可控变量的取值,通过特定的计算方法使得目标函数优化进而取得最优解.在实际的电力系统运行中,由于电网中的各个节点所对应的负荷是一个时变的量,而常规的OPF算法中却不能反映这种趋势,导致上述的这种模式并不能反映电力系统运行的真实情况,不能进行在线的调整.而且电力系统运行中各种可控变量的调整不能过于频繁,以免导致设备加速老化.基于上述考虑,有必要对一天内的典型潮流按照日负荷曲线中的时间关系进行离散化.强化学习的一个特点就是通过判断状态的变化来反映所需要学习的事件的特征.基于上述分析,在OPF计算中,首先有必要对日负荷曲线进行离散化,确定此时OPF中的负荷值,并同步进行状态的预判断.基于多步Q()学习的最优潮流计算中,根据多步Q()学习算法的特点,通过当前电力系统运行特征,判断相关的特征、状态(s)、动作(a)、奖励(r),在线寻找最优策略.OPF计算中的动作是潮流计算中的可控变量,动作a的个数与初始条件(如发电机的有功出力的调整范围、变压器分接头的档位及可投切电容器的组数等)有关,一般是这些动作次数的乘积,例如有b个调压变压器,每个的档位是M个,有c组可投切电容器,每组是K个,那么动作的空间为A=MbKc(10)OPF的约束条件分为等式约束和不等式约束,而等式约束的本质是潮流计算,只需要每次潮流计算迭代结果收敛,即满足等式约束.因而在使用多步Q()学习的最优潮流计算中,根据Q()学习算法的策略选择一个动作后,通过观察每次潮流计算的结果,判断不满足不等式约束的个数,从而修正状态,确定下一状态s#的值,并给出立即奖励值r.立即奖励值r的计算函数就是所谓的奖励函数,奖励函数的选取对优化结果至关重要.根据文中所要研究的电网对象,奖励函数需包含两个要素:一个是潮流计算所得的目标函数值,即网损值以及电压稳定分量的有机组合;另一个是对硬约束条件的奖惩,不满足不等式约束的个数越多,惩罚越大.具体的奖励函数式见第3节的算例分析.应用多步Q()学习算法的OPF流程如下:141第10期余涛等:基于多步回溯Q()学习算法的多目标最优潮流计算Repeat(对每一件事)初始化s,a,Q(s,a),令e(s,a)=0Repeat(对事件的每一步)%从当前的负荷值,预判断下一个状态,执行动作a,观察r,修正下一个状态s#&从s#中利用Q派生出来的策略选择a#∋a*argmaxbQ(s#,b)!r+Q(s#,a*)-Q(s,a)e(s,a)e(s,a)+1对于所有的
本文标题:基于多步回溯Q_学习算法的多目标最优潮流计算
链接地址:https://www.777doc.com/doc-9295112 .html