您好,欢迎访问三七文档
当前位置:首页 > 建筑/环境 > 工程监理 > 学习控制-控制科学与工程学院-浙江大学
学习控制刘山浙江大学控制科学与工程学院2控制技术发展的主流鲁棒控制:反馈的延伸智能控制:前馈的延伸广义上,具有学习和自我调节的控制工程控制系统设计原则受控对象或过程的先验知识全部已知,而且能确定地描述,则采用各种合适的常规控制与最优控制;受控对象或过程的先验知识全部或局部已知,但只能得到统计的描述,则采用利用随机设计或统计设计技术的控制方案;受控对象或过程的先验知识全部或局部未知,则采用以下两种方案:忽略未知部分的先验知识,采取保守的控制原则,安于低效和次优的结果。例,鲁棒控制;在运行过程中对未知信息进行估计,基于估计信息采用优化控制。例,自适应控制和学习控制。3学习控制技术智能控制的一个重要分支;在系统运行过程中获得环境和被控对象的未知信息;积累控制经验;在一定的评价标准下进行估值、分类、决策;不断改进系统品质;具有搜索、识别、记忆、修改和优化等功能;特别适用于解决非线性等常规控制难以解决的问题。45内容1、学习控制概述2、基于模式识别的学习控制3、迭代学习控制4、重复学习控制一、学习控制概述67学习控制例子DYsDYs学习控制器11sKYs+-1DkYsYssk1Dytkytkyt1100tktktDyteyekyd希望为Dyt该积分方程无解!8学习的定义及特点学习是一种过程,通过对系统重复输入各种信号,并从外部校正该系统,使系统对特定的输入作用具有特定的响应。学习的特点是一种过程,存在同类特征的重复环境并与环境交互;存在一种在时间上是比较局部的“成功的”度量,并能够随时间而改善;表示系统中的自适应变化,该变化能使系统比上一次更有效地完成同一群体所执行的同样任务。9学习问题的基本方面学习策略由当前系统及环境的状态到系统变化的方向,程度,可以是一张表,也可以是随机策略奖惩函数当前系统状态及环境状态的瞬时价值,是主要学习目标估价函数当前系统状态及环境状态的长期评价,是奖惩函数的累积模型系统与环境的模型10学习系统学习系统是一个能够学习有关过程的未知信息,并用所学信息作为进一步决策或控制的经验,从而逐步改善系统的性能的系统如果一个系统能够学习某一过程或环境的未知特征固有信息,并用所得经验进行估计、分类、决策或控制,使系统的品质得到改善,那么称该系统为学习系统11学习系统的分类按是否在线分:离线可训练系统在线自学习系统按是否有监督分:有师学习无师学习12学习控制的定义学习控制能够在系统进行过程中估计未知信息,并据之进行最优控制,以便逐步改进系统性能学习控制是一种控制方法,其中的实际经验起到控制参数和算法类似的作用如果一个学习系统利用所学得的信息来控制某个具有未知特征的过程,则称该系统为学习控制系统13学习控制的数学描述在有限时间域[0,T]内,给出受控对象的期望的响应yd(t),寻求某个给定输入uk(t),使得uk(t)的响应yk(t),在某种意义上获得改善;其中,k为搜索次数,t[0,T]。称该搜索过程为学习控制过程。当k→∞时,yk(t)→yd(t),该学习控制过程是收敛的。14学习控制的机理寻找并求得动态控制系统输入与输出间的比较简单的关系执行每个由前一步控制过程的学习结果更新了的控制过程改善每个控制过程,使其性能优于前一个过程希望通过重复执行这种学习过程和记录全过程的结果,能够稳步改善受控系统的性能15学习控制系统运行方式启动学习控制器启动后初始运行的学习。它反复依据当前的特征状态,前段运行效果的特征记忆以及相应的学习规则,确定运行决策。运行学习控制运行中对象类型变化时的学习过程。通过尝试考虑所有可能的决策,修改控制策略和控制参数。16学习控制与常规自适应控制比较相同点学习系统是自适应系统的发展与延伸,它能够按照运行过程中的“经验”和“教训”来不断改进算法,增长知识,更广泛地模拟高级推理、决策和识别等人类的优良行为和功能。都是解决系统不确定性问题的方法;都基于在线的参数调整算法;都使用与环境,对象闭环交互得到的信息。17学习控制与常规自适应控制比较不同点自适应控制系统在未知环境下的控制决策是有条件的,其控制算法依赖于受控对象数学模型的精确辨识,并要求对象或环境的参数和结构能够发生大范围突变。这就要求控制器有较强的适应性、实时性并保持良好的控制品质。在这种情况下,自适应控制算法将变得过于复杂,计算工作量大,而且难于满足实时性和其它控制要求。因此,自适应控制的应用范围比较有限。自适应控制着眼于瞬时观点,缺乏记忆。当受控对象的运动具有可重复性时,即受控制系统每次进行同样的工作时,就可把学习控制用于该对象。在学习控制过程中,只需要检测实际输出信号和期望信号,而受控对象复杂的动态描述计算和参数估计可被简化或被省略。学习控制强调经验和记忆。18常规反馈控制环(先验的补偿器)自适应环学习环自适应控制被控系统常规控制器输出期望输出+-控制输入学习控制一般学习控制系统组成学习控制的结构方案基于模式识别的学习控制用模式识别方法对输入信息提取和处理,提供控制决策和学习适应的依据。迭代学习控制反复应用系统以前运行得到的信息,以获得能够产生期望输出轨迹的控制输入,改善控制质量。重复学习控制根据内模原理,引入能够产生周期信号的重复补偿器,以跟踪具有周期的任意目标信号。基于神经网络的学习控制以神经网络为辨识模型或控制器,神经网络的学习训练算法是该控制方案的关键。1920学习控制的层次单一目标的精确学习(可归类为自适应学习):迭代学习控制、重复学习控制基于模式的多目标学习(统计学习):基于模式识别的学习控制量化的生物学习(连结主义学习):基于神经网络的学习二、基于模式识别的学习控制2122基本思想针对先验知识不完全的对象和环境,将控制局势进行分类,确定这种分类的决策,根据不同的决策切换控制作用的选择,通过对控制器性能估计来引导学习过程,从而使系统总的性能逐步改善。控制局势分类有一个模式识别过程有一个学习过程23模式识别原理模式识别:面对某一具体事物时将其正确地归入某一类别。模式识别系统由两个过程组成。设计实现模式识别系统由四部分组成。数据获取预处理特征提取和选择分类决策决策面对于C类分类问题,按照决策规则可以把d维特征空间分成C个决策域,将划分决策域的边界面称为决策面。判别函数表达决策规则的函数称为判别函数。基于模式识别的学习控制的关键在于寻找控制局势的决策面。24基于模式识别的学习控制应用模式识别技术的开关式控制采用线性再励技术的控制利用Bayes学习估计方法的控制三、迭代学习控制理论25重复任务典型期望轨迹26迭代学习控制定义迭代学习控制针对具有重复运行性质的被控对象,利用对象在控制尝试时的运行信息,通过迭代的方式修正控制信号,实现在有限时间区间上的完全跟踪任务。迭代学习控制采用“在重复中学习”的学习策略,具有记忆和修正机制。迭代学习控制是智能控制中具有严格数学描述的一个分支。27迭代学习控制基本思想通过对被控系统进行控制尝试,得到系统的当前输入和当前输出,以系统输出与给定轨迹的偏差信号修正不理想的控制信号,产生一个新的控制信号,确定下一个期望输入使得系统的实际输出收敛于期望值。因此,在可能存在参数不确性定的情况下,可通过实际运行的输入输出数据获得更好的控制信号,使得系统跟踪性能得以提高。28被控系统控制存储记忆迭代学习控制器输出期望输出+-控制输入++迭代学习控制的应用对象及任务适合于具有某种重复运行性质的被控对象。可实现有限时间区间上的完全跟踪任务。常规控制的渐近跟踪过程迭代学习的完全跟踪过程29迭代学习控制的运行过程30迭代学习控制的一般表示形式系统:误差:目标:学习律:,,,,kkkkkkxtfxtuttytgxtuttkdketytyt1,kkkutLutettetekk13132迭代学习控制的特点适合于具有某种重复运动性质的被控对象;实现完全跟踪,这不同于渐近跟踪;采用“在重复中学习”的学习策略,具有记忆系统和经验修正机制;在遇到类似控制任务时,能根据记忆系统中的信息迅速调整控制信号;方式一般比较简单,需要较少的先验知识;适用于不精确已知(甚至未知)被控对象特性的非线性系统;在线计算负担小,适合于快速运动控制。33迭代控制与最优控制的区别:最优控制根据系统模型计算最优输入,迭代控制则通过先前试验获得最好输入。迭代控制与自适应控制区别:迭代控制的算法是在每次试验后离线实现的,自适应控制的算法是在线算法,而且需要大量迭代学习控制与其它控制的区别34迭代学习控制的一般假设条件系统每次运行时间间隔是有限的固定间隔;系统的期望轨迹总是预先给定且已知的;系统的初始条件重复;系统的动态结构在每次运行中保持不变;系统每次运行的输出可测;存在唯一的理想控制使得系统的状态和输出为期望的状态和输出。35迭代学习控制系统设计的目标收敛性:构造了一系列迭代控制序列,收敛于一个可实现的控制信号,且为如下最优问题的解。迭代学习收敛速度:最好具有指数收敛速率。迭代学习控制的鲁棒性:在系统存在不确定的未建模动态,各种不确定的干扰和初始状态偏移。ku*ut*utmindutytyt36PID型学习律10tkkPkIkDkututetedet特点:算法极其简单;收敛条件与系统相对阶密切相关;收敛的充分条件中仅包含很少的系统参数,对不确定系统具有良好的鲁棒性。37简单例子系统期望轨迹10.70.01210212ytytytutyy38仿真结果学习律a,b,c分别为第1、5、10次运行的结果;d为第10次运行的控制输入1000.51ututet39常用迭代学习控制律开环PID型迭代学习控制律:闭环PID型迭代学习控制律:在系统满足Lipshitz条件的情况下,D作用的参数与系统的直接输入输出项满足一定条件时,PID型迭代学习控制收敛。tedtddssetetutukDtkIkPkk01tedtddssetetutukDtkIkPkk101114041迭代学习控制在工业过程中的应用工业生产线上的机械手数控车床直线电机压塑机半导体晶片生产过程工业中的批处理过程无缝钢管轧制42张力减径过程由多架带孔型的三辊式轧机组成,轧机相互紧靠,各轧辊的孔型预先确定;不带芯棒,利用各机架轧辊转速的速差作用在钢管上所产生的张力进行减径;通过调整轧辊间的转速差可以调节轧辊间的张力,从而调节轧成产品壁厚度。43张减过程数学模型结构44张减过程具有高度非线性,时变性、不确定性,机理复杂,一般无法获得精确的数学模型。通过对机理分析所得到的张减过程动态数学模型往往是一个多维的分布参数模型,它们的求解必须采用有限元等计算方法进行数值计算,计算量非常大,无法满足实时控制快速性的要求。张减过程存在不确定的外部干扰和内部参数变化,生产节奏的快速,检测和调节手段的缺乏使传统控制手段难以应用。张减过程是具有周期重复特点,可以利用前面轧制钢管的信息来调整后面轧制钢管的速度设定,这提示我们可以采用迭代学习控制技术。从系统控制观点看张减过程45实施迭代学习控制的可行性在张减机的入口处和出口处装有在线测厚仪,可以在线测量钢管的壁厚;在张减机的轧辊电机上装有电流记录仪,可在线记录每个轧辊电机的最大、最小电流;在生产中可根据钢管的在线测厚数据和轧辊的电流数据调整各轧辊的转速,从而达到调节平均壁厚
本文标题:学习控制-控制科学与工程学院-浙江大学
链接地址:https://www.777doc.com/doc-1928051 .html