买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:辽宁石油化工大学
摘要:二维间歇过程非策略无模型输出反馈最优跟踪控制方法,属于工业过程控制技术领域,具体步骤如下:步骤一:描述二维间歇过程控制问题;步骤二:设计二维间歇过程的最优控制器;步骤三:引入易于测量的输入输出序列信息;步骤四:设计输出反馈最优控制器;步骤五:分析控制算法的无偏性与收敛性;此方法能够有效避免动态信息未知的二维间歇过程难以精确建模以及难以测量完整状态信息等复杂问题,利用易于测量的输入输出信息,可以有效的避免状态观测器的设计,仅利用批次方向与时间方向的数据,避免了对模型的依赖;同时,此方法采用非策略强化学习技术,可以高效的利用数据,降低成本,提高性能。
主权项:1.二维间歇过程非策略无模型输出反馈最优跟踪控制方法,具体步骤如下:步骤一:描述二维间歇过程控制问题;首先,间歇过程的状态空间可表示为: 其中,xk,p表示当前时间当前批次的系统状态,uk,p表示系统在当前时间当前批次下的控制输入,yk,p表示当前时间当前批次的系统输出,k表示时间方向,p表示批次,A、B和C分别是具有适当维数的系统矩阵、输入矩阵和输出矩阵;为了提高系统的稳定性,用系统状态沿批次方向的增量和输出误差的组合来代表扩展后的状态,根据等式1,具体可以表示为: 其中,定义Δpθk,p=θk,p-θk,p-1为变量θ沿批次方向的差值;为了提高系统的跟踪性能以及自由度,将输出误差扩展到状态中,扩展后的状态方程表示为: 其中,为扩展后的新的状态,ek,p=yr-yk,p为期望输出yr与实际输出yk,p的误差,rk,p=Δpuk,p为控制输入的增量,Yk,p=Δpyk,p,I表示适当维数的单位矩阵;给出一个具有代价函数形式的极值问题来处理最优跟踪控制问题 其中,i表示时间方向,j表示批次方向,以及控制策略rk,p=K1Xk,p+K2Xk+1,p-15其中,K1表示系统k时刻p批次的控制增益,K2为系统k+1时刻p-1批次的控制增益;fXi,j,Xi+1,j-1,ri,j函数采用如下的二次型: 其中,和R>0是用户定义的加权矩阵;步骤二:设计二维间歇过程的最优控制器;由等式4给出的二次函数可定义如下的成本函数 在控制策略rk,p可控的条件下,可以给出如下的二维成本函数: 可定义Q函数: 进一步等式9可以化为: 其中, 在最优的增益和下,存在最优的值函数 以及最优的Q函数Q*Xk,p,Xk+1,p-1,rk,p,比较二者关系可以得到 根据Q函数可得到二维贝尔曼方程: 依据最优性原理,令得到最优控制策略: 其中,步骤三:引入易于测量的输入输出序列信息;当系统可观时,系统状态可以用容易测量的输入输出信息进行表示:Xk,p=Mξk,p16其中,M=[MrMpMy, 且有 步骤四:设计输出反馈最优控制器;基于等式16引入的序列信息,构建新的控制策略: 其中,在引入易于测量的输入输出信息后,等式14可以表示为: 其中, M*=MTM-1MT;基于非策略强化学习算法,引入目标策略rjk,p用以学习由行为策略rk,p产生的数据,得到: 其中,在引入新的策略后,二维贝尔曼方程如下所示: 依据克罗内克积、最小二乘原理可得到:θjk,pLj+1=ρjk,p21其中, ρjk,p=XTk,pQ1Xk,p+XTk+1,p-1Q2Xk+1,p-1+rk,pTRrk,p, 经计算可得控制器增益为: 步骤五:分析控制算法的无偏性与收敛性;在行为策略rk,p中引入探测噪声nk,p,无论探测噪声是否为0,等式20解出的不变,因此,所提算法无偏;在给定初始迭代条件且迭代次数近似无穷大时,黎卡提方程的解能收敛到最优解同时由于P矩阵与H矩阵相似的收敛趋势,也可以收敛到最优解。
全文数据:
权利要求:
百度查询: 辽宁石油化工大学 二维间歇过程非策略无模型输出反馈最优跟踪控制方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。