首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于强化学习的随机系统Pareto优化控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国石油大学(华东)

摘要:本发明提供一种基于强化学习的随机系统Pareto优化控制方法,在保证目标函数为凸函数且容许控制集为凸集的情况下,对目标函数进行加权求和,将多目标优化问题转换为最小化权和后目标函数的问题。将初始能稳控制输入作用于线性随机系统,每隔δt时刻收集一次当前系统状态、控制输入、目标函数数值,共收集N次。根据贝尔曼定理和‑表示技术将所收集数据组成数据矩阵。依托最小二乘法,利用数据矩阵实现强化学习中的策略评估过程,获得更新后矩阵P。根据更新后矩阵P以及部分已知的系统模型,更新控制策略。将更新后的控制策略作用于线性随机系统,再次收集N组数据进行策略评估和策略更新,直至前后两次的控制策略误差满足容许误差。

主权项:1.一种基于强化学习的随机系统Pareto优化控制方法,其特征在于,包括以下步骤:S1、对多主体、多目标随机系统进行简化和参数化处理:1、选取多主体、多目标的线性随机系统如下: 其中xt∈Rn是系统状态向量,是参与者l的控制输入集合,wt是定义在完备滤波概率空间上的一维实数随机变量,为自然滤波,A代表假设未知的系统动态参数矩阵,系数{Bl,C,Dl}l∈N是具有适当维数的已知矩阵;2、参与者相互合作设计多目标函数如下: 其中,及为数学期望;系统的容许控制集为凸集;3、将用联合控制率u=Colu1,u2,…,uN∈Rm表示,多目标函数通过参数化方法加权求和得到加权和成本函数如下: S2、对系统施加能稳控制输入,记录系统状态以及成本函数反馈值:1、根据贝尔曼定理以及伊藤定律,强化学习中用于策略评估以及策略提升的方程为: Ki+1=-D′PiD+Rα-1B′Pi+D′PiC2、将初始能稳控制u0=K0x作用于系统,令t=0在时间域[t,t+Nδt]上,每隔δt时刻记录一次系统状态以及成本函数数值,其中N>nn+12,得到原始数据组如下: S3、通过-表示去掉重复项,结合最小二乘法给出策略评估实施方法:1、记向量化算子其中Xi是方阵X的第i行;定义算子ψ:算子其中 2、用表示算子ψ作用下的-表示中的H矩阵,表示算子作用下的H矩阵;获得其中ν=nn+12;定义有: 3、借助-表示以及向量化算子,策略评估过程被写成: 其中Q=Qα+K′iRαKi;S4、基于强化学习方法和-表示出在线求解算法;1、对于对称矩阵Pi∈Rv,有nn+12个未知参数,为完成一次策略评估至少在f≥nn+12个δt区间上取f次数据;2、根据最小二乘定理策略评估过程对应的拟合方程式写成: 其中 3、使用-表示改写S2过程中所得原始数据组,并通过策略评估拟合方程获得更新后的矩阵P0;根据策略提升步骤获得更新后的控制率u1=K1x;将更新后的控制u1=K1x作用于系统令t=t+Nδt在时间域[t,t+Nδt]上,每隔δt时刻记录一次系统状态以及成本函数数值,然后进行新的策略评估和策略提升;4、重复以上步骤直到||Pi+1-Pi||≤ε,记K*=Ki+1,将u*=K*xt为最终控制输入,即u*=K*xt为Pareto最优控制。

全文数据:

权利要求:

百度查询: 中国石油大学(华东) 基于强化学习的随机系统Pareto优化控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。