基于强化学习的随机系统Pareto优化控制方法

导航：龙图腾网> 最新专利技术> 基于强化学习的随机系统Pareto优化控制方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国石油大学(华东)

摘要：本发明提供一种基于强化学习的随机系统Pareto优化控制方法，在保证目标函数为凸函数且容许控制集为凸集的情况下，对目标函数进行加权求和，将多目标优化问题转换为最小化权和后目标函数的问题。将初始能稳控制输入作用于线性随机系统，每隔δt时刻收集一次当前系统状态、控制输入、目标函数数值，共收集N次。根据贝尔曼定理和‑表示技术将所收集数据组成数据矩阵。依托最小二乘法，利用数据矩阵实现强化学习中的策略评估过程，获得更新后矩阵P。根据更新后矩阵P以及部分已知的系统模型，更新控制策略。将更新后的控制策略作用于线性随机系统，再次收集N组数据进行策略评估和策略更新，直至前后两次的控制策略误差满足容许误差。

主权项：1.一种基于强化学习的随机系统Pareto优化控制方法，其特征在于，包括以下步骤：S1、对多主体、多目标随机系统进行简化和参数化处理：1、选取多主体、多目标的线性随机系统如下：其中xt∈Rn是系统状态向量，是参与者l的控制输入集合，wt是定义在完备滤波概率空间上的一维实数随机变量，为自然滤波，A代表假设未知的系统动态参数矩阵，系数{Bl,C,Dl}l∈N是具有适当维数的已知矩阵；2、参与者相互合作设计多目标函数如下：其中，及为数学期望；系统的容许控制集为凸集；3、将用联合控制率u＝Colu1,u2,…,uN∈Rm表示，多目标函数通过参数化方法加权求和得到加权和成本函数如下： S2、对系统施加能稳控制输入，记录系统状态以及成本函数反馈值：1、根据贝尔曼定理以及伊藤定律，强化学习中用于策略评估以及策略提升的方程为： Ki+1＝-D′PiD+Rα-1B′Pi+D′PiC2、将初始能稳控制u0＝K0x作用于系统，令t＝0在时间域[t,t+Nδt]上，每隔δt时刻记录一次系统状态以及成本函数数值，其中N＞nn+12，得到原始数据组如下： S3、通过-表示去掉重复项，结合最小二乘法给出策略评估实施方法：1、记向量化算子其中Xi是方阵X的第i行；定义算子ψ：算子其中 2、用表示算子ψ作用下的-表示中的H矩阵，表示算子作用下的H矩阵；获得其中ν＝nn+12；定义有： 3、借助-表示以及向量化算子，策略评估过程被写成：其中Q＝Qα+K′iRαKi；S4、基于强化学习方法和-表示出在线求解算法；1、对于对称矩阵Pi∈Rv，有nn+12个未知参数，为完成一次策略评估至少在f≥nn+12个δt区间上取f次数据；2、根据最小二乘定理策略评估过程对应的拟合方程式写成：其中 3、使用-表示改写S2过程中所得原始数据组，并通过策略评估拟合方程获得更新后的矩阵P0；根据策略提升步骤获得更新后的控制率u1＝K1x；将更新后的控制u1＝K1x作用于系统令t＝t+Nδt在时间域[t,t+Nδt]上，每隔δt时刻记录一次系统状态以及成本函数数值，然后进行新的策略评估和策略提升；4、重复以上步骤直到||Pi+1-Pi||≤ε，记K*＝Ki+1，将u*＝K*xt为最终控制输入，即u*＝K*xt为Pareto最优控制。

全文数据：

权利要求：

百度查询：中国石油大学(华东) 基于强化学习的随机系统Pareto优化控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种脱硫装置

下一篇：一种乙肝相关肝癌诊断、预后标志物和治疗靶点的应用

相关技术

一种脱硫装置

一种乙肝相关肝癌诊断、预后标志物和治疗靶点的应用

蓄冷材料、蓄冷材料粒子、造粒粒子、蓄冷器、冷冻机、低温泵、超导磁铁、核磁共振成像装置、核磁共振装置、磁场施加式单晶提拉装置、氦再冷凝装置及稀释冷冻机

半导体装置与其制造方法

通流散热结构、印刷电路板及印刷电路板的制备方法

一种电子元件贴片机械臂及其贴片方法

基于多目标优化的异构计算资源调度方法及装置

一种用于风力发电机组的故障检测方法

激光泵浦光热微区荧光寿命测温系统

工程化烯酮还原酶和酮还原酶变体酶

一种金属结构管内部应力检测装置

止推轴承和车辆的麦弗逊悬架

Pareto相关技术

一种具有间断Pareto前沿的污水处理过程多目标优化控制方法_东北大学_202311514699.9

基于仿真的列车能耗-时间Pareto曲线生成方法_北京交通大学_202110125711.1

基于帕累托Pareto前沿的综合指数计算方法和装置_北京师范大学_202311207082.2

基于局部Pareto凹凸性的识别算法_桂林电子科技大学_202311211734.X

基于强化学习的随机系统Pareto优化控制方法_中国石油大学(华东)_202310814619.5

一种基于极值点pareto前沿的决策变量分组多目标优化方法_沈阳化工大学_202310971129.6

一种基于Pareto最优解集的空天地通信资源多目标优化方法_四川大学_202311028249.9

基于Pareto最优的空天海一体化NRMOCOP方法_哈尔滨工业大学_202310591742.5

基于Pareto遗传算法的异构变梯度晶格材料等效力学性能预测方法_南京理工大学_202310478305.2

一种基于改进的Pareto人工蜂群算法的可靠性优化分配方法_华能如东八仙角海上风力发电有限责任公司_201911407347.7

系统相关技术

电功率输送系统及其安装系统_通用电气全球采购有限责任公司_202010321381.9

网络物理系统型生产系统_株式会社捷太格特_202010311563.8

液路系统和测序系统_深圳市真迈生物科技有限公司_202322981861.X

测距系统、晾衣机及晾衣系统_广东好太太科技集团股份有限公司_202323539576.9

换热器、空调系统和换热系统_丹佛斯有限公司_202323168898.7

换电系统以及仓储系统_旷视格图(苏州)智能装备有限公司_202410396774.4

行驶系统_村田机械株式会社_202080040596.1

投料系统_宁波杉杉新材料科技有限公司_202323536190.2

空调系统_青岛海尔智能技术研发有限公司_202410703107.6

空调系统_三菱电机株式会社_202080088776.7

随机相关技术

基于FPGA的高速伪随机数生成方法及高速伪随机数生成器_兰州大学_202210583056.9

用于制备随机纤维网的机器、系统和方法_3M创新有限公司_202180010194.1

一种方向随机的视力表_北京云柿信息技术有限公司_202322939378.5

高速物理随机数产生装置与方法_苏州矗联电子技术有限公司_202011037299.X

一种基于随机指令集的哈佛架构多级指令缓存测算方法_长沙麟卓信息科技有限公司_202410899383.4

一种具有角度调节功能的随机激光探测装置_琼台师范学院_202323310782.2

基于随机螺旋波导的片上中红外光谱仪_中山大学_202410739081.0

区域性子空间随机采样的对抗样本生成方法_西安科技大学_202411111424.5

半导体器件、动态随机存储器及选择控制电路_长鑫科技集团股份有限公司_202410853857.1

基于粒子群优化随机森林的土壤重金属含量预测方法和装置_青海民族大学_202410781758.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于强化学习的随机系统Pareto优化控制方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务