面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端

导航：龙图腾网> 最新专利技术> 面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：重庆大学

摘要：本发明公开了面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端，包括采集智能体与仿真环境交互产生的经验数据，包括智能体执行的动作，仿真环境的当前状态信息和下一个状态信息，以及仿真外部奖励信号；利用全连接神经网络构建势能函数网络模型，获取智能体在当前状态和下一个状态的仿真环境的势能值；根据势能值差，通过奖励塑造函数计算内在奖励信号并和仿真外部奖励信号合并，得到最终的奖励信号；利用损失函数对势能函数网络模型进行更新，调整智能体执行动作的策略，使智能体在与环境的交互中获得最大化累积奖励；本发明利用状态之间的新旧策略的优势值差异作为内在奖励，提高了稀疏连续控制任务中的智能体性能，降低了计算成本。

主权项：1.一种面向稀疏连续控制任务的奖励塑造方法，其特征在于，包括以下步骤：S1.稀疏连续控制任务仿真环境和智能体之间进行交互；S2.采集智能体与仿真环境交互产生的经验数据，经验数据包括智能体执行的动作，仿真环境的当前状态信息和下一个状态信息，以及仿真外部奖励信号；S3.利用全连接神经网络构建势能函数网络模型，获取智能体在当前状态和下一个状态的仿真环境所对应的势能值；S4.根据智能体在当前状态和下一个状态的仿真环境所对应的势能值，通过奖励塑造函数计算得到内在奖励信号，并将内在奖励信号和仿真外部奖励信号合并，得到最终的奖励信号；S4.利用损失函数对势能函数网络模型进行更新，调整智能体执行动作的策略，使智能体在与环境的交互中获得最大化累积奖励。

全文数据：

权利要求：

百度查询：重庆大学面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种利用畜禽粪便发酵高效生物有机肥的生产工艺

下一篇：一种用于金属化薄膜卷筒的堆放装置

相关技术

一种利用畜禽粪便发酵高效生物有机肥的生产工艺

一种用于金属化薄膜卷筒的堆放装置

一种储物筐可调节的电动购物车

一种皮带输送生产线防晃动结构

一种分捡操作设备

一种具有防护功能的建筑结构加固连接装置

一种伊利司莫微针及其制备方法

一种压缩空气储能系统

一种带式输送机撒料治理装置

一种体外诊断试剂盒

钢网清洗机气缸调节装置

一种稳定高效的塑料挤出机

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务