基于元梯度算法对强化学习中多折扣因子的优化方法

导航：龙图腾网> 最新专利技术> 基于元梯度算法对强化学习中多折扣因子的优化方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：桂林电子科技大学

摘要：本发明提出了一种基于元梯度算法对强化学习中多折扣因子的优化方法，用来处理单一折扣因子不能对折扣回报不同状态下进行分别优化的问题。将单一的折扣因子转换成多折扣因子，将对单一折扣因子的优化转换成对多折扣因子的优化，实现对折扣回报各个状态之间的分别优化，能够使得折扣回报的计算更加精确，同时由于折扣回报的计算精确，也会使得价值网络得到更有效的更新，优势函数也会计算的更加精确。由于优势函数计算更加精确，也会使得策略网络得到更有效的更新。

主权项：1.基于元梯度算法对强化学习中多折扣因子的优化方法，包括如下步骤：步骤1、初始化策略网络πθS、价值网络VθS、多折扣因子γ1，γ2，...，γn、固定的单一折扣因子γ。步骤2、智能体通过策略网络πθS给出的动作的概率分布，在环境探索，得到轨迹τt＝St，At，Rt，...，St+m，At+m，Rt+m}。其中S代表环境状态，A代表智能体在环境中做出的动作，R代表智能体在环境中做出动作后所获得的奖励。步骤3、通过轨迹τt中的奖励Rt，...，Rt+m和多折扣因子γ1，γ2，...，γn计算折扣回报Ut。通过轨迹τt中的环境状态St，...，St+m，和价值网络VθS，计算预估回报值VθSt，...，VθSt+m。通过轨迹τt中的环境状态St，...，St+m和At，...，At+m和策略网络πθS，计算概率值πθSt，At，...，πθSt+m，At+m。通过折扣回报Ut和预估回报值VθSt，...，VθSt+m计算优势ASt，At。步骤4、通过将折扣回报Ut和预估回报值VθSt，...，VθSt+m带入价值网络的损失函数Lv，通过求得的Lv来更新价值网络VθS。通过将优势ASt，At和概率值πθSt，At带入策略网络的损失函数Lπ，通过求得的Lπ来更新价值网络πθS。步骤5、重复以上行为M次，获取最后一次所获得的轨迹步骤6、通过轨迹中的奖励Rt，...，Rt+m和固定的单一折扣因子γ计算折扣回报Ut。通过轨迹中的环境状态St，...，St+m，和价值网络VθS，计算预估回报值VθSt，...，VθSt+m。步骤7、通过将折扣回报Ut和预估回报值VθSt，...，VθSt+m带入多折扣因子γ1，γ2，...，γn的损失函数Lγ1，γ2，...，γn，通过求得的Lγ1，γ2，...，γn来更新多折扣因子γ1，γ2，...，γn。

全文数据：

权利要求：

百度查询：桂林电子科技大学基于元梯度算法对强化学习中多折扣因子的优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：线条体固定部件、线条体增设用固定部件以及线条体安装方法

下一篇：集中供暖设备

相关技术

线条体固定部件、线条体增设用固定部件以及线条体安装方法

集中供暖设备

一种充油海缆的防扩裂导油装置

一种多类型储能设施的配置优化方法、装置、设备及介质

基于空间差分技术的动作捕捉方法和系统

一种可集成于漂流浮标的多自由度波浪能发电装置

谐振式电源供应器的同步整流控制方法

装置、方法和计算机程序

测试方法、装置、电子设备及可读存储介质及产品

用于使用子图片对特征进行视频编码的系统和方法

一种避免结焦的草酸酯蒸发器及草酸酯气化方法

一种潮气量检测系统及装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于元梯度算法对强化学习中多折扣因子的优化方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务