首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于元梯度算法对强化学习中多折扣因子的优化方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:桂林电子科技大学

摘要:本发明提出了一种基于元梯度算法对强化学习中多折扣因子的优化方法,用来处理单一折扣因子不能对折扣回报不同状态下进行分别优化的问题。将单一的折扣因子转换成多折扣因子,将对单一折扣因子的优化转换成对多折扣因子的优化,实现对折扣回报各个状态之间的分别优化,能够使得折扣回报的计算更加精确,同时由于折扣回报的计算精确,也会使得价值网络得到更有效的更新,优势函数也会计算的更加精确。由于优势函数计算更加精确,也会使得策略网络得到更有效的更新。

主权项:1.基于元梯度算法对强化学习中多折扣因子的优化方法,包括如下步骤:步骤1、初始化策略网络πθS、价值网络VθS、多折扣因子γ1,γ2,...,γn、固定的单一折扣因子γ。步骤2、智能体通过策略网络πθS给出的动作的概率分布,在环境探索,得到轨迹τt=St,At,Rt,...,St+m,At+m,Rt+m}。其中S代表环境状态,A代表智能体在环境中做出的动作,R代表智能体在环境中做出动作后所获得的奖励。步骤3、通过轨迹τt中的奖励Rt,...,Rt+m和多折扣因子γ1,γ2,...,γn计算折扣回报Ut。通过轨迹τt中的环境状态St,...,St+m,和价值网络VθS,计算预估回报值VθSt,...,VθSt+m。通过轨迹τt中的环境状态St,...,St+m和At,...,At+m和策略网络πθS,计算概率值πθSt,At,...,πθSt+m,At+m。通过折扣回报Ut和预估回报值VθSt,...,VθSt+m计算优势ASt,At。步骤4、通过将折扣回报Ut和预估回报值VθSt,...,VθSt+m带入价值网络的损失函数Lv,通过求得的Lv来更新价值网络VθS。通过将优势ASt,At和概率值πθSt,At带入策略网络的损失函数Lπ,通过求得的Lπ来更新价值网络πθS。步骤5、重复以上行为M次,获取最后一次所获得的轨迹步骤6、通过轨迹中的奖励Rt,...,Rt+m和固定的单一折扣因子γ计算折扣回报Ut。通过轨迹中的环境状态St,...,St+m,和价值网络VθS,计算预估回报值VθSt,...,VθSt+m。步骤7、通过将折扣回报Ut和预估回报值VθSt,...,VθSt+m带入多折扣因子γ1,γ2,...,γn的损失函数Lγ1,γ2,...,γn,通过求得的Lγ1,γ2,...,γn来更新多折扣因子γ1,γ2,...,γn。

全文数据:

权利要求:

百度查询: 桂林电子科技大学 基于元梯度算法对强化学习中多折扣因子的优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。