买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:四川省光为通信有限公司
摘要:本发明涉及光模块技术领域,具体涉及使用深度强化学习优化AOC光模块传输性能的方法,所述方法包括:步骤1:建立AOC光模块强化学习环境模型,包括状态空间、动作空间、状态转移概率和回报函数;步骤2:估计动作值函数和策略值函数;步骤3:使用策略梯度方法来改进策略,其中策略参数通过最大化预期回报的策略梯度来更新;步骤4:使用分布式强化学习来更新动作值函数;步骤5:基于改进的策略值函数,选择使得动作值函数最大化的策略来优化AOC光模块的传输性能。本发明通过智能化的自主学习和优化,实现AOC光模块性能的自适应提升,最大化数据传输效率和可靠性,持续改进性能,实现自动化运维,降低成本。
主权项:1.使用深度强化学习优化AOC光模块传输性能的方法,其特征在于,所述方法包括:步骤1:建立AOC光模块强化学习环境模型,包括状态空间、动作空间、状态转移概率和回报函数;所述状态空间表示AOC光模块的可能的传输速度集合;所述动作空间表示对AOC光模块的传输速度进行优化可能采取的动作集合;所述状态转移概率在给定状态下执行给定动作后,转移到下一个状态的概率分布;所述回报函数表示在给定状态下执行给定动作并转移到状态时,计算AOC光模块的性能提升或降低的百分比的函数;AOC光模块的性能提升或降低的百分比为回报;所述回报包括:预期回报和实际回报;步骤2:估计动作值函数和策略值函数;动作值函数表示在给定状态下执行给定动作所的预期回报;策略值函数表示在给定策略下,从当前的状态开始执行策略中包含的多个动作,并遵循该策略直到结束时所获得的每个动作的预期回报的总和;每个策略为多个动作按照顺序组成的集合;步骤3:使用策略梯度方法来改进策略,其中策略参数通过最大化预期回报的策略梯度来更新;使用蒙特卡洛树搜索来计算新的策略值函数;循环执行本步骤直到达到设定的第一执行次数;步骤4:使用分布式强化学习来更新动作值函数;使用更新后的动作值函数,通过计算策略梯度,再次更新策略参数,以改进策略;循环执行本步骤直到达到设定的第二执行次数;步骤5:基于改进的策略值函数,选择使得动作值函数最大化的策略来优化AOC光模块的传输性能。
全文数据:
权利要求:
百度查询: 四川省光为通信有限公司 使用深度强化学习优化AOC光模块传输性能的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。