首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于纳什Q学习的微电网群互动博弈策略学习进化方法_中国科学院电工研究所_202310083666.7 

申请/专利权人:中国科学院电工研究所

申请日:2023-02-08

公开(公告)日:2024-06-21

公开(公告)号:CN116050632B

主分类号:G06Q10/04

分类号:G06Q10/04;H02J3/00;G06Q50/06;G06F30/27;G06N20/00;G06F113/04

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2023.05.19#实质审查的生效;2023.05.02#公开

摘要:本发明提供一种基于纳什Q学习的微电网群互动博弈策略学习进化方法,包括:考虑多主体利益诉求与微电网群互动约束,构建微电网群互动博弈模型,使用交替方向乘子分布式优化算法松弛问题为全局优化问题求解近似均衡解;基于步骤1求得的近似均衡解,构建近似均衡解驱动的Q‑Learning强化学习训练机制;构建微电网群策略强化学习的动作空间,状态空间和价值函数;基于纳什均衡近似解的迁移学习方法加速强化学习训练和多微电网群互动博弈均衡解求解过程。本发明充分利用历史求得的近似均纳什衡解集,实现微电网群互动运行策略的学习,显著提高历史数据的利用与强化学习的训练效率,加速微电网群互动博弈策略的学习。

主权项:1.一种基于纳什Q学习的微电网群互动博弈策略学习进化方法,其特征在于,包括以下步骤:步骤(1)考虑多主体利益诉求与微电网群互动约束,构建微电网群互动博弈模型,使用交替方向乘子法松弛问题为全局优化问题,求解近似均衡解,包括:步骤(1-1)针对参与互动博弈的综合能源微电网利益目标,建立互动博弈的利益目标函数:对于微电网群,构建如下的利益目标函数: 1 2 3 4 5其中,为综合能源微网序号,为综合能源微网微的负荷经济收益,,,为为综合能源微网微的负荷收益系数,为综合能源微网微在时刻的负荷功率,为综合能源微网微的可再生能源上网收益,、分别为光伏和风电的上网电价的价格系数,为综合能源微网微在时刻的光伏发电与电网交易功率,为综合能源微网微在时刻的风力发电与电网交易功率,为时间段长度,为综合能源微网微的可再生能源运行维护成本,、分别为光伏和风电机组的运维成本的价格系数,为综合能源微网微在时刻的光伏发电功率,为综合能源微网微在时刻的风力发电功率,为综合能源微网微的燃机发电成本,,,为综合能源微网i的常规微燃机机组的成本系数,为综合能源微网微在时刻的微燃机出力功率;步骤(1-2)建立微电网群互动博弈消纳可再生能源的运行约束与设备物理约束,建立互动博弈的约束条件: 6 7 8 9 10 11其中,为综合能源微网在时刻的储能设备的荷电状态,,分别为储能设备的充电效率与放电效率,,分别为储能设备在时刻的充电功率与放电功率,为储能设备的最大容量,,分别为储能设备的充电功率最大值与放电功率最大值,,分别为储能设备荷电状态的最大值与最大值;步骤(1-3)引入拉格朗日函数,将求解博弈的纳什均衡问题转化为求解全局最优问题: 12 13 14 15 16 17 18其中,为优化目标函数的拉格朗日增广函数,是综合能源微网的优化变量,是所有综合能源微网群在第k次迭代时求解得到的解集除去之后的集合,是综合能源微网的总经济收益,是综合能源微网总数,是等式约束的变量前系数,是等式约束的常数,是求解以变量的函数最优解集,为变量的辅助变量,满足约束,是以为变量的的对偶函数,是时间段的最大值,为第次数迭代的拉格朗日乘子,为惩罚系数,和分别为第k次迭代时增广拉格朗日的互残差与自残差;步骤(1-4)使用交替方向乘子分布式优化算法求纳什近似均衡解,包括:1)设置最大迭代次数,收敛精度;初始化迭代次数,自变量,辅助变量,增广拉格朗日乘子和惩罚因子,其中,;2)对于微电网群主体,从各微电网群主体接收其期望售给电网的光伏发电功率和风电发电功率,根据优化目标及其约束构建其分布式优化的拉格朗日函数12,基于公式13依次求解微电网群各优化变量,包括负荷优化功率和微燃机出力功率;3)根据公式14构建各微电网群主体辅助变量与辅助变量对应的拉格朗日函数,根据公式15更新辅助变量;4)根据公式16更新拉格朗日乘子,根据公式17所示更新惩罚系数,更新迭代次数;5)根据公式18计算变量的互残差与自残差,判断算法收敛情况,如果满足迭代终止条件的公式19,否则返回2)重复计算,直至满足收敛条件或最大迭代次数; 19;步骤(2)基于近似均衡解,构建近似均衡解驱动的Q-Learning强化学习训练机制;构建微电网群策略强化学习的动作空间,状态空间和价值函数;步骤(3)基于纳什均衡近似解的迁移学习方法加速强化学习训练和多微电网群互动博弈均衡解求解过程。

全文数据:

权利要求:

百度查询: 中国科学院电工研究所 一种基于纳什Q学习的微电网群互动博弈策略学习进化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。