首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于近似集体策略和独立学习器的家庭微网群优化方法_三峡大学_202311694829.1 

申请/专利权人:三峡大学

申请日:2023-12-08

公开(公告)日:2024-06-11

公开(公告)号:CN117833307B

主分类号:H02J3/32

分类号:H02J3/32;H02J3/14;H02J3/46;G06F18/20;G06F18/214;G06Q50/06

优先权:

专利状态码:有效-授权

法律状态:2024.06.11#授权;2024.04.23#实质审查的生效;2024.04.05#公开

摘要:本发明提供的一种基于近似集体策略和独立学习器的家庭微网群优化方法,包括如下步骤:S1、构建具有未知状态转移概率函数的马尔可夫博弈模型,最小化各个住宅用能成本的同时实现满足住户舒适度和避免变压器过载的目标;S2、在每个智能体中引入近似集体策略模型和独立学习器机制,构建MADRL模型;S3、基于MADRL模型对家庭微网群智能体进行离线训练和在线能量优化决策。该方法满足了现有RM群优化运行过程中局部可观测环境、高隐私性和高可拓展性的要求。

主权项:1.一种基于近似集体策略和独立学习器的家庭微网群优化方法,其特征在于,包括如下步骤:S1、构建具有未知状态转移概率函数的马尔可夫博弈模型,最小化各个住宅用能成本的同时实现满足住户舒适度和避免变压器过载的目标;马尔可夫博弈模型表达式如下:状态空间:RM群中各个子RM的智能体将根据本地观测结果做出调度决定,以满足住宅用户的用能需求,对于第个RM的智能体,在时段其观测到的环境状态定义为: 其中,为第个RM中光伏发电单元在时段的输出功率;和分别为第个RM向配电网购买电能和出售电能的价格;为第个RM中固定负荷所需功率;为第个RM中储能系统在时段的荷电状态;为第个RM在时段的室外温度;和分别为第个RM中电动汽车和暖通空调的状态元组;动作空间:环境状态式中定义的观测仅构成了环境全局状态的子集,即智能体只能观测来自环境的部分信息,结合所有子RM的本地观测结果,时段RM群获得的全局状态被表示为: ;第个子RM在时段的局部调度动作由与柔性可调度单元相关的功率输出组成,公式化为: ;其中,为暖通空调的输出功率,具有制热和制冷两种运行模式;为电动汽车电池的充电或放电功率,表示存储在电池中或从电池释放的能量;为储能系统的充电或放电功率;同时,所述调度动作需满足以下运行约束条件: ; ; ;在多智能体环境下,将RM群中所有子RM的联合调度动作进一步定义为: ;奖励函数:将优化目标设定为最小化个调度时段内RM的总用能成本,同时避免影响住户的舒适度以及与配电网相连的变压器过载,设计的奖励函数由如下四部分组成:用能成本项、热不适惩罚项、里程焦虑惩罚项和变压器过载惩罚项;所述奖励函数的具体表达如下:用能成本项:第个RM智能体的用能成本项被设定为净用能成本,定义为: ;其中,为储能系统的运行成本;为RM智能体与配电网功率交互的成本;为电动汽车充电和放电的电池退化成本;热不适惩罚项:将与区域温度偏差相关的热不适惩罚项定义为: 其中,为暖通空调的设定温度值;为第个RM的室内温度;里程焦虑惩罚项:将里程焦虑惩罚项定义为: 其中,为电动汽车电池存储电能的容量;为时段电动汽车电池中存储的电能;为电动汽车的到达住宅的时刻,电动汽车离开的时刻为;变压器过载惩罚项:依据每个子RM对于RM群总电能需求的贡献,将变压器过载惩罚定义为: 其中,为第个RM在时段与配电网交互的功率,可由功率平衡等式计算得到;为变压器处的总功率,定义为;为时段变压器的可用容量;综合上述四部分的描述,时段智能体的奖励可表示为: 其中,、和分别为热舒不适度惩罚项、里程焦虑惩罚项和变压器过载惩罚项的权重因子;S2、在每个智能体中引入近似集体策略模型和独立学习器机制,构建MADRL模型;S3、基于MADRL模型对家庭微网群智能体进行离线训练和在线能量优化决策。

全文数据:

权利要求:

百度查询: 三峡大学 一种基于近似集体策略和独立学习器的家庭微网群优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。