首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于深度强化学习动态定价的VPP内部能源优化方法及系统_东南大学_202311355656.0 

申请/专利权人:东南大学

申请日:2023-10-18

公开(公告)日:2024-06-21

公开(公告)号:CN117559387B

主分类号:H02J3/00

分类号:H02J3/00;G06Q10/0631;G06Q30/0283;G06Q50/06;G06N3/04;G06N3/092;H02J3/46

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2024.03.01#实质审查的生效;2024.02.13#公开

摘要:本发明公开了一种基于深度强化学习动态定价的VPP内部能源优化方法及系统,首先输入基础数据,建立双层日前能量管理框架:所述框架包括上下两层,在上层中,VPP运营商向DER发送内部价格信号;在下层中,DER接收来自上层VPP运营商的价格信号,实现个人利润最大化的前提下进行调度决策,并将决策信号传送回VPP操作员;建立强化学习模型:采用柔性动作‑评价算法SAC作为无模型强化学习RL算法,通过在线学习在多维状态环境中进行最优的多维连续决策变量;最后在强化学习模型基础下进行VPP操作,实现内部能源的最佳调度。

主权项:1.基于深度强化学习动态定价的VPP内部能源优化方法,其特征在于,包括如下步骤:S1,数据输入:输入基础数据,所述基础数据至少包括电力市场价格数据、负荷预测数据、VPP内部设备状态数据和可用能源资源的数据;S2,建立双层日前能量管理框架:所述框架包括上下两层,在上层中,VPP运营商向DER发送内部价格信号,代表发电和减载的购买和销售价格,所述内部价格信号至少包括风力发电、需求响应、分布式柴油发电和电池存储的内部价格信号,VPP运营商的内部采购价格是上层的决策变量,其进行内部价格信号决策变量的日前优化目标如下: 其中,Ct,i是t时刻从第i类DER购买电力的成本之和;λgrid是预测电价;Pt,i是VPP运营商向外部电力市场出售聚合电力;T是总时间点数;N是DER总类数;R为优化目标;所述内部采购价格还受外部电力市场的限制,外部市场的总投标能力受到容量最大转移容量Pmax的限制,具体为:0≤λt,i≤λgrid 其中,Pmax为最大转移容量;Pt,i为第i类资源功率;λt,i为第i类资源内部采购价格;λgrid为预测电价;在下层中,DER接收来自上层VPP运营商的价格信号,实现个人利润最大化的前提下进行调度决策,并将决策信号传送回VPP操作员;下层框架中,每个DER的收入包括从VPP运营商获得的分配收入和相应的运营成本,根据价格信号,每个DER确定发电量、充电状态和减载,以实现个人利润最大化;VPP运营商和可再生能源发电之间,可再生能源发电按单位发电量进行奖励,风力发电日前进行风力发电预测,并通过削减额外功率来决定VPP的发电量,所述风力发电的利润最大化目标如下: 其中,πt,w为风力发电的利润;Pt,w为以合同价格提供的风力发电量;λt,w为合同价格;Cpen为t时刻功率预测的不确定性相关的惩罚系数;Ccurl为与风电场决定不贡献的缩减功率量相关的弃电成本系数;下层框架中,VPP运营商与柴油发电之间,根据利润最大化函数来决定当时的发电量;对于分布式柴油发电,目标是在考虑发电成本的情况下实现利润最大化,具体如下: 其中πt,D为利润;Gt,D为柴油发电量;λt,D为t时刻柴油发电的内部价格;CD为柴油发电非适参数;柴油发电的运行约束如下:0≤Gt,D≤GD,max其中,GD,max为最大发电量;Gt,D为t时刻柴油发电量;下层框架中,VPP运营商与电池存储之间,将根据VPP操作员发出的内部价格信号和t-1时的电池状态来决定充电或放电量,目标是使放电利润和充电成本之间的差异最大化,具体为: 其中,πbat,t为发电的利润;Qbat,t与Qbat,t0为电池充放电决策变量,受到充电和放电最大容量的限制,λbat,t是t时刻内部价格信号;λbat,t0是t-1时刻内部价格信号;S3,建立强化学习模型:采用柔性动作-评价算法SAC作为无模型强化学习RL算法,通过在线学习在多维状态环境中进行最优的多维连续决策变量;S31:在柔性动作-评价算法SAC中,通过用熵项增加期望的奖励之和其中st为特定状态环境;at为特定状态环境下的动作;π为策略;将标准学习目标推广到最大熵目标,使得最优策略除了在每个状态下的奖励外,最大化熵;S32:建立柔性动作-评价算法SAC,指示从状态s开始、采取行动并遵循政策的预期贴现率的Q函数定义为: 其中,st为t时刻特定状态环境;at为t时刻特定状态环境下的动作;π为策略;α为温度参数,决定熵项相对于奖励的重要性,从而控制最优策略的随机性;γ为折扣率;S4:在步骤S3的强化学习模型基础下进行VPP操作,实现内部能源的最佳调度。

全文数据:

权利要求:

百度查询: 东南大学 基于深度强化学习动态定价的VPP内部能源优化方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。