首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种考虑调度经验的强化学习优化调度方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:暨南大学

摘要:本发明公开了一种考虑调度经验的强化学习优化调度方法及系统,属于电力调度技术领域,方法包括:确定电网运行优化调度目标并设定电网运行优化的约束条件;基于调度目标与约束条件搭建强化学习运行环境模型;基于强化学习运行环境模型构建基于SAC算法的强化学习优化调度模型;使用强化学习优化调度模型实现电网优化调度。本发明提出真实环境模拟模块,相比传统强化学习所提方法根据现有观察状态推理真实环境,提取隐藏在电力系统运行环境历史数据中的信息,并与现有环境结合,模拟真实环境,从而更为精确的制订调度策略。对比现有研究成果,本发明首次使用调度经验辅助强化学习加速训练方法引入大规模新能源接入的电力系统优化调度领域。

主权项:1.一种考虑调度经验的强化学习优化调度方法,其特征在于,所述方法包括:步骤S1、基于新能源弃电量、切负荷和发电成本确定电网运行优化调度目标并设定电网运行优化的约束条件;步骤S2、基于所述电网运行优化调度目标与所述约束条件搭建用于源荷不确定的电网运行优化调度的强化学习运行环境模型;基于POMDP对优化调度环境进行建模,具体包括:S21、优化调度观察空间模型包括: 其中,为第t个调度时刻的观察空间,表示火电机组1,2,…n在调度时刻t的出力,为储能在调度时刻t的充放电功率,为风机在调度时刻t的出力,为光伏在调度时刻t的出力,为调度时刻t的负荷需求;S22、优化调度动作空间模型包括: 其中,为第t个调度时刻的一组调度动作向量,为火电机组、储能系统、风机、光伏和负荷在t时刻的输出功率;S23、优化调度奖励函数包括: 其中,为火电机组调度运行奖励,为储能系统调度运行奖励,为新能源发电运行奖励,为负荷调度运行奖励;步骤S2中,强化学习运行环境模型包括:状态空间s,动作空间a,转移概率t,奖励函数r,观察空间o,观察概率z;步骤S3、基于所述强化学习运行环境模型构建基于SAC算法的强化学习优化调度模型,具体包括:S31、基于强化学习运行环境模型,构建模拟环境模块;所述S31中,构建模拟环境模块的过程包括:使用GRU算法提取优化调度历史数据中的隐藏状态,采用数据融合的方式,结合模拟环境训练的策略来近似实际环境训练的策略,构建模拟环境模块;S32、基于所述模拟环境模块,使用SAC算法构建强化学习优化调度模型;步骤S4、使用所述强化学习优化调度模型实现电网优化调度。

全文数据:

权利要求:

百度查询: 暨南大学 一种考虑调度经验的强化学习优化调度方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。