首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于逆强化学习结合多因子多动作融合的电网调度方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:国网福建省电力有限公司;国网福建省电力有限公司厦门供电公司

摘要:本发明涉及一种基于逆强化学习结合多因子多动作融合的电网调度方法,包括:输入电网调度相关的数据集;将电网调度相关数据进行编码,构造出电网状态,同时采样动作指令编码;构建电网调度知识图谱并更新为电网调度认知图谱;定义多跳评分函数;利用先验知识构建基于状态的调度元路径;产生源电网状态到目标电网状态的路径,使用多跳评分函数计算路径中节点多跳的得分评估,产生强化学习的第一部分奖励函数;生成奖励函数,结合第一部分奖励函数,生成总的奖励函数;定义逆强化学习的马尔可夫过程和逆强化学习策略更新框架;训练产生基于逆强化学习结合多因子多行为融合的电网调度策略。该方法有利于提高电网调度的合理性和灵活性。

主权项:1.一种基于逆强化学习结合多因子多动作融合的电网调度方法,其特征在于,包括以下步骤:1输入电网调度相关的数据集,包括电网数据、环境数据、资源数据和作业数据,以及调度指令动作集;2将电网数据、环境数据、资源数据和作业数据使用自编码器进行编码,然后将自编码结果经过连接融合,构造出电网状态,同时从资源数据编码中采样到相关资源调度的动作指令编码;3利用电网调度的先验知识结合电网数据集中电网调度相关的实体状态和相应的调度动作构建出对应的电网调度知识图谱,然后利用步骤2获得的状态信息和动作指令编码更新电网调度知识图谱为电网调度认知图谱;4根据步骤3得到的电网调度认知图谱,基于当前源电网状态到目标电网状态的情况定义多跳评分函数;5定义多跳评分函数后,利用先验知识构建基于状态的调度元路径;6将步骤5得到的基于状态的调度元路径作为强化学习决策过程中的先验指导,生成调度动作选择约束,产生源电网状态到目标电网状态的路径,使用多跳评分函数来计算路径中节点多跳的得分评估,产生强化学习的第一部分奖励函数;7基于步骤1获得电网调度离线历史数据提取的经验状态转移路径和基于强化学习策略学习到的状态转移路径做损失,生成奖励函数,结合步骤6得到的第一部分奖励函数,生成总的奖励函数;8在步骤7中获得的奖励函数的基础上,定义逆强化学习的马尔可夫过程和基于actor-critic的逆强化学习策略更新框架;9输入电网调度离线历史数据集,首先依据步骤2得到的电网状态的Embedding和调度动作的Embedding集以及步骤3得到的电网调度实例知识图谱,构建具有实际意义的电网调度实例知识图谱;接着使用迪杰斯特拉算法计算得到基于电网调度离线历史数据的最短状态转移路径;然后在步骤8定义的马尔可夫过程和逆强化学习策略更新框架,将电网调度离线历史数据集中的节点状态和动态组合的多动作输入到逆强化学习模型中,使用逆强化学习策略指导生成动作及动作路径,然后使用基于电网调度离线历史数据的最短状态转移路径作为监督约束,产生奖励函数,驱动策略更新,最终训练产生基于逆强化学习结合多因子多行为融合的电网调度策略;在步骤4中,根据步骤3得到的电网调度认知图谱,基于当前电网状态到目标电网状态的情况定义多跳评分函数,具体方法为:401首先定义多跳路径中的实体,路径的首位实体定义为e0,结尾实体定义为et,基于电网调度知识图谱,如果e0和et中间存在一系列的实体{e0,e1,...,et-1}和它们之间的t个关系即{r1,r2,...,rt},则基于认知图谱定义一个确定的有效多跳路径402完成多跳路径的定义后,定义多跳路径的评分函数,针对多跳路径中的两个实体和,评分函数定义为: 其中,j表示多跳路径中任意一个实体节点;当t=0且j=0时,该评分函数表示两个实体向量之间的相似度,即: 当t=1且j=1时,该评分函数表示头实体加关系后和尾实体之间的相似度,即: 从而完成基于知识图谱的多跳评分函数的定义,用于评估两个状态之间的相关性;在步骤5中,定义多跳评分函数后,利用先验知识构建基于状态的调度元路径,具体方法为:501依据认知图谱中包含的电网状态类型和调度动作类型生成一系列的三元组;502依据先验知识,对存在关系的三元组进行关联,最终抽象出多条具有先验指导意义的元路径,指导强化学习智能体在对应状态下进行调度动作选择;在步骤6中,以步骤5得到的元路径,约束强化学习智能体的搜索路径,具体方法为:601依据专家先验知识定义好多条元路径;602在强化学习中智能体的路径探索尝试过程中,依据定义好的元路径来指导当前电网状态进行调度动作选择,使得当前状态转移到下一个状态,依次类推直到周期结束,最终生成从源电网状态到目标电网状态的状态转移路径;603通过定义好的多跳评分函数对源电网状态和目标电网状态进行相关性计算,获得强化学习的第一部分奖励函数;在步骤7中,基于步骤2和步骤3分别获得离线历史数据约束和步骤6中得到第一部分奖励函数,生成总的奖励函数,具体方法为:701基于步骤2中对离线数据处理后得到的电网状态表示和调度动作表示以及步骤3中从离线历史数据中提取出的电网调度知识图谱,获得一张具有实际意义的电网调度认知图谱;702基于电网调度认知图谱,使用迪杰斯特拉算法计算源节点到目标节点的最短状态转移路径,作为离线历史数据的监督信息来与逆强化学习策略生成的状态转移路径作对抗产生第二部分奖励函数;703将二部分奖励函数做叠加,生成用于驱动整个逆强化学习策略更新的奖励函数;在步骤8中,在步骤7中获得的奖励函数的基础上,定义逆强化学习的马尔可夫过程和基于actor-critic的逆强化学习策略更新框架,具体方法为:801选择基于actor-critic的逆强化学习网络框架;802状态定义即在t时刻,状态st定义为一个三元组u,et,ht,其中u属于电网状态类型的实体集U,指决策过程的起始点,而et则表示智能体在t步之后到达的实体,ht表示走到t步之前历史记录;它们组成了当前时刻的状态;根据以上定义,初始化状态表示为: 终止时刻T的状态表示为:sT=u,eT,hT803动作定义即在t时刻的状态下,智能体有一个对应的动作空间,该动作空间包含了t时刻下实体的所有出度边的集合,然后实体不包含历史中存在的实体即: 每个状态节点做出动作决策时,由一个pair对动作进行动态组合成一个调度行为;804强化学习的软奖励定义:软奖励机制的获取依据多跳评分函数,基于此至终止时刻T对应状态获得的奖励定义为: 805状态转移概率即在马尔科夫决策过程中,假设已知当前时刻t所处的状态,以及当前状态下,根据路径搜索策略,然后执行动作,智能体将到达下一个状态;就在执行一个动作后到下一个状态的这个过程中存在一个状态转移概率的定义,这里将状态转移概率定义为: 而初始状态是由最开始电网状态所决定;806折扣因子即在马尔科夫决策过程中,智能体不只考虑到当前获得的及时奖励,还参考未来状态下获得的及时奖励;在给定的一个确定马尔科夫决策过程的周期中,某一时刻t对应状态下的总的奖励定义为:Gt=Rt+1+γRt+2+γ2Rt+3+…+γT-t-1RT即当前的及时奖励和未来的奖励值折扣的叠加,其中T表示的是终止状态;折扣因子γ属于[0,1],表示距离当前状态越远的奖励,需要进行折扣的越多;最终的任务是训练出一个策略用的获得最终收益R的最大化;807获得t时刻下离线历史数据监督机制下的奖励函数Roffline,t,定义如下:Roffline,t=logDpst,at-log1-Dpst,at其中,st表示时刻t时刻的状态,at表示时刻t时刻逆强化学习策略产生的动作,Dp是一个用于得到时刻t下的st,at来自于历史经验数据中概率的判别器;808t时刻在离线历史数据监督机制下产生奖励函数,策略优化即在马尔科夫决策过程中,学习一个优秀的搜索策略,以让以任意起始的电网状态在搜索的周期内都可以获得最大化的累计回报,即公式定义为: 809进行逆强化学习的策略的梯度更新,梯度更新定义如下: 其中,Rall表示从状态s到终点状态sT获得奖励的折扣加上状态s处于的时刻t对应的Roffline,t的累加和;810最终得到一个可训练的基于actor-critic的逆强化学习模型框架;在步骤9中,采用基于演说家-评论家算法框架来实现逆强化学习,具体方法为:901首先输入电网调度离线历史数据集,依据步骤2得到的电网状态的Embedding和调度动作的Embedding集和步骤3得到的电网调度知识图谱构建具有实际意义的电网调度知识图谱;然后基于认知图谱使用迪杰斯特拉算法计算得到基于电网调度离线历史数据的最短状态转移路径;其次定义演说家网络actornetwork,用于学习到一个路径搜索策略,以计算当前状态下节点对应的有效动作空间中,每个动作被选择的概率分布;actornetwork的输入为当前节点所拥有的动作空间和此时对应的状态,输入的动作空间中包含的每个动作是由一个动态组合的pair对动作合成,actornetwork的输出为动作空间中每个动作的概率分布,然后使用掩码操作删除无效动作,将结果输入到softmax中,生成最终的动作概率分布;接着定义出评论家网络criticnetwork,criticnetwork用于评估当前状态的价值,其输入为当前节点此时的状态,输出为对该状态的价值评估;902设置训练的迭代次数epochs,从epochs等于1开始训练;903获得步骤3中对整体电网调度数据集中的状态数据和多动作动态组合后的动作空间,然后将它们批量分别输入到actornetwork和criticnetwork中,分别获得动作空间中每个动作的概率分布和对该状态的价值评估;904计算critic网络对状态的预估值和在该状态下获得的2部分奖励的叠加值作损失函数最小化,并计算当前动作概率与当前动作带来奖励的乘积最大化操作,同时定义一个保证模型探索与开发均衡的熵,让熵最大化;905在epochs定义的值范围内,重复步骤903、904,最终完成逆强化学习的训练,得到基于逆强化学习结合多因子多行为融合的电网调度策略。

全文数据:

权利要求:

百度查询: 国网福建省电力有限公司 国网福建省电力有限公司厦门供电公司 基于逆强化学习结合多因子多动作融合的电网调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。