首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于进化策略的多域行动序列智能优化系统及方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京航空航天大学

摘要:本发明提出了一种基于进化策略的多域行动序列智能优化系统及方法,将行动对象视为智能体,构建强化学习智能体模型,基于进化策略的超参数优化方法对行动策略网络进行优化,获取当前智能体的局部环境态势信息输入优化后的行动策略网络,得到各个待决策智能体的行动序列,对该行动序列解码得到各智能体的操作指令,基于操作指令控制智能体执行动作。本发明通过超参数优化方法能够解决现有技术中面对行动序列网络在复杂环境下学习效率低,训练过程漫长、网络训练过程不平稳等技术问题。

主权项:1.一种基于进化策略的多域行动序列智能优化方法,其特征在于:包括多域行动模型,包括以下步骤,步骤1,采用基于AC强化学习框架下的MADDPG算法构建多域行动智能任务规划系统,包括Actor策略网络和Critic评价网络;步骤2,将该模型中的行动对象视为智能体,包括敌方智能体和我方智能体,初始化环境态势信息,包括双方的实时位置、速度、航向参数以及当前的地理环境信息,并对所有的环境态势信息进行预处理;步骤3,分析智能体具体的行动得到任务目标,将其作为初始条件输入到训练环境中;根据行动目的构造奖赏函数,智能体通过学习最大化奖赏函数进行训练,得到行动策略网络;步骤4,采用进化策略对行动策略网络进行训练优化,以获取最优超参数配置来训练行动策略网络,超参数包括模型结构超参数和算法行为超参数,其中,模型结构超参数包括深度网络的隐藏层层数以及每个隐藏层单元数;算法行为超参数包括梯度优化器的学习率和衰减因子,进化算法中的重组概率、变异概率和变异扰动幅度,强化学习里面的奖赏折扣因子和步长,先对网络的隐藏层层数、以及每个隐藏层单元数进行训练优化,之后固定模型结构超参数,对学习率、重组概率、变异概率、奖赏折扣因子参数进行训练优化,在此阶段不对网络结构超参数进行进化操作;所述进化策略操作包括:选择保留、交叉重组、选择变异,具体的,S1,选择保留:首先,对群体P中的前20%的智能体进行选择保留操作,直接将前20%保留至下一代,对模型权值和超参数配置不做任何修改操作;S2,交叉重组:从群体P中性能处于前20%到80%的个体中随机挑选两个父代个体hi,hj进行交叉重组操作,其中,h表示个体的超参数配置,i、j分别表示第i和第j个个体,即随机两个个体;n表示待调整的超参数总个数,即hi表示第i个个体的超参数配置,表示第i个个体的第一个待调整超参数;重组操作是两点交叉,将群体中的个体进行一个随机两两配对操作,接着每一对随机选择交叉点index1和index2按照概率pc交换交叉点间的超参数配置,重组的具体操作如下式: S3,选择变异:将群体P中的后20%的智能体用群体P中的前20%的智能体进行替换操作,然后对这些替换后的个体进行变异操作,即直接对网络中的超参数进行扰动,具体的,按照一定的扰动概率pm以扰动幅度vrange进行扰动操作,如下式: 式中,Vi~U1-vrange,1+vrange,其中,Vi为服从1-vrange到1+vrange的均匀分布;经选择保留、交叉重组,选择变异操作后,得到新群体每个智能体继续在各自当前的超参数配置下进行环境交互和梯度优化,重复S1-S3,当进化操作的次数达到预先设定值时,优化过程结束,获得最优网络;将网络复制N份,构成一个群体P,并初始化算法行为超参数配置智能体梯度优化:N个智能体在各自的当前超参数配置下,独立并行地进行环境交互获得样本并进行深度强化学习梯度优化,一旦梯度优化次数达到预设值Alg_Step_max,每个智能体停止学习;策略网络进化操作:对N个策略网络进行适应度评估后对N个策略网络及其算法行为超参数进行基于进化策略的进化操作,产生下一代的N个策略网络及其算法结构超参数,小于预设值时重复进行所述智能体梯度优化,直至达到最大迭代次数Alg_Gen_max,选出适应度最大的策略网络;步骤5,获取当前待决策智能体的局部环境态势信息,输入到步骤4训练好的行动策略网络中,得到各个待决策智能体的行动序列,对其进行策略解码,得到各智能体的操作指令,通过执行该操作指令以控制各智能体执行新的动作。

全文数据:

权利要求:

百度查询: 南京航空航天大学 一种基于进化策略的多域行动序列智能优化系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术