买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中兵智能创新研究院有限公司
摘要:本发明涉及一种地面无人平台的跨场景行为决策系统,属于人工智能领域,解决了现有地面无人平台的行为决策系统适应场景较单一的问题。包括:任务获取模块,用于获取地面无人平台所需执行的任务要求信息;状态获取模块,用于获取地面无人平台自身的状态;环境感知模块,用于获取地面无人平台周围的环境以及目标对象的状态;行为决策生成模块,包括泛化的行为决策基本单元库,用于根据任务要求、无人平台自身和目标的状态信息,采用强化学习算法,从泛化的行为决策基本单元库中学习得到地面无人平台完成任务的最优决策;执行机构,执行最优决策以完成任务。该行为决策系统能够适应多种场景,为地面无人平台提供在多种场景下完成任务的最优行为决策。
主权项:1.一种地面无人平台的跨场景行为决策系统,其特征在于,包括:任务获取模块,用于获取地面无人平台所需执行的任务要求信息;其中,所述地面无人平台所需执行的任务包括对目标对象进行侦察和或打击任务;状态获取模块,用于获取地面无人平台自身的状态信息;环境感知模块,用于获取地面无人平台周围的环境信息以及目标对象的状态信息;以及,行为决策生成模块,包括泛化的行为决策基本单元库,该模块用于根据所需执行的任务要求信息、以及执行任务时地面无人平台自身和目标对象的状态信息,采用强化学习算法,从泛化的行为决策基本单元库中学习得到地面无人平台完成任务的最佳行为决策基本单元组合,作为当前环境中完成任务的最优决策;执行机构,执行所述最优决策以完成所述任务;其中,所述强化学习算法为SMDP+Q-Learning算法,其中SMDP用于建模,Q-Learning算法用于获取Q矩阵,所述最佳行为决策基本单元组合从所述Q矩阵中读取;所述建模的过程包括:步骤S401、获取地面无人平台每一时刻的状态St,t=0,1,2,…,T;所述每一时刻地面无人平台的状态St包括自身的实时位置和速度、以及目标的实时位置和速度:St={xhost,yhost,θhost;vhost;xtarget,ytarget,θtarget;vtarget}t其中,xhost,yhost,θhost表示地面无人平台的位姿信息,xtarget,ytarget,θtarget表示地面无人平台所需侦察或打击目标的位姿信息,vhost和vtarget分别表示地面无人平台和目标的速度矩阵;步骤S402、基于泛化的行为决策基本单元库,获取地面无人平台的动作集合O,包括No条行为决策基本单元;步骤S403、设置动作所产生的奖励函数R,与动作发生后地面无人平台的状态,即与下一时刻的状态相关;所述奖励函数R表示为:R=Rtask+Rdistance+Rsafety+RefficiencyRtask=100 Rsafety=-200Refficiency=-0.5t其中,Rtask表示地面无人平台完成目标任务获得的奖励;Rdistance用于衡量地面无人平台执行任务时与目标之间的安全距离d;Rsafety是用于衡量地面无人平台执行任务时的安全性的指标;Refficiency用于对地面无人平台完成任务所用的时间进行评估;步骤S404、设置状态-动作值函数QS,O,其是大小为T×No的矩阵,其中的任意元素Qtj表示地面无人平台在状态St下选择动作Oj后可以获得的累积奖励的预期值;并将QS,O中的所有元素初始化为0。
全文数据:
权利要求:
百度查询: 中兵智能创新研究院有限公司 一种地面无人平台的跨场景行为决策系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。