首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种受鼠脑海马体前瞻预测机制启发的改进型Dyna-Q方法 

申请/专利权人:北京工业大学

申请日:2024-02-06

公开(公告)日:2024-06-04

公开(公告)号:CN118133901A

主分类号:G06N3/047

分类号:G06N3/047;G06N3/092

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.06.21#实质审查的生效;2024.06.04#公开

摘要:本发明公开了一种受鼠脑海马体前瞻预测机制启发的改进型Dyna‑Q方法,实现机器人在具有静态和动态障碍物的未知环境下的导航;该方法结合鼠脑海马体的前向扫描机制对Dyna‑Q算法进行改进,使其能够模拟未来的多步操作,同时模仿纹状体功能对前向模拟进行决策确定性评估,并动态调整扫描的深度和动作选择方式,以此来提高机器人的收敛性和决策效率;这种前瞻预测机制能够平衡探索与利用,降低机器人陷入局部最优的概率;实验结果表明,该方法具有更好的收敛性、规划出的路径长度更短,并具有生物合理性,为改进现有强化学习算法和提高机器人的导航能力提供一种崭新思路。

主权项:1.一种受鼠脑海马体前瞻预测机制启发的改进型Dyna-Q方法,其特征在于,模仿鼠脑海马体前向扫描机制对强化学习方法Dyna-Q的动作选择机制进行改进,并应用于机器人在没有认知地图条件下的导航任务中,以此来提高移动机器人在未知环境下进行环境认知的能力;该方法的实施过程如下:S1、初始化仿真实验环境:将实验环境设置为二维方形迷宫,环境中包含多个静态障碍物以及做往返运动的动态障碍物,并设置起点和目标点;S2、将环境认知任务设定为一个马尔可夫决策过程MDP:标准的强化学习方法是在MDP框架下通过与环境进行交互并试错的过程;采用一个五元组M={S,A,P,R,γ}对环境认知任务进行描述,其中S表示环境中状态s的集合,s∈S,A是机器人能够采用的动作集合,P是状态转移概率,R为奖励函数,γ为折扣因子;S3、进行实验测试本方法的环境认知性能,机器人从起点出发探索环境寻找目标点;S4、模仿鼠脑认知机制改进Dyna-Q方法的动作选择机制,机器人基于此机制进行决策:结合海马体的前向扫描机制对Dyna-Q方法的动作选择机制进行改进,使机器人在进行动作选择时能够在内部模拟未来的多步操作,这种前向扫描机制能够使机器人平衡探索与利用,降低陷入局部最优的概率;模仿纹状体功能,对前向扫描的每一深度进行决策确定性评估,从而动态调整扫描的深度和动作选择方式,提高机器人的收敛性和决策效率;S5、对Dyna-Q方法中的ε-greedy方法进行改进,提高机器人的决策效率:使参数εvte在训练初期较大,机器人倾向于随机选择动作,探索环境中的未知状态;随着迭代次数增加,εvte不断衰减至最终的greedy因子ε,逐渐倾向于使用已获得的最优策略从而加速机器人的收敛;episode为当前训练回合数,Max_Episode为训练的最大回合数; S6、采用奖励函数R和状态转移模型P对机器人采用的每一步动作进行评估,并记录采用此次动作产生的经验;以下为奖励函数,其中包括到达或靠近目标时的奖励以及撞墙或远离目标时的惩罚;距离信息的奖励服从高斯分布;机器人通过以下方式对奖励进行评估:rhold为奖励函数初值,rnear为机器人靠近目标的奖励系数,整体奖励越靠近目的地越大,rneg为碰到障碍时的惩罚,rgoal为到达目标时的奖励; 随后采用统计学方式对MBRL的状态转移模型Ps’|s,a进行建模;在环境状态离散的情况下,通过离散的三元组来存储每一个st+1,st,at;机器人对每次在当前状态st采取动作at后到达特定后续状态st的次数进行计数,并将其与到达所有可能的后续状态s’的总次数之比作为状态转移概率Pst+1,st,at;机器人访问频率越高的状态在执行值迭代时的折扣因子越大,能够在环境结构稳定的情况下实现对环境的内部表征;countst+1,st,at=countst+1,st,at+1;7 对Q值的更新,也是采用一种基于模型的值迭代方式,奖励R基于采取当前动作后的观测值;任务各状态之间的转换以概率形式呈现,状态转移函数Pst+1|st,at为所有可能状态的概率分布;通过状态转移概率来衡量将来Q值对当前Q值的影响力,在训练过程中访问次数越多的状态,在模型中的作用越显著;Qst,at=Qst,at+α×R+γ4Pst+1|st,at×maxQst+1,at+1-Qst,at;9在训练机器人寻找目标点的过程中,与Dyna架构一致,保存每一步的前后状态和动作奖励st,st+1,at,R;在一个训练回合中到达目标点后,机器人随机提取模型中保存的经验在内部对状态值函数进行学习,这一点与Dyna-Q方法的规划过程一致,在虚拟的环境模型中进行模拟训练能够加快路径长度的收敛速度;S7、经过多回合的训练,得到机器人路径长度的学习曲线,证明采用前向扫描机制的优势;还得到前向扫描长度的变化曲线以及决策确定性的变化曲线,证明生物合理性。

全文数据:

权利要求:

百度查询: 北京工业大学 一种受鼠脑海马体前瞻预测机制启发的改进型Dyna-Q方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。