一种受鼠脑海马体前瞻预测机制启发的改进型Dyna-Q方法

导航：龙图腾网> 最新专利技术> 一种受鼠脑海马体前瞻预测机制启发的改进型Dyna-Q方法

申请/专利权人：北京工业大学

申请日：2024-02-06

公开（公告）日：2024-06-04

公开（公告）号：CN118133901A

主分类号：G06N3/047

分类号：G06N3/047;G06N3/092

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.06.21#实质审查的生效;2024.06.04#公开

摘要：本发明公开了一种受鼠脑海马体前瞻预测机制启发的改进型Dyna‑Q方法，实现机器人在具有静态和动态障碍物的未知环境下的导航；该方法结合鼠脑海马体的前向扫描机制对Dyna‑Q算法进行改进，使其能够模拟未来的多步操作，同时模仿纹状体功能对前向模拟进行决策确定性评估，并动态调整扫描的深度和动作选择方式，以此来提高机器人的收敛性和决策效率；这种前瞻预测机制能够平衡探索与利用，降低机器人陷入局部最优的概率；实验结果表明，该方法具有更好的收敛性、规划出的路径长度更短，并具有生物合理性，为改进现有强化学习算法和提高机器人的导航能力提供一种崭新思路。

主权项：1.一种受鼠脑海马体前瞻预测机制启发的改进型Dyna-Q方法，其特征在于，模仿鼠脑海马体前向扫描机制对强化学习方法Dyna-Q的动作选择机制进行改进，并应用于机器人在没有认知地图条件下的导航任务中，以此来提高移动机器人在未知环境下进行环境认知的能力；该方法的实施过程如下：S1、初始化仿真实验环境：将实验环境设置为二维方形迷宫，环境中包含多个静态障碍物以及做往返运动的动态障碍物，并设置起点和目标点；S2、将环境认知任务设定为一个马尔可夫决策过程MDP：标准的强化学习方法是在MDP框架下通过与环境进行交互并试错的过程；采用一个五元组M＝{S，A，P，R，γ}对环境认知任务进行描述，其中S表示环境中状态s的集合，s∈S，A是机器人能够采用的动作集合，P是状态转移概率，R为奖励函数，γ为折扣因子；S3、进行实验测试本方法的环境认知性能，机器人从起点出发探索环境寻找目标点；S4、模仿鼠脑认知机制改进Dyna-Q方法的动作选择机制，机器人基于此机制进行决策：结合海马体的前向扫描机制对Dyna-Q方法的动作选择机制进行改进，使机器人在进行动作选择时能够在内部模拟未来的多步操作，这种前向扫描机制能够使机器人平衡探索与利用，降低陷入局部最优的概率；模仿纹状体功能，对前向扫描的每一深度进行决策确定性评估，从而动态调整扫描的深度和动作选择方式，提高机器人的收敛性和决策效率；S5、对Dyna-Q方法中的ε-greedy方法进行改进，提高机器人的决策效率：使参数εvte在训练初期较大，机器人倾向于随机选择动作，探索环境中的未知状态；随着迭代次数增加，εvte不断衰减至最终的greedy因子ε，逐渐倾向于使用已获得的最优策略从而加速机器人的收敛；episode为当前训练回合数，Max_Episode为训练的最大回合数； S6、采用奖励函数R和状态转移模型P对机器人采用的每一步动作进行评估，并记录采用此次动作产生的经验；以下为奖励函数，其中包括到达或靠近目标时的奖励以及撞墙或远离目标时的惩罚；距离信息的奖励服从高斯分布；机器人通过以下方式对奖励进行评估：rhold为奖励函数初值，rnear为机器人靠近目标的奖励系数，整体奖励越靠近目的地越大，rneg为碰到障碍时的惩罚，rgoal为到达目标时的奖励；随后采用统计学方式对MBRL的状态转移模型Ps’|s，a进行建模；在环境状态离散的情况下，通过离散的三元组来存储每一个st+1，st，at；机器人对每次在当前状态st采取动作at后到达特定后续状态st的次数进行计数，并将其与到达所有可能的后续状态s’的总次数之比作为状态转移概率Pst+1，st，at；机器人访问频率越高的状态在执行值迭代时的折扣因子越大，能够在环境结构稳定的情况下实现对环境的内部表征；countst+1，st，at＝countst+1，st，at+1；7 对Q值的更新，也是采用一种基于模型的值迭代方式，奖励R基于采取当前动作后的观测值；任务各状态之间的转换以概率形式呈现，状态转移函数Pst+1|st，at为所有可能状态的概率分布；通过状态转移概率来衡量将来Q值对当前Q值的影响力，在训练过程中访问次数越多的状态，在模型中的作用越显著；Qst，at＝Qst，at+α×R+γ4Pst+1|st，at×maxQst+1，at+1-Qst，at；9在训练机器人寻找目标点的过程中，与Dyna架构一致，保存每一步的前后状态和动作奖励st，st+1，at，R；在一个训练回合中到达目标点后，机器人随机提取模型中保存的经验在内部对状态值函数进行学习，这一点与Dyna-Q方法的规划过程一致，在虚拟的环境模型中进行模拟训练能够加快路径长度的收敛速度；S7、经过多回合的训练，得到机器人路径长度的学习曲线，证明采用前向扫描机制的优势；还得到前向扫描长度的变化曲线以及决策确定性的变化曲线，证明生物合理性。

全文数据：

权利要求：

百度查询：北京工业大学一种受鼠脑海马体前瞻预测机制启发的改进型Dyna-Q方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种两级压缩螺杆式空压机壳体

下一篇：一种奶牛饲料生产用研磨装置

相关技术

一种两级压缩螺杆式空压机壳体

一种奶牛饲料生产用研磨装置

一种铝箔手提袋

一种切割机的集尘装置

一种电表排母接口测量装置

一种高效物流包装码垛装置

一种中空建筑模板送料调节装置

一种无纺布绑袋

一种芦笋种植用废料混合装置

一种钻机润滑专用压缩机

自穿刺铆钉、电池及用电设备

一种工业废物焚烧处理用尾气吸收设备

机制相关技术

一种炒菜机制作米饭的烹饪方法_杭州九阳小家电有限公司_202211685015.7

服务层操作的自适应控制机制_康维达无线有限责任公司_201980005684.5

一种液位报警后被动安全机制_一汽-大众汽车有限公司_202211675610.2

基于单位点积注意力机制的跨视角地理定位方法_哈尔滨工业大学_202410556228.2

综合岩体破裂机制的隧洞岩爆预警方法及系统_中铁第一勘察设计院集团有限公司_202410226711.4

基于Qt反射机制与DLL注入的程序动态调试方法及系统_深圳牛学长科技有限公司_202410504115.8

基于RFLA和注意力机制的SAR遥感船舰目标检测方法_西安工程大学_202410448891.0

基于双流注意力机制的半监督农作物识别方法_安徽师范大学_202410022216.1

注意力机制计算和模型推理方法、装置、设备及介质_上海壁仞科技股份有限公司_202410473586.7

潜在风险预测与多重惩戒机制嵌套的抛洒车辆处置方法_东南大学_202210190171.X

前瞻相关技术

复杂未知工况下的机床温升和主轴热误差前瞻预测方法_西南交通大学_202410217658.1

基于转速区域划分的机床温升和主轴热误差前瞻预测方法_西南交通大学_202410217711.8

一种S型加减速速度前瞻末速度修正方法、设备及介质_济南邦德激光股份有限公司_202410141495.3

一种前瞻性采集校正序列触发的磁共振成像方法和装置_西门子(深圳)磁共振有限公司_202010836538.1

用于获取之前的成像检查的前瞻性质量评估_皇家飞利浦有限公司_202280066386.9

一种基于混合角度分割的自适应前瞻控制算法_中南大学_202210226555.2

用于MRI成像中的梯度脉冲形状失真的前瞻性校正的设备和方法_皇家飞利浦有限公司_202280055018.4

一种基于神经网络辅助的考虑频率约束的电力系统前瞻调度模型求解方法_河海大学_202311827323.3

前瞻性欠采样MRI Dixon数据的快速重建方法及系统_中国科学技术大学先进技术研究院_202410078304.3

使用基于前瞻的声学语言特征的智能音频分段_微软技术许可有限责任公司_202180095035.6

预测相关技术

阿尔法通道预测_谷歌有限责任公司_202110625992.7

IOL度数的预测_强生外科视力公司_202280075086.7

基于子块的预测_北京字节跳动网络技术有限公司_201911007867.9

预测气井积液的装置_中国石油天然气集团有限公司_202323145984.6

一种斜拉桥结构温致挠度变形预测系统及预测方法_广西大学_202410271214.6

基于预测模型预测住院合理性的方法及相关产品_平安医疗健康管理股份有限公司_201811276926.8

驾驶意图预测模型的训练方法、预测方法、装置和设备_重庆大学_202410433968.7

车道线预测模型的训练方法、车道线预测方法及装置_腾讯科技(深圳)有限公司_202211702260.4

信令通知子预测单元运动矢量预测器_高通股份有限公司_201980040250.9

基于SQ-LSTMA的热误差预测模型、预测方法和控制系统_重庆大学_202211286747.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种受鼠脑海马体前瞻预测机制启发的改进型Dyna-Q方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务