首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于强化学习的智能体探索未知环境方法_陕西国王的朋友教育科技有限公司_201911288498.5 

申请/专利权人:陕西国王的朋友教育科技有限公司

申请日:2019-12-13

公开(公告)日:2024-06-14

公开(公告)号:CN111062491B

主分类号:G06N20/00

分类号:G06N20/00

优先权:

专利状态码:有效-授权

法律状态:2024.06.14#授权;2024.06.04#专利申请权的转移;2020.05.19#实质审查的生效;2020.04.24#公开

摘要:本发明公开了一种基于强化学习的智能体探索未知环境方法,通过制定局部信息提取规则,计算环境参数特征表示中的局部信息和对环境参数特征表示进行预测的预测特征表示中的局部信息之间的差异度,构建了深度强化学习的内部奖励函数,该种方法构建的奖励函数能够赋予智能体感性选择能力,也就是具备人类在看到一部分环境特征的时会有感兴趣的感受的能力,使得智能体在环境探索中可以沿着感兴趣的环境特征进行探索,结构化了智能体的环境探索方式,同时,放大了智能体环境特征表示局部信息和实际环境状况的关联程度,使得智能体的行为意图可预测,有利于在工业领域对智能体进行把控,推动深度强化学习在工业领域的落地。

主权项:1.一种基于强化学习的智能体探索未知环境方法,包括智能体,所述智能体包括仿真环境中的仿真机器人,其特征在于,包括:S1、获取环境参数,从环境参数中提取环境特征表示,并记录智能体的动作;S2、对环境参数的环境特征表示进行预测,得到预测特征表示;S3、构建预测特征表示局部信息和环境特征表示局部信息的选取规则,计算预测特征表示局部信息和环境特征表示局部信息的差异度;S4、构建强化学习计算模型,确立以差异度为核心的奖励函数;S5、训练优化强化学习计算模型;所述步骤S1包括:S11、获取t时刻的环境参数St,对St进行特征提取获得t时刻的环境特征表示St;S12、获取t时刻的下一个时刻的环境参数St+1,对St+1进行特征提取获得t+1时刻的环境特征表示St+1;S13、构造智能体的动作行为空间A;S14、记录智能体在t时刻环境和t+1时刻环境之间做出的动作at;所述步骤S2包括:S21、将St和at作为输入值,计算得到对St+1进行预测的t+1时刻预测特征表示St+1;所述步骤S3包括:S31、提取St+1中的局部参数fSt+1,θ,其中θ为人工设定的局部参数选取条件;S32、提取St+1中与fSt+1,θ维度信息一一对应的局部参数f’St+1,θ;S33、对fSt+1,θ和f’St+1,θ进行函数处理,得到gSt+1,θ和g’St+1,θ,计算gSt+1,θ和g’St+1,θ的差异度HSt+1,θ=HgSt+1,θ,g’St+1,θ。

全文数据:

权利要求:

百度查询: 陕西国王的朋友教育科技有限公司 一种基于强化学习的智能体探索未知环境方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。