买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:复旦大学
摘要:本发明涉及一种应用于机械臂控制的视觉强化学习测试时适应方法,包括:S1、获取经过训练的用于机械臂控制的智能体;S2、将智能体置于实际环境中作为当前智能体,并构建知识库;S3、当前智能体从实际环境中获取当前图像,当前图像存入知识库中,智能体输出当前动作;S4、判断知识库中的图像是否达到批次阈值,若否,则返回S3,反之,进行前向传播,更新当前智能体的各个批归一化层;S5、重复S3~S4,得到各个批归一化层的结果均值和结果方差;S6、将结果均值和结果方差与均值和方差的初始值进行混合,得到混合均值和混合方差。与现有技术相比,本发明具有提高强化学习的环境适用性等优点。
主权项:1.一种应用于机械臂控制的视觉强化学习测试时适应方法,其特征在于,方法在离线状态下执行,所述方法包括:S1、获取经过训练的用于机械臂控制的智能体,所述智能体包括图像处理网络和多层感知器,所述图像处理网络包括多个批归一化层,获取每个批归一化层的均值和方差的初始值;S2、将S1获取的智能体置于实际环境中作为当前智能体,并构建知识库,所述知识库用于存储智能体获取的当前图像;S3、当前时刻t对应的当前智能体从实际环境中获取当前图像,当前图像存入知识库中,智能体输出当前动作,机械臂执行所述当前动作,环境反馈新的图像;S4、判断知识库中的图像是否达到批次阈值,若否,则返回S3,反之,从知识库中随机选择一个批次大小的图像作为传播图像进行前向传播,并以滑动平均的方式更新当前智能体的各个批归一化层,得到t+1时刻的批归一化层的均值和方差;S5、将更新批归一化层后的智能体作为新的当前智能体,更新当前时刻,重复S3~S4,直至各个批归一化层的均值和方差收敛,设此时的时刻为T,得到各个批归一化层的结果均值μT和结果方差S6、将结果均值和结果方差与均值和方差的初始值进行混合,得到混合均值和混合方差,将混合均值和混合方差对应的批归一化层对应的智能体作为结果智能体,所述结果智能体继续获取所述实际环境的实际图像,结果智能体输出动作,机械臂执行动作。
全文数据:
权利要求:
百度查询: 复旦大学 应用于机械臂控制的视觉强化学习测试时适应方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。