买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国科学技术大学
摘要:本发明公开了一种提升智能体控制中选择可靠动作准确性的方法,包括:步骤1,将预先部署有行为策略网络、概率神经网络和评价打分网络的智能体按待完成的预设目标任务与真实环境交互采集真实环境数据,并从采集的真实环境数据中通过概率神经网络学习模拟真实环境动力学得到多个动力学模型;步骤2,智能体基于多个动力学模型学习评价打分网络的评价打分函数的多个估计;步骤3,智能体使用得到的评价打分函数的多个估计中最小的k个估计的平均值来优化行为策略网络的策略;步骤4,智能体控制中采用优化后的策略进行行为的选择。能提高智能体用有模型强化学习方法的样本效率,进而提升学习的策略性能低,提高控制中选择可靠动作的准确性。
主权项:1.一种提升智能体控制中选择可靠动作准确性的方法,其特征在于,用于采用有模型强化学习方法的智能体中,包括:步骤1,将预先部署有行为策略网络、概率神经网络和评价打分网络的智能体按待完成的预设目标任务与真实环境交互采集真实环境数据,并从采集的真实环境数据中通过概率神经网络学习模拟真实环境动力学得到多个动力学模型;步骤2,所述智能体基于多个动力学模型学习评价打分网络的评价打分函数的多个估计;步骤3,所述智能体使用得到的评价打分函数的多个估计中最小的k个估计的平均值来优化行为策略网络的策略;步骤4,所述智能体控制中采用优化后的策略进行行为的选择;所述步骤1中,按以下方式从采集的真实环境数据中通过概率神经网络学习模拟真实环境动力学得到多个动力学模型,包括:所述智能体通过预先部署的一组概率神经网络从采集的真实环境数据中学习模拟真实环境动力学得出多个转移概率密度,以多个转移概率密度作为动力学模型集合;所述动力学模型集合中的每个动力学模型由m个不同概率神经网络得出的转移概率密度组成,m小于N;所述智能体按以下方式使用得到的评价打分函数的多个估计中最小的k个估计的平均值来优化行为策略网络的策略,包括:按升序对多个打分评价网络产生的估计进行排序,得到排序结果为;利用得出的所述排序结果通过最小化以下目标来优化行为策略网络的策略:;其中,; ;上述各式中,表示由学习的动力学模型模拟生成的虚拟数据集;表示概率分布b和概率分布c之间的Kullback-Leibler散度距离;表示智能体在状态s处执行动作的概率密度函数;表示丢弃的高估计值的个数;为温度系数;表示第j个打分评价网络在状态s处执行动作a的打分值;所述智能体为:智能机器人、智能工业控制系统中的任一种。
全文数据:
权利要求:
百度查询: 中国科学技术大学 提升智能体控制中选择可靠动作准确性的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。