恭喜清华大学詹仙园获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜清华大学申请的专利用于目标控制的离线强化学习方法、装置和设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114186474B 。
龙图腾网通过国家知识产权局官网在2025-05-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111256006.1,技术领域涉及:G06F30/27;该发明授权用于目标控制的离线强化学习方法、装置和设备是由詹仙园;徐浩然;李健雄设计研发完成,并于2021-10-27向国家知识产权局提交的专利申请。
本用于目标控制的离线强化学习方法、装置和设备在说明书摘要公布了:本发明涉及深度学习技术领域,具体提供一种用于目标控制的离线强化学习方法、装置和设备。其中,用于目标控制的离线强化学习方法,包括:获取历史数据;基于历史数据,更新预设的行为策略模拟器,确定行为策略、和行为策略的奖励期望;基于历史数据、行为策略和策略优化目标函数,通过预设的智能体进行行为优化,得到优化策略;其中,策略优化目标函数为基于约束项和策略性能提升项构造的;约束项为基于最大似然估计的方法构造的;策略性能提升项为基于行为策略的奖励期望构造的。如此,基于最大似然估计法构造的约束项,约束了优化策略的最大化概率分布为行为策略,允许优化策略在高置信的状态下产生较大偏移,提高了优化策略的表现力。
本发明授权用于目标控制的离线强化学习方法、装置和设备在权利要求书中公布了:1.一种用于目标控制的离线强化学习方法,其特征在于,应用于车辆自动驾驶,包括:获取历史数据,所述历史数据包括车辆驾驶环境信息和车辆操控行为信息,车辆驾驶环境信息为状态,车辆操控行为信息为动作;基于所述历史数据,更新预设的行为策略模拟器,确定行为策略和所述行为策略的奖励期望,所述行为策略是基于历史数据汇总出来的车辆驾驶环境信息和车辆操控行为信息的对应关系,所述行为策略模拟器用于模拟所述行为策略及计算所述行为策略中各种策略对应的奖励期望;基于所述历史数据、所述行为策略和策略优化目标函数,通过预设的智能体进行行为优化,得到优化策略;其中,所述策略优化目标函数为基于约束项和策略性能提升项构造的;所述约束项为基于最大似然估计的方法以约束优化策略的最大化概率分布为行为策略为目标构造的;所述策略性能提升项被构造为与行为策略的奖励期望相关;所述约束项的构造过程包括:基于最大似然估计的方法,确定用于指示所述行为策略对所述优化策略的支持程度的行列式;将所述行列式作为所述约束项;当观测到状态后,采用优化策略选择动作,然后根据预设的行为策略模拟器来确定模拟器观测到状态时会做出动作的概率,所述概率指的是均值为,方差为的高斯分布的条件概率分布,计算公式为: (1);基于公式(1)计算得到约束项,其中α为人工调整的超参数,和是行为策略模拟器的可学习参数,当优化策略选择的动作与模拟器选择的动作相差较大时,变小;相反地,当优化策略选择的动作与模拟器选择的动作相差较小时,变大,通过最大化促使优化策略选择和模拟器相似的动作。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人清华大学,其通讯地址为:100084 北京市海淀区双清路30号清华大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。