买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:谷歌有限责任公司
摘要:用于批量强化学习的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。例如,批量强化学习技术可用于在模拟中确定机器人的控制策略,然后该控制策略可用于在真实世界中控制机器人。一方面,一种方法包括获得多个当前观察值,每个当前观察值表征相应环境副本的当前状态;根据网络参数的当前值,使用动作选择神经网络并行处理当前观察值,以生成动作批;获得包括环境副本中的每一个的相应过渡元组的过渡元组批,每一个环境副本的相应过渡元组包括:i后续观察值和ii奖励;以及在该批过渡元组上训练动作选择神经网络。
主权项:1.一种通过使用多个处理器来处理包括表示神经网络操作的节点和表示神经网络操作的输入和输出数据流的边的计算图来训练动作选择神经网络以选择要由与环境交互的代理执行的动作的方法,其中,所述动作选择神经网络具有多个网络参数,并且被配置为接收输入观察值并且根据所述网络参数处理所述输入观察值以生成网络输出,所述网络输出定义了响应于所述输入观察值而要由所述代理执行的动作,其中所述计算图包括推理子图和训练子图,并且其中,使用所述多个处理器的所述方法包括:获得包括多个当前观察值的观察值批,每一个当前观察值表征多个环境副本中相应一个环境副本的当前状态,其中每个环境副本被分离的进程维持,并且,对于所述多个当前观察值中的每一个,相应环境副本已经使用多个处理器中的可用处理器被并行步骤化处理;根据所述网络参数的当前值,使用所述动作选择神经网络并行地处理观察值批中的当前观察值,以生成动作批,所述动作批包括对于每个环境副本,响应于表征所述环境副本的当前状态的所述当前观察值而要由所述代理执行的相应动作,所述处理包括使用所述多个处理器执行计算图的推理子图,其中,所述推理子图对观察值批中的当前观察值执行用于所述动作选择神经网络的批量推理,以生成每个当前观察值的相应网络输出,并且从每个网络输出中选择相应动作;基于以下各项获得过渡元组批,所述过渡元组批包括每一个环境副本的相应过渡元组:将维持相应环境副本的进程中的每一个限制为响应于由推理子图生成的动作批的对应选择动作,对环境副本进行步骤化处理单次,其中使用所述多个处理器中的可用处理器并行步骤化处理环境副本,并且每个环境副本输出后续观察和奖励;使用获得的后续观察和奖励来生成所述过渡元组批,其中所述对于每一个环境副本的相应过渡元组包括:i表征作为所述代理执行在所述动作批中用于所述环境副本的相应动作的结果,所述环境副本被过渡到的后续状态的后续观察值,以及ii作为所述环境副本过渡到所述后续状态的结果而生成的奖励;和使用强化学习技术在所述过渡元组的批上训练所述动作选择神经网络以更新所述网络参数的当前值,所述训练包括使用所述多个处理器执行计算图的训练子图,其中训练子图以过渡元组批和网络参数的当前值作为输入,并且将强化学习技术应用于批中的训练元组以生成网络参数的更新值。
全文数据:
权利要求:
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。