首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

利用信息检索反馈的强化学习 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:谷歌有限责任公司

摘要:本公开涉及利用信息检索反馈的强化学习。提供了一种用于生成用于训练机器学习的智能体模型的反馈信号的示例的计算机实现的方法,包括:获得机器学习的智能体模型的输出,该输出包括由该机器学习的智能体模型基于先前状态的序列而生成的下一状态特征。该示例方法可包括:使用机器学习的奖励模型来处理该输出和该先前状态的序列,以鉴于该先前状态来生成质量指示符,该质量指示符指示该下一状态特征的质量。该机器学习的奖励模型可通过以下方式来训练:从参考数据源检索参考数据,并且鉴于相应的训练输入和输出以及该参考数据来计算一个或多个质量指示符。该示例方法可包括:将该质量指示符输出到模型训练器,以用于更新该机器学习的智能体模型。

主权项:1.一种用于生成用于训练机器学习的智能体模型的反馈信号的计算机实现的方法,所述方法包括:由包括一个或多个处理器的计算系统获得机器学习的智能体模型的输出,其中所述输出包括由所述机器学习的智能体模型基于先前状态的序列而生成的下一状态特征;由所述计算系统并且使用机器学习的奖励模型来处理所述输出和所述先前状态的序列,以鉴于所述先前状态的序列来生成质量指示符,所述质量指示符指示所述下一状态特征的质量,其中所述机器学习的奖励模型是通过以下方式来进行训练的:针对相应的训练输入和一个或多个相应的训练输出,从参考数据源检索参考数据,并且鉴于所述相应的训练输入、所述一个或多个相应的训练输出和所述参考数据,计算一个或多个质量指示符;以及由所述计算系统将所述质量指示符输出到模型训练器,以用于基于所述质量指示符来更新所述机器学习的智能体模型。

全文数据:

权利要求:

百度查询: 谷歌有限责任公司 利用信息检索反馈的强化学习

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。