Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜复旦大学翟鹏获国家专利权

恭喜复旦大学翟鹏获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜复旦大学申请的专利一种基于人类反馈和任务目标的智能体运行轨迹优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119962565B

龙图腾网通过国家知识产权局官网在2025-06-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510449875.8,技术领域涉及:G06N3/006;该发明授权一种基于人类反馈和任务目标的智能体运行轨迹优化方法是由翟鹏;胡佳斌;张立华;魏潇逸设计研发完成,并于2025-04-11向国家知识产权局提交的专利申请。

一种基于人类反馈和任务目标的智能体运行轨迹优化方法在说明书摘要公布了:本发明涉及一种基于人类反馈和任务目标的智能体运行轨迹优化方法,包括:根据任务目标,设计任务目标数学表达式;根据任务搭建强化学习环境;从同一状态出发,随机采样不同的两段轨迹片段,根据人类偏好对轨迹片段进行标注以更新奖励模型;从同一状态出发,根据任务目标数学表达式,判断智能体当前轨迹是否满足任务需求,并将满足任务需求的轨迹存入优势容器中,不满足需求的轨迹存入非优势容器中;随机从优势容器和非优势容器中提取轨迹片段,用于优化奖励模型;根据优化后的奖励模型进行强化学习训练智能体,输出得到智能体的最优运行轨迹。与现有技术相比,本发明能够减轻人类反馈负担、提高强化学习训练效率,提升智能体运行轨迹的精准性。

本发明授权一种基于人类反馈和任务目标的智能体运行轨迹优化方法在权利要求书中公布了:1.一种基于人类反馈和任务目标的智能体运行轨迹优化方法,其特征在于,包括以下步骤: S1、根据任务目标,设计任务目标的数学表达式; S2、根据任务搭建强化学习环境; S3、从同一状态出发,采用抽样算法选择不同的两段轨迹片段,并根据人类偏好对轨迹片段进行标注以更新奖励模型; S4、从同一状态出发,根据任务目标的数学表达式,判断智能体的当前轨迹是否满足任务需求,并将满足任务需求的轨迹存入到优势容器中,不满足需求的轨迹则存入到非优势容器中; S5、采用抽样算法分别从优势容器和非优势容器中提取轨迹片段,用于优化奖励模型; S6、根据优化后的奖励模型进行强化学习训练智能体,输出得到智能体的最优运行轨迹; 步骤S3的具体过程为: S31、采用抽样算法从强化学习环境中采样轨迹片段对; S32、向人类评估者展示轨迹片段对,并基于偏好选择更符合任务目标的轨迹; S33、将人类反馈转化为偏好数据,用于更新奖励模型的参数; S34、重复上述步骤S31~S33,直至奖励模型的性能达到预设标准; 步骤S5的具体过程为: S51、采用抽样算法从优势容器中随机采样高质量轨迹片段、从非优势容器中采样对比性轨迹片段,构成训练数据; S52、利用训练数据对奖励模型进行监督学习优化。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人复旦大学,其通讯地址为:200433 上海市杨浦区邯郸路220号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。