恭喜成都数默科技有限公司王伟旭获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜成都数默科技有限公司申请的专利一种智能体思维链的强化学习奖罚机制设计方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119783760B 。
龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510283750.2,技术领域涉及:G06F16/3332;该发明授权一种智能体思维链的强化学习奖罚机制设计方法是由王伟旭;陈鹏;严得荣设计研发完成,并于2025-03-11向国家知识产权局提交的专利申请。
本一种智能体思维链的强化学习奖罚机制设计方法在说明书摘要公布了:本发明公开了一种智能体思维链的强化学习奖罚机制设计方法,属于人工智能技术领域,包括以下步骤:S1、状态与动作定义;S2、子任务状态与动作规划;S3、思维链路径构建;S4、思维链步骤奖罚机制;S5、思维链路径奖罚机制。本发明思维链中的每一个步骤都能够得到即时的奖罚,以精确指导每一步的决策,同时在任务结束后再通过奖罚机制提供整体评价,使智能体在面对复杂问题时,能够极大的提高任务执行准确度。
本发明授权一种智能体思维链的强化学习奖罚机制设计方法在权利要求书中公布了:1.一种智能体思维链的强化学习奖罚机制设计方法,其特征在于,包括以下步骤:S1、状态与动作定义定义智能体的当前状态和可执行动作;S2、子任务状态与动作规划根据上一个子任务的执行结果,规划下一个子任务的状态和下一个子任务的动作,将每个子任务的执行结果作为下一步任务的输入;S3、思维链路径构建定义思维链路径,由多组状态-动作对组成,路径从初始状态到目标状态,智能体通过每一步的推理和决策推进任务进展;S4、思维链步骤奖罚机制在思维链路径中的每个步骤设置奖罚机制,并计算即时奖罚,通过多维度奖罚机制进行评估,计算得到思维链步骤总评分;S5、思维链路径奖罚机制设计多个路径奖惩维度对路径性质进行评估,计算得到思维链路径性质总评分,并结合思维链步骤总评分得到总的奖罚函数;所述S1中,当前状态包括用户问题、上下文信息和历史交互记录,当前状态,可执行动作包括提问、搜索、推理和生成回答,可执行动作;所述S4中,在思维链路径中的每个步骤设置奖罚机制是指设置正确性奖罚、相关性奖罚和信息密度奖罚;所述S4中,即时奖罚通过式1计算; 式1;其中,为即时奖罚,为正确性奖罚的权重,为正确性奖罚,为相关性奖罚的权重,为相关性奖罚,为信息密度奖罚的权重,为信息密度奖罚;所述S4中,思维链步骤总评分通过式2计算; 式2;其中,为思维链步骤总评分,为路径的终止时间步;所述S5中,思维链路径性质总评分通过式3计算; 式3;其中,为思维链路径性质总评分,为线性惩罚,为路径多样性奖罚,为路径调和评估度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人成都数默科技有限公司,其通讯地址为:610000 四川省成都市中国(四川)自由贸易试验区成都高新区天府大道北段28号1栋2单元15层06号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。