Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜华东师范大学王祥丰获国家专利权

恭喜华东师范大学王祥丰获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜华东师范大学申请的专利基于强化组织控制的多智体系统自组织方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114143882B

龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111427464.7,技术领域涉及:H04W72/0446;该发明授权基于强化组织控制的多智体系统自组织方法及系统是由王祥丰;李文浩;金博;朱骏设计研发完成,并于2021-11-29向国家知识产权局提交的专利申请。

基于强化组织控制的多智体系统自组织方法及系统在说明书摘要公布了:一种基于强化组织控制的多智体系统自组织方法及系统,通过二元决策将大规模自动分拣任务中分拣机器人集群的自组织问题建模为一个多智体强化学习问题,每个智能体能够通过二元决策单元自发地决定是否与邻近智能体组成系统,将传统图论算法用于智能体的自组织问题中,而最终能够提升自动分拣任务完成的时间效率以及任务完成度。本发明能够保证系统内紧密协作、实现对复杂协作任务的分治,从而有效提升学习算法在应用到大规模多智体系统的可扩展性。

本发明授权基于强化组织控制的多智体系统自组织方法及系统在权利要求书中公布了:1.一种基于强化组织控制的多智体系统自组织方法,其特征在于,通过构建并随机初始化组织控制网络及多智体决策网络,通过组织控制网络对每个作为智能体的分拣机器人的局部观测生成对应的二元决策,并据其将多智体组成的系统建模为有向图后,从中提取所有的弱连通分量以对智能体分组;然后通过多智体决策网络根据每个智能体系统的联合观测,为所有智能体生成决策动作,并与环境进行交互得到每个智能体各自的奖励反馈;再通过组织控制网络以及多智体决策网络根据奖励计算出组织控制损失及决策损失,从而对组织控制网络及多智体决策网络进行优化;最终分拣机器人集群将在完成大规模分拣任务中自发地、动态地、合理地进行分组,将大规模分拣任务分解为独立的小规模子任务,智能体系统内将通过多智体强化学习方法产生高效的协作策略,从而有效地完成各个子任务,最终实现在大规模自动分拣任务中快速达到较高的任务完成度;所述的二元决策是指:每个智能体i的二元决策空间属于一个m维的二元决策向量,该二元向量表示智能体i根据其局部观测输出的与周围m个最近邻智能体的连接动作,即智能体i与智能体j之间是否应该存在边连接;所述的组织控制网络为残差神经网络,该网络接收每个智能体,即分拣机器人的局部观测作为输入,输出每个智能体的动态组队策略,即是否与邻近智能体组成系统的二元决策;所述的多智体决策网络为残差神经网络,该网络根据每个系统中所有智能体的联合观测,为系统中所有智能体生成决策动作;所述的组织控制损失其中:代表组织控制网络,根据智能体局部观测输出二元决策,该网络输出实数是外部奖励与内部奖励之和,为外部奖励,为内部奖励;所述的决策损失,通过QMIX算法计算得到,具体为:其中:局部决策损失所有智能体的联合决策损失局部和全局之间满足其中:表示为每个智能体输出动作决策的多智体决策网络;表示评估系统内联合动作决策的奖励函数,用以辅助多智体决策网络的训练;λQMIX=0.01表示正实数超参,用以平衡两部分损失;γ=0.99表示属于0到1之间的折扣因子,用以平衡短期收益以及长期收益。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200062 上海市普陀区中山北路3663号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。