一种面向大规模任务空间的协同多智能体通信方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：大连大学

摘要：本发明公开了一种面向大规模任务空间的协同多智能体通信方法，具体包括通信阶段和动作选择阶段；所述通信阶段实现过程为：获取当前时刻智能体j的注意力权重，得到该注意力权重对应评分值；对所述评分值进行归一化处理得到权重系数；基于所述权重系数生成通信向量；所述动作选择阶段实现过程为：构建基于长短时记忆LSTM的神经网络，所述神经网络作为每个智能体的独立控制器；训练所述基于长短时记忆LSTM的神经网络；通过训练后的神经网络执行动作选择。训练的时候可以通过通信知道其他智能体的消息、内部状态和行动目的等；在动作选择的时候，每个智能体只用自己的隐藏层状态信息决策，它允许训练每个智能体使其个体奖励最大化，进而提高可扩展性。

主权项：1.一种面向大规模任务空间的协同多智能体通信方法，具体包括通信阶段和动作选择阶段；其特征在于：所述通信阶段实现过程为：获取当前时刻智能体j的注意力权重，得到该注意力权重对应评分值；对所述评分值进行归一化处理得到权重系数；基于所述权重系数生成通信向量；所述动作选择阶段实现过程为：构建基于长短时记忆LSTM的神经网络，所述神经网络作为每个智能体的独立控制器；训练所述基于长短时记忆LSTM的神经网络；通过训练后的神经网络执行动作选择；构建基于长短时记忆LSTM的神经网络，具体为：通过输入信息定义神经网络的门值和候选值函数；更新下一状态的候选值再更新智能体j的自身隐藏层状态通过输入信息定义神经网络的门值和候选值函数，具体为：门值Γu、Γf、Γo和候选值计算公式分别为：为候选参数，wu、bu为更新参数，wf、bf为遗忘参数，wo、bo输出参数，上述参数在每个长短时记忆LSTM单元中是共享的；δ代表sigmoid函数，它使门值非常接近0或1；在每个时间步骤中，通过激活函数tanh，当前输入的观察值其他智能体隐藏层状态向量融合值和从上一个状态传下来的智能体j自身隐藏层状态向量拼接和训练得到候选值更新门Γu、遗忘门Γf和输出门Γo是为了调整流经神经网络的值；更新下一状态的候选值具体为：使用更新门Γu和遗忘门Γf更新下一状态的候选值具体来说，作为遗忘门Γf，控制前一个状态的候选值sjt哪些信息应该保留，哪些应该遗忘；作为更新门Γu，选择和记忆这个阶段的输入观察值和融合值将遗忘门Γf与更新门Γu相加，意味着当前状态的部分信息被删除，新输入的部分信息被添加，从而得到下一个状态的候选值再更新智能体j的自身隐藏层状态具体为：其中，候选值被激活函数缩放，并由输出门Γo控制。

全文数据：

权利要求：

百度查询：大连大学一种面向大规模任务空间的协同多智能体通信方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种电视墙管理方法、系统、电子装置和存储介质

下一篇：一种碳纤维纺丝前驱体及碳纤维的生产方法

相关技术

一种电视墙管理方法、系统、电子装置和存储介质

一种碳纤维纺丝前驱体及碳纤维的生产方法

一种基于FIFO处理CAN通信消息的优化系统及方法

带有非自驱动吸入阀的往复式压缩机

时间校准方法及装置、车辆、服务器和存储介质

一种投影区域的确定方法、装置、设备及存储介质

测试方法、装置、电子设备及可读存储介质及产品

一种荧光硅点、荧光硅点制备方法、pH检测方法及生物传感器

连接器和电子设备

螺纹钢及其轧制方法、螺纹钢钢液的制备方法

一种混凝土养护设备及养护方法

定子组件、电机、压缩机和制冷设备

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种面向大规模任务空间的协同多智能体通信方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务