首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于策略约束通信的强化学习多车协同系统及方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:酷哇科技有限公司;上海酷移机器人有限公司

摘要:本发明公开了基于策略约束通信的强化学习多车协同系统及方法,包括:通讯模块和通讯控制模块;通讯模块获取本地的观测及其他可通信的车辆的观测编码;通讯控制模块建立通信拓扑,计算通信权重,获取通信消息;并生成本地个体动作价值估计;然后估计分布化生成本地策略,计算策略相似性权重;基于相似性权重计算约束,反向更新模型参数;最后将本地策略与权重生成器应用到具体场景。本发明提出的利用车辆本地状态生成通信权重的方法,基于状态信息的相关性生成权重值进行通信控制,可实现有限通信范围内的车辆自适应通信,促进车辆自发协作。同时基于自动驾驶个体策略倾向对通信进行有效约束,显式促进智能体进行分组协同从而有效提高交通效率。

主权项:1.一种基于策略约束通信的强化学习多车协同系统,其特征在于,包括:通讯模块和通讯控制模块;所述通讯模块安装于自动驾驶车辆上,用于获取本地的观测O={o1,o2,…on};并获取其他可通信的自动驾驶车辆处的观测编码eij;所述通讯控制模块安装于自动驾驶车辆上,包括基于图注意力网络的权重生成器,所述通讯控制模块用于对观测进行特征提取生成观测编码集E={e1,e2,…en};然后根据各自动驾驶车辆实时通信范围L={l1,l2,…ln}建立通信拓扑,并计算通信权重wij,获取通信消息M={m1,m2,…mn};各自动驾驶车辆的通讯控制模块根据自身观测编码和通信消息进行行为决策获取奖励r,并仅基于本地观测编码利用个体动作估计网络g·生成本地个体动作价值估计Q′={Q1,Q2,…Qn},其中Qi=gei;然后将本地个体动作价值估计分布化生成本地策略,依据本地策略的相似性计算策略相似性权重再根据奖励r计算时序差分损失,基于相似性权重计算约束,反向更新模型参数;最后完成训练,将本地策略与权重生成器应用到具体场景;所述通讯控制模块在自动驾驶车辆获取的观测集合的基础上,对观测编码进行特征映射:Wei,并将映射结果进行对应拼接生成联合向量;再利用自身观测编码与所有可通信自动驾驶车辆的观测编码的特征相关性,利用基于图注意力网络的权重生成器计算通信系数cij: 由于通信范围内的自动驾驶车辆的数目是动态变化的,所以为了可拓展性,对于通信系数使用LeakyReLU非线形激活函数进行激活并进行归一化处理生成通信权重: 所述通讯控制模块在获得的通信权重wij的基础上,将各个自动驾驶车辆的观测编码作为输入,得到以各个自动驾驶车辆的中心化视角获得通信消息;对于车辆i,其通信消息mi为: 所述通讯控制模块为了能够进一步实现自动驾驶车辆间的分组协同,引入基于本地策略约束的通信控制,由于不同的自动驾驶车辆具备不同的策略倾向以及可能不同的行驶目标,具备相似倾向和目标的车辆间的分组协同可以有效地提升交通效率;为提取车辆的个体策略倾向,对于任意一个自动驾驶车辆i,令i仅依赖于本地的观测信息oi生成个体的动作驾驶价值估计Qi,并将该动作驾驶价值估计分布化生成本地的个体动作策略π,该动作策略表征了自动驾驶车辆基于不同目标的个体行为策略倾向: 其中P.表示将动作价值估计进行分布化,H.,.表示计算两个分布间的海森堡距离;所述通讯控制模块为使得具备相似策略倾向的车辆进行分组协同,通过衡量各个自动驾驶车辆有限通信范围内的个体行为策略的相似性来控制通信过程,使用了海森堡距离来计算两个分布之间的相似性,并归一化得到策略相似性权重: 表示策略相似性权重,根据该策略相似性权重可对第一部分的通信控制进行策略正则约束: 表示策略约束损失,该约束可以显式地促进具备相似策略倾向的自动驾驶车辆进行分组合作。

全文数据:

权利要求:

百度查询: 酷哇科技有限公司 上海酷移机器人有限公司 基于策略约束通信的强化学习多车协同系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。