基于策略约束通信的强化学习多车协同系统及方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：酷哇科技有限公司;上海酷移机器人有限公司

摘要：本发明公开了基于策略约束通信的强化学习多车协同系统及方法，包括：通讯模块和通讯控制模块；通讯模块获取本地的观测及其他可通信的车辆的观测编码；通讯控制模块建立通信拓扑，计算通信权重，获取通信消息；并生成本地个体动作价值估计；然后估计分布化生成本地策略，计算策略相似性权重；基于相似性权重计算约束，反向更新模型参数；最后将本地策略与权重生成器应用到具体场景。本发明提出的利用车辆本地状态生成通信权重的方法，基于状态信息的相关性生成权重值进行通信控制，可实现有限通信范围内的车辆自适应通信，促进车辆自发协作。同时基于自动驾驶个体策略倾向对通信进行有效约束，显式促进智能体进行分组协同从而有效提高交通效率。

主权项：1.一种基于策略约束通信的强化学习多车协同系统，其特征在于，包括：通讯模块和通讯控制模块；所述通讯模块安装于自动驾驶车辆上，用于获取本地的观测O＝{o1,o2,…on}；并获取其他可通信的自动驾驶车辆处的观测编码eij；所述通讯控制模块安装于自动驾驶车辆上，包括基于图注意力网络的权重生成器，所述通讯控制模块用于对观测进行特征提取生成观测编码集E＝{e1,e2,…en}；然后根据各自动驾驶车辆实时通信范围L＝{l1,l2,…ln}建立通信拓扑，并计算通信权重wij，获取通信消息M＝{m1,m2,…mn}；各自动驾驶车辆的通讯控制模块根据自身观测编码和通信消息进行行为决策获取奖励r，并仅基于本地观测编码利用个体动作估计网络g·生成本地个体动作价值估计Q′＝{Q1,Q2,…Qn},其中Qi＝gei；然后将本地个体动作价值估计分布化生成本地策略，依据本地策略的相似性计算策略相似性权重再根据奖励r计算时序差分损失，基于相似性权重计算约束，反向更新模型参数；最后完成训练，将本地策略与权重生成器应用到具体场景；所述通讯控制模块在自动驾驶车辆获取的观测集合的基础上，对观测编码进行特征映射：Wei,并将映射结果进行对应拼接生成联合向量；再利用自身观测编码与所有可通信自动驾驶车辆的观测编码的特征相关性，利用基于图注意力网络的权重生成器计算通信系数cij：由于通信范围内的自动驾驶车辆的数目是动态变化的，所以为了可拓展性，对于通信系数使用LeakyReLU非线形激活函数进行激活并进行归一化处理生成通信权重：所述通讯控制模块在获得的通信权重wij的基础上，将各个自动驾驶车辆的观测编码作为输入，得到以各个自动驾驶车辆的中心化视角获得通信消息；对于车辆i，其通信消息mi为：所述通讯控制模块为了能够进一步实现自动驾驶车辆间的分组协同，引入基于本地策略约束的通信控制，由于不同的自动驾驶车辆具备不同的策略倾向以及可能不同的行驶目标，具备相似倾向和目标的车辆间的分组协同可以有效地提升交通效率；为提取车辆的个体策略倾向，对于任意一个自动驾驶车辆i，令i仅依赖于本地的观测信息oi生成个体的动作驾驶价值估计Qi，并将该动作驾驶价值估计分布化生成本地的个体动作策略π，该动作策略表征了自动驾驶车辆基于不同目标的个体行为策略倾向：其中P.表示将动作价值估计进行分布化，H.,.表示计算两个分布间的海森堡距离；所述通讯控制模块为使得具备相似策略倾向的车辆进行分组协同，通过衡量各个自动驾驶车辆有限通信范围内的个体行为策略的相似性来控制通信过程，使用了海森堡距离来计算两个分布之间的相似性，并归一化得到策略相似性权重: 表示策略相似性权重，根据该策略相似性权重可对第一部分的通信控制进行策略正则约束：表示策略约束损失，该约束可以显式地促进具备相似策略倾向的自动驾驶车辆进行分组合作。

全文数据：

权利要求：

百度查询：酷哇科技有限公司上海酷移机器人有限公司基于策略约束通信的强化学习多车协同系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：写请求的处理方法、装置、设备和介质

下一篇：一种大数据检索方法、装置以及可读存储介质

相关技术

写请求的处理方法、装置、设备和介质

一种大数据检索方法、装置以及可读存储介质

一种变电站无人机巡视路径规划方法及系统

通信方法、装置、存储介质及程序产品

单电池气密流阻测试工装结构

一种观赏树木运输种植装置及运输车

电池单体、储能设备及用电装置

一种多自由度解耦的波浪能发电装置及其工作方法

制氢装置以及氢发电系统

一种铝基制冷散热片及其制备方法

一种高速机械磨削主轴加工装置

一种用于温控器的远程控制方法及系统

学习相关技术

基于深度学习的学习笔个性化辅导系统_深圳市博升电子发展有限公司_202410672308.4

机器学习装置、数据处理系统、推理装置以及机器学习方法_金子产业株式会社_202180021503.5

一种英语学习专用板_山东理工职业学院_202323663439.6

一种改进学习书桌_广东顺德聪聪网络科技有限公司_202420245783.9

联邦学习隐私保护方法及系统_中电科大数据研究院有限公司_202410837475.X

用于基于机器学习模型的内部状态来防止对机器学习模型的攻击的系统和方法_爱迪德技术有限公司_202410266231.0

使用机器学习模型确定对象与人之间的关联_辉达公司_201980088877.1

基于深度学习的征迁范围识别方法_浙江省自然资源征收中心_202311156732.5

图像处理方法、深度学习模型的训练方法_北京百度网讯科技有限公司_202410907645.7

深度学习多任务特征编码方法及其系统_中国电信股份有限公司_202110339644.3

强化相关技术

一种玻璃化学强化添加剂及玻璃化学强化方法_富联科技(兰考)有限公司_202211682655.2

一种透明盖板玻璃的制备强化方法_咸宁南玻光电玻璃有限公司_202410820649.1

基于深度强化学习人机共驾转向权重系数预测分配方法_南京航空航天大学_202410024719.2

一种基于强化学习的圆形重建系统_集美大学_202410778739.9

一种多智能体强化学习可迁移的方法、装置以及设备_厦门渊亭信息科技有限公司_202411081505.5

一种基于深度强化学习的建筑方案能耗性能优化方法_上海宝冶集团有限公司_202410725188.X

一种超声强化复合多维电解反应器_重庆一可环保工程有限公司_202310225204.4

基于协作知识图的强化负采样商品推荐模型_太原科技大学_202410823430.7

强化再生红砖骨料及其制备方法、砂浆及其制备方法_中国建筑工程(香港)有限公司_202410663303.5

一种考虑系统韧性提升的输电通道强化方法及系统_国网上海市电力公司_202410889601.6

车相关技术

卷收式车衣_王政杰_202310228541.9

高空除锈作业车_湖南中联重科智能高空作业机械有限公司_202410709995.2

盘车救援装置_浙江玛拓驱动设备有限公司_202323417716.5

车用空调_翰昂汽车零部件有限公司_202080031550.3

电动车_丰田自动车株式会社_202410250616.8

运输车_SEW-传动设备(天津)有限公司_202310215390.3

环卫车清洗装置_上海普环实业有限公司第二分公司_202420290615.1

车用空调装置_三电株式会社_202080012854.5

弹射玩具车_刘秋侠_202323366361.1

一种烧烤车_志天通(深圳)运输有限公司_202322866457.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于策略约束通信的强化学习多车协同系统及方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务