一种基于深度强化学习的网联车辆协同控制方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：吉林大学

摘要：本发明属于道路车辆控制领域，涉及一种基于深度强化学习的网联车辆协同控制方法，该方法以专家数据集作为模仿学习的样本数据，通过行为克隆算法生成行为决策网络Φ，用于异策略强化学习中的行为策略；构建actor‑critic框架，每个智能体对应一个策略网络和一个价值网络，通过循环神经网络改进价值网络和策略网络，在价值网络中添加注意力机制；之后对价值网络和策略网络进行训练，采用确定性策略梯度原理更新策略网络，TD算法更新价值网络。训练完成后，策略网络即为控制网络，通过V2X通信部署到车端，车端通过感知获取所需信息，输入控制网络得到控制措施，完成网联车辆的协同控制，该方法可实现车流总体控制目标和网联车辆单智能体约束，更符合现实条件。

主权项：1.一种基于深度强化学习的网联车辆协同控制方法，其特征在于，该方法包括以下步骤：步骤1.通过自动驾驶车辆真实轨迹或者仿真数据构建专家数据集D，以专家数据集D作为模仿学习的样本数据，通过行为克隆算法生成行为决策网络Φ；步骤2.构建多智能体强化学习框架，所述多智能体强化学习框架采用actor-critic框架，将网联车辆视为强化学习中的智能体，每个智能体对应一个策略网络和一个价值网络；将由m个智能体组成的车群范围称为Fm，定义多智能体状态空间，动作空间，奖励函数为：局部状态；全局状态；式中，表示第i号智能体于时间t时刻的局部观测信息，表示自动驾驶车辆t时刻的属性，…表示周围最多n-1辆车t时刻的属性，m指智能体数量；动作空间；式中，At指联合动作，指i智能体t时刻的动作；奖励函数；；；；；；；；；式中，Rt表示为t时刻采取行动后根据环境的变化给与多智能体系统的奖励值，表示原始奖励，b为Fm范围内所有车辆个数，表示第i号智能体的碰撞奖励，表示第i号智能体的稳定奖励，表示第i号智能体的加速度变化率；表示第i号智能体的规则奖励，w指车辆宽度的一半，L指车道宽度；表示第i号智能体的安全距离奖励，TTC表示同一车道当后车速度大于前车速度时两车发生碰撞所需时间；表示第i号智能体的速度限制奖励，表示最高速度限制，表示第i号智能体的速度，表示第i号智能体t时刻在仿真道路上的横向位置，道路最右侧为0，最左侧为2L；表示第i号智能体的惩罚奖励；表示碰撞；表示取绝对值；表示第i号智能体的TTC值；搭建策略网络和价值网络，所述价值网络包括循环层，多头注意力层和全连接层，每个智能体观测的变长序列输入循环层后输出的向量与拼接，之后输入多头注意力层、全连接层；价值网络表示为Q（St，At，），表示价值网络的参数；所述策略网络包括循环层、全连接层，每个智能体观测的变长序列输入循环层，循环层的输出向量作为下一循环层的输入，最后一层循环层输出的向量输入全连接层；策略网络表示为π（，），表示策略网络的参数；步骤3.对步骤S2搭建的价值网络和策略网络进行训练，中心化训练时将价值网络和所有的策略网络都部署到中央控制器上，具体训练步骤如下：步骤3.1.构建交通仿真场景，将车流数据输入步骤1中搭建的行为决策网络Φ，通过仿真收集经验四元组（St,At,Rt,St+1并放入经验回放缓存；其中，的计算公式为：；得到；式中，是与同纬度的向量，每个元素都从标准正态分布中独立抽取；步骤3.2.运行仿真；根据定义的Fm范围分类收集经验，构成经验回放缓存；步骤3.3.初始化策略网络和价值网络；其中，策略网络参数为，目标策略网络参数为，价值网络参数为，目标价值网络参数为；步骤3.4.从经验回放缓存中随机抽取一个四元组（St,At,Rt,St+1；步骤3.5.n个智能体的目标策略网络进行预测，计算t+1时刻目标动作： i=1，2，....n；汇总t+1时刻所有智能体，得目标动作：；步骤3.6.n个智能体的目标价值网络进行预测，计算t+1时刻的目标q值： i=1，2，....n；步骤3.7.TD算法更新价值网络参数；计算TD目标： i=1，2，....n；式中，γ为折扣率；计算t时刻的q值，即，其中i和t是表示i号智能体t时刻： i=1，2，....n；计算TD误差； i=1，2，....n；TD算法更新价值网络参数： i=1，2，....n；式中，为学习率；步骤3.8.确定性策略梯度算法更新策略网络参数；计算t时刻预测的动作： i=1，2，....n；汇总为t时刻所有智能体预测的动作：汇总为；更新策略网络参数； i=1，2，....n；式中，为学习率；步骤3.9.更新策略网络和价值网络的其他参数，包括目标策略网络参数、目标价值网络参数、策略网络循环层参数、价值网络循环层参数和多头自注意力层参数；步骤3.10.重复步骤3.1-3.9，持续训练并向经验回放缓存添加经验；步骤3.11.收敛判别，非完全合作关系下，训练收敛的判别标准是纳什均衡；步骤4.训练完成后，策略网络即为控制网络，通过V2X通信部署到车端，车端通过感知获取所需信息，输入控制网络得到控制措施，完成网联车辆的协同控制。

全文数据：

权利要求：

百度查询：吉林大学一种基于深度强化学习的网联车辆协同控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种衬衫的无甲醛抗菌免烫整理工艺

下一篇：显示装置

相关技术

一种衬衫的无甲醛抗菌免烫整理工艺

显示装置

一种火电厂加热水处理用化验取样装置

一种基于多源数据的换电柜电池智能回收管理方法及系统

一种绝缘纸生产强度性能检测装置

一种环境空气甲烷、非甲烷总烃直接测量装置和分析方法

基于城市地理信息数据与多维属性数据的智能规划审查方法

一种飞机液压牵引系统横向稳定性实验平台

一种智能围棋教学系统

一种覆铜板加工用表面整平装置

局域共振型声子晶体原胞

一种MOCVD设备的尾气过滤器结构和使用方法

车辆相关技术

车辆_北极星工业有限公司_202080031159.3

车辆立柱总成及车辆_福耀玻璃工业集团股份有限公司_202211303145.X

车辆氛围灯以及车辆_浙江智马达智能科技有限公司_202420023693.5

车辆_本田技研工业株式会社_202410218244.0

车辆_株式会社斯巴鲁_202380014246.1

车辆_本田技研工业株式会社_202310295169.3

车辆_本田技研工业株式会社_202410211906.1

车辆_丰田自动车株式会社_202410142500.2

车辆_本田技研工业株式会社_202310297308.6

车辆的密封组件、车辆的车身组件以及车辆_浙江吉利控股集团有限公司_202323145569.0

网联相关技术

一种城乡规划交通用智能网联人机交互装置_四川新中城城市规划设计有限公司_202410668112.8

一种基于深度强化学习的网联车辆协同控制方法_吉林大学_202411165362.6

一种电网通信网联合故障诊断方法及系统_南京南瑞信息通信科技有限公司_202410689461.8

基于5G智能网联无人机的电网云边协同巡检系统及方法_江苏方天电力技术有限公司_202210972310.4

智能网联汽车底盘_广州车胜教学设备有限公司_202323026636.7

基于智能网联汽车的事故预警系统_山东工程职业技术大学_202410882397.5

一种智能网联专用道的设置边界划定方法_天津市政工程设计研究总院有限公司_202410627847.6

一种微电网并网联络线恒功率控制方法及装置_特变电工西安电气科技有限公司_201910557379.9

一种零信任智能网联车群信息持续验证策略方法_苏州科技大学_202410714676.0

一种基于动态仿真与智能控制策略的压缩机组并网联合供气方法、装置和系统_西安交通大学_202210994507.8

协同相关技术

端云协同的图像处理方法及相关装置_华为技术有限公司_202310809249.6

一种电网多态协同平台及构建方法_国网江西省电力有限公司信息通信分公司_202411187164.X

一种果园多臂协同采摘机_农业农村部南京农业机械化研究所_202410955161.X

跨设备协同方法、设备和系统_荣耀终端有限公司_202310318970.5

基于光路邻接链路碎片感知的虚拟网络协同映射方法_玛瑜科创服务(南京)有限公司_202210795326.2

基于车路协同隧道自动驾驶车辆航道控制装置及控制方法_浙江省机电设计研究院有限公司_202411164156.3

一种基于时空协同的混合模型光伏发电功率预测方法_杭州师范大学_202311711047.4

基于无基站UWB和回溯搜索的无人机集群协同导航定位方法_西安电子科技大学_202410708938.2

自动驾驶车载边缘计算的联邦学习与任务协同方法_武汉理工大学_202410667361.5

一种调频资源分类及协同参与一次调频控制方法_国家电网有限公司西北分部_202410701277.0

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于深度强化学习的网联车辆协同控制方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务