首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度强化学习的网联车辆协同控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:吉林大学

摘要:本发明属于道路车辆控制领域,涉及一种基于深度强化学习的网联车辆协同控制方法,该方法以专家数据集作为模仿学习的样本数据,通过行为克隆算法生成行为决策网络Φ,用于异策略强化学习中的行为策略;构建actor‑critic框架,每个智能体对应一个策略网络和一个价值网络,通过循环神经网络改进价值网络和策略网络,在价值网络中添加注意力机制;之后对价值网络和策略网络进行训练,采用确定性策略梯度原理更新策略网络,TD算法更新价值网络。训练完成后,策略网络即为控制网络,通过V2X通信部署到车端,车端通过感知获取所需信息,输入控制网络得到控制措施,完成网联车辆的协同控制,该方法可实现车流总体控制目标和网联车辆单智能体约束,更符合现实条件。

主权项:1.一种基于深度强化学习的网联车辆协同控制方法,其特征在于,该方法包括以下步骤:步骤1.通过自动驾驶车辆真实轨迹或者仿真数据构建专家数据集D,以专家数据集D作为模仿学习的样本数据,通过行为克隆算法生成行为决策网络Φ;步骤2.构建多智能体强化学习框架,所述多智能体强化学习框架采用actor-critic框架,将网联车辆视为强化学习中的智能体,每个智能体对应一个策略网络和一个价值网络;将由m个智能体组成的车群范围称为Fm,定义多智能体状态空间,动作空间,奖励函数为:局部状态;全局状态;式中,表示第i号智能体于时间t时刻的局部观测信息,表示自动驾驶车辆t时刻的属性,…表示周围最多n-1辆车t时刻的属性,m指智能体数量;动作空间;式中,At指联合动作,指i智能体t时刻的动作;奖励函数; ; ; ; ; ; ; ; ;式中,Rt表示为t时刻采取行动后根据环境的变化给与多智能体系统的奖励值,表示原始奖励,b为Fm范围内所有车辆个数,表示第i号智能体的碰撞奖励,表示第i号智能体的稳定奖励,表示第i号智能体的加速度变化率;表示第i号智能体的规则奖励,w指车辆宽度的一半,L指车道宽度;表示第i号智能体的安全距离奖励,TTC表示同一车道当后车速度大于前车速度时两车发生碰撞所需时间;表示第i号智能体的速度限制奖励,表示最高速度限制,表示第i号智能体的速度,表示第i号智能体t时刻在仿真道路上的横向位置,道路最右侧为0,最左侧为2L;表示第i号智能体的惩罚奖励;表示碰撞;表示取绝对值;表示第i号智能体的TTC值;搭建策略网络和价值网络,所述价值网络包括循环层,多头注意力层和全连接层,每个智能体观测的变长序列输入循环层后输出的向量与拼接,之后输入多头注意力层、全连接层;价值网络表示为Q(St,At,),表示价值网络的参数;所述策略网络包括循环层、全连接层,每个智能体观测的变长序列输入循环层,循环层的输出向量作为下一循环层的输入,最后一层循环层输出的向量输入全连接层;策略网络表示为π(,),表示策略网络的参数;步骤3.对步骤S2搭建的价值网络和策略网络进行训练,中心化训练时将价值网络和所有的策略网络都部署到中央控制器上,具体训练步骤如下:步骤3.1.构建交通仿真场景,将车流数据输入步骤1中搭建的行为决策网络Φ,通过仿真收集经验四元组(St,At,Rt,St+1并放入经验回放缓存;其中,的计算公式为: ;得到;式中,是与同纬度的向量,每个元素都从标准正态分布中独立抽取;步骤3.2.运行仿真;根据定义的Fm范围分类收集经验,构成经验回放缓存;步骤3.3.初始化策略网络和价值网络;其中,策略网络参数为,目标策略网络参数为,价值网络参数为,目标价值网络参数为;步骤3.4.从经验回放缓存中随机抽取一个四元组(St,At,Rt,St+1;步骤3.5.n个智能体的目标策略网络进行预测,计算t+1时刻目标动作: i=1,2,....n;汇总t+1时刻所有智能体,得目标动作: ;步骤3.6.n个智能体的目标价值网络进行预测,计算t+1时刻的目标q值: i=1,2,....n;步骤3.7.TD算法更新价值网络参数;计算TD目标: i=1,2,....n;式中,γ为折扣率;计算t时刻的q值,即,其中i和t是表示i号智能体t时刻: i=1,2,....n;计算TD误差; i=1,2,....n;TD算法更新价值网络参数: i=1,2,....n;式中,为学习率;步骤3.8.确定性策略梯度算法更新策略网络参数;计算t时刻预测的动作: i=1,2,....n;汇总为t时刻所有智能体预测的动作:汇总为;更新策略网络参数; i=1,2,....n;式中,为学习率;步骤3.9.更新策略网络和价值网络的其他参数,包括目标策略网络参数、目标价值网络参数、策略网络循环层参数、价值网络循环层参数和多头自注意力层参数;步骤3.10.重复步骤3.1-3.9,持续训练并向经验回放缓存添加经验;步骤3.11.收敛判别,非完全合作关系下,训练收敛的判别标准是纳什均衡;步骤4.训练完成后,策略网络即为控制网络,通过V2X通信部署到车端,车端通过感知获取所需信息,输入控制网络得到控制措施,完成网联车辆的协同控制。

全文数据:

权利要求:

百度查询: 吉林大学 一种基于深度强化学习的网联车辆协同控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。