Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于H-PPO分层算法的多自动驾驶车辆的动态行为生成方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:合肥工业大学

摘要:本发明公开了一种基于H‑PPO分层算法的多自动驾驶车辆的动态行为生成方法,包括:1、模拟十字路口车辆交汇路况,构建仿真场景,并对自动驾驶车辆进行动力学建模;2、根据环境信息,构建状态量,混合动作空间;3、通过设置奖励函数鼓励驾驶车辆与被测车辆之间的交汇博弈;4、构建深度神经网络,初始化深度强化学习参数,训练深度神经网络,产生针对被测车辆十字路口左转工况下,使多辆直行的自动驾驶车辆的决策与动作由神经网络分层输出,使其具有博弈行为,以检验被测车辆针对小概率、高风险的边缘场景的应对能力。本发明使用深度强化学习与博弈性理论,生成被测车辆在十字路口遭遇博弈性交汇场景,以提供构建自动驾驶场景的新方式。

主权项:1.一种基于H-PPO分层算法的多自动驾驶车辆的动态行为生成方法,其特征在于,是应用于在同一车道上行驶的前、后两辆自动驾驶车辆agent1、agent2阻止对向不同车道上的测试车辆ego在十字路口进行左转的自动驾驶场景中,并包括如下步骤:步骤1、获取位于前方的自动驾驶车辆agent1的加速度aagent1以及位于后方的自动驾驶车辆agent2的加速度aagent2的上限amax和下限amin,并将aagent1和aagent2作为一个动作参数;步骤2、以车辆自身中心为原点,以车辆沿着道路行驶的方向为纵向、以垂直于道路行驶的方向为横向,建立车辆Frenet坐标系;根据自动驾驶车辆采集的环境信息,并结合动力学模型,构建一个状态参数s=xagent1-xego,yagent1-yego,vagent1-vego,aagent1-aego,xagent2-xego,yagent2-yego,vagent2-vego,aagent2-aego,θego,其中,xagent1表示位于前方的自动驾驶车辆agent1的横向坐标,xagent2表示位于后方的自动驾驶车辆agent2的横向坐标,yagent1表示位于前方的自动驾驶车辆agent1的纵向坐标,yagent2表示位于后方的自动驾驶车辆agent2的纵向坐标,xego表示被测车辆ego的横向坐标,yego表示被测车辆ego的纵向坐标,vagent1表示位于前方的自动驾驶车辆agent1的车速,vagent2表示位于后方的自动驾驶车辆agent2的车速,vego表示被测车辆ego的车速,aagent1表示位于前方的自动驾驶车辆agent1的加速度,aagent2表示位于后方的自动驾驶车辆agent2的加速度,θego表示测试车辆ego的航向角;步骤3、构建由四个组成部分组成的奖励函数,用于同一车道上前、后两辆自动驾驶车辆agent1、agent2与测试车辆ego之间的博弈;步骤4、构建深度神经网络,包括:策略网络和评价网络,其中,所述策略网络包含:连续动作网络和离散动作网络;获取历史状态参数集S={si|i=1,2,…,n},其中,si表示第i步的状态,n表示经验池容量上限;将历史状态参数集S输入策略网络中进行处理,得到动作参数集A={ai|i=1,2,…,n},其中,ai表示第i步的动作,且ai={ci,di|ci∈C,di∈D};C={ci|i=1,2,…,n}为连续动作参数,D={di|i=1,2,…,n}为离散动作参数,ci表示两辆自动驾驶车辆agent1、agent2在第i步的动作参数,di表示两辆自动驾驶车辆agent1、agent2在第i步是否进入十字路口的决策参数;将si,ai,si+1,Ri作为第i条样本存入经验池中;其中,si+1表示第i+1步的状态;步骤5、基于历史状态参数集S和动作参数A,利用H-PPO算法对所述深度神经网络进行训练,并计算奖励函数,得到最优阻止左转模型;步骤6、将当前场景在第i步的状态参数si输入最优阻止左转模型中,并输出当前场景在第i步的最优动作参数c*i与第i步的最优决策参数d*i,作为两辆自动驾驶车辆agent1、agent2在第i步加速度与动作决策,以阻止测试车辆ego在第i步换道。

全文数据:

权利要求:

百度查询: 合肥工业大学 基于H-PPO分层算法的多自动驾驶车辆的动态行为生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。