首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于行车风险分析的车辆强化学习运动规划方法_北京航空航天大学_202210336477.1 

申请/专利权人:北京航空航天大学

申请日:2022-03-31

公开(公告)日:2024-06-21

公开(公告)号:CN114779764B

主分类号:G05D1/43

分类号:G05D1/43;G05D1/242;G05D1/243;G05D1/246;G05D1/65;G05D1/633;G05D1/644;G05D109/10

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2022.08.09#实质审查的生效;2022.07.22#公开

摘要:一种基于行车风险分析的车辆强化学习运动规划方法,包括:获取本车所在车道的两侧边界信息由车道两侧边界点横纵坐标Xr,Xl以及本车到左右两侧边界的垂直距离dl,dr组成;利用高精度地图和雷达获取状态信息数组由本车坐标位置X,Y、障碍物的坐标位置Xobs,Yobs和相对速度Δv组成;距离Δv=[Δv1,Δv2,...,Δvn],n是检测到的障碍物数量;将和组合成状态向量相对状态信息输入基于深度强化学习的车辆运动规划模型Φ,以输出本车动作向量action=[a,θ],其中a∈[‑amax,amax]是加速度动作,amax为最大加速度,θ∈[‑θmax,θmax]是方向盘转角动作,当θ∈[0,θmax]时为向左转动θ,当θ∈[‑θmax,0]时为向右转动θ;本车根据获取的action行驶t时长后,判断是否到达目的地,若是则结束工作状态,否则进入步骤1进行下一时间步长的车辆控制。

主权项:1.一种基于行车风险分析的车辆强化学习运动规划方法,其特征在于包括如下步骤:步骤1:利用视觉传感器获取本车所在车道的两侧边界信息该由车道两侧边界点横纵坐标Xr,Xl以及本车到左右两侧边界的垂直距离dl,dr组成,即利用高精度地图、激光雷达和毫米波雷达获取状态信息数组由本车坐标位置X,Y、周围环境障碍物的坐标位置Xobs,Yobs和相对速度Δv组成,即所述距离Δv=[Δv1,Δv2,…,Δvn],其中n是激光雷达和毫米波雷达在可检测范围内检测到的障碍物数量;步骤2:将车道边界信息和相对状态信息组合成状态向量相对状态信息并输入基于深度强化学习的车辆运动规划模型Φ中,以输出本车动作向量action,即action=[a,θ],其中a∈[-amax,amax]是加速度动作,amax表示最大加速度,θ∈[-θmax,θmax]是方向盘转角动作,当θ∈[0,θmax]时表示方向盘向左转动θ转角,当θ∈[-θmax,0]时表示方向盘向右转动θ转角;步骤3:本车根据步骤2获取的动作向量action行驶t时长后,判断是否到达目的地,若是,则结束工作状态,否则进入步骤1进行下一时间步长的车辆控制;所述步骤2中所述的车辆运动规划模型Φ是通过强化学习与环境交互训练获取的,且该训练包括如下步骤:步骤21:在深度学习环境中初始化车辆运动规划模型Φ的深度网络参数,并在车辆仿真环境中分别随机重置本车与障碍物的坐标位置和速度;其中障碍物包括行人、车辆、静止路障等,设置训练状态为done=False;获取当前时刻t的车道边界信息和车辆与障碍物的状态信息步骤22:将车道边界信息和车辆与障碍物间的状态信息组合成状态向量并输入车辆运动规划模型Φ的深度网络中进行计算,获取当前时刻的动作向量actiont;步骤23:基于步骤22获取的动作向量actiont预测本车与周围车辆在未来时刻t+Δt的运动状态信息所述运动状态信息与上述的组成状态变量相同;然后针对运动状态信息计算获取相应的行车风险值步骤24:若其中GCollision指碰撞风险阈值,则将步骤2输出的动作actiont确定为碰撞风险动作,同时将动作向量actiont中的加速度动作at更换为最小加速度amin;若其中Gdangerous为危险风险阈值,则将动作actiont确定为危险风险动作,并按照相对运动状态对加速度动作at进行安全补偿,即将加速度动作at更改为其中为安全补偿值,ε为安全补偿系数,同样若则确定输出的动作actiont为普通风险动作,同时保持步骤2获取的动作向量actiont不变;步骤25:本车按照步骤24输出的动作actiont行驶Δt时长后,输出t+Δt时刻的车道边界信息和相对状态信息并组合成状态向量步骤26:同时根据中的判断本车与障碍物是否发生碰撞或者t+Δt是否满足t+Δt≥T,其中T指每回合的最大训练时长,如果是,则将训练状态更改为done=True,否则,保持done=False;步骤27:将状态向量输入奖励函数中获取此时的奖励值同时将作为一个样本存储至经验池中;步骤28:若经验池中的样本量大于N,则从经验池中随机筛选n个样本对模型Φ中的深度网络参数进行梯度优化;步骤29:若done=True,则结束本回合训练,同时判断此时的训练回合数是否达到了最大回合数,如果没有,则进入步骤21开始下一回合训练,否则结束训练;若done=False,令t=t+Δt,进入步骤22开始下一步长的训练。

全文数据:

权利要求:

百度查询: 北京航空航天大学 基于行车风险分析的车辆强化学习运动规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。