首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深度强化学习人机共驾转向权重系数预测分配方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京航空航天大学

摘要:本发明公开了基于深度强化学习人机共驾转向权重系数预测分配方法,具体涉及智能驾驶技术领域,通过规划模块与LSTM神经网络预测未来秒内规划转向数据与驾驶员转向数据,再通过DDPG深度强化学习得到最优分配系数,最优转向模块结合前三者输出得到未来秒内最优转向动作,由风险评估模块最优转向动作进行实时风险评估,动作决策模块决策得到最终动作,输入给人机共驾车辆,通过对未来的预测,实现深度强化学习网络的预学习。本发明能提前预测未来秒内最优转向动作,并实时进行风险评估,进而对人机共驾车辆实现实时控制,节省车载计算机计算资源,安全高效控制智能车辆。

主权项:1.基于深度强化学习人机共驾转向权重系数预测分配方法,利用识别设备获取路况信息及驾驶员信息,其特征在于:预测分配方法包括以下步骤:S1:根据路况信息,利用五次多项式,通过规划模块得到未来t秒内的时序性规划转向预测数据;S2:建立LSTM深度神经网络,通过大数据对神经网络进行训练,再根据驾驶员信息,得到未来t秒内时序性驾驶员转向预测数据;S3:建立DDPG深度强化学习网络,设置DDPG智能体初始策略,得到未来t秒内时序性转向权重系数预测数据,将其输入至人机共驾权重分配模块得到未来t秒内时序性转向数据,并将其输入至仿真模块,通过预设奖励评估函数进行评估,更新DDPG智能体初始策略,最终得到最优转向权重分配系数未来t时间段内的时序性数据作为最优策略;步骤S3包括以下步骤:步骤S3-1:DDPG深度强化学习网络包括驾驶权分配智能体和交互环境,其中交互环境包括人机共驾权限分配模块、仿真环境模块以及奖励评估函数,而DDPG算法作为驾驶权分配智能体,其观测空间包含车辆轨迹和车路环境状态;动作空间为转向权重分配系数μ;步骤S3-1中,基于Actor-Critic架构构建驾驶权分配智能体,Actor-Critic架构包括四个网络:在线Actor、目标Actor以及在线Critic、目标Critic,其中Actor基于观测量,生成驾驶权分配结果;Critic基于当前状态和分配权重计算回报即累计收益,在驾驶权分配训练过程中,采用基于DDPG的驾驶权分配Actor-Critic架构对在线Actor、目标Actor以及在线Critic、目标Critic进行更新;基于DDPG的驾驶权分配Actor-Critic架构具体实现:步骤S3-1-1:在线Actor根据当前的环境状态观测量S,计算对应驾驶权分配μS;步骤S3-1-2:执行驾驶权分配结果,并得到相应收益R和下一步状态观测S*,并向经验缓存中存储经验{SARS*},其中A为环境输出动作;步骤S3-1-3:从经验缓存中采样M组经验,分别计算每组经验的目标Critic的输出RCritic_j: 其中,Rj为第j组经验当前状态下的收益;λ为折扣因子;为第j组经验下一步状态观测量;A*为目标Actor网络的输出动作;为目标Critic网络参数;为目标Actor的网络参数;为目标Critic预期回报;为目标Actor输出使得回报最优的驾驶权重;步骤S3-1-4:通过最小化所有采样经验的损失来更新在线Critic的参数;步骤S3-1-5:使用采样策略梯度更新在线Actor参数,以最大化累计收益;步骤S3-1-6:目标Actor和目标Critic采用线性加权的方法,以在线Actor和在线Critic为基准进行参数更新;步骤S3-1-7:最终得到最优预测权重系数矩阵:E1μi|ti,E21-μi|ti;其中E1μi|ti为驾驶员权重分配系数时序性矩阵,E21-μi|ti为机器驾驶权重分配系数时序性矩阵;μi为ti时驾驶员权重分配系数,1-μi为ti时机器驾驶权重分配系数;步骤S3-2:针对深度强化学习算法框架中的奖励函数设定问题,在考虑驾驶员操控舒适性的前提下,结合风险场,设立奖励函数,选择最优DDPG动作,作为DDPG智能体的输出;步骤S3-2中,奖励函数为:R=ωsRs+ωcRc,其中ωs,ωc为相应的权重系数;Rs为风险奖励函数;Rc为舒适性奖励函数;风险奖励函数表示如下: 其中G是万有引力常数,k1为距离因子常数;ri表示前车的位置和车辆的位置之间的距离向量;Mi为运动障碍物的等效质量;Li为道路影响因子;i=1,2,3…n,k2为运动风险影响因子;us为本车车速;uo为其他车辆车速;x,y分别为其他车辆与本车之间的横纵向距离;舒适性奖励函数表示如下:Rc=σ1∫a+σ2∫β;其中,σ1,σ2为归一化系数,a为侧向加速度与时间的关系函数;β为质心侧偏角与时间的关系函数;S4:结合S1、S2、S3的输出数据,通过最优转向模块,得到未来t秒内每个时刻的最优转向动作;风险评估模块结合当前路况信息计算得到最优转向动作风险值;S5:动作决策模块根据风险评估模块得到的风险评估值进行决策,若风险值符合预设安全条件,动作决策模块则将最优转向动作输入至人机共驾车辆;若不符合预设安全条件,动作决策模块则将执行预设制动动作,保证车辆安全性。

全文数据:

权利要求:

百度查询: 南京航空航天大学 基于深度强化学习人机共驾转向权重系数预测分配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。