首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多任务思想下的深度强化学习交通灯控制方法 

申请/专利权人:南京信息工程大学

申请日:2023-03-21

公开(公告)日:2024-06-25

公开(公告)号:CN116524736B

主分类号:G08G1/07

分类号:G08G1/07;G08G1/01;G06N3/092

优先权:

专利状态码:有效-授权

法律状态:2024.06.25#授权;2023.08.18#实质审查的生效;2023.08.01#公开

摘要:本发明公开了一种基于多任务思想下的深度强化学习交通灯控制方法,将平衡压力作为奖励函数构建深度强化学习框架,对交通信号灯进行智能调控。与以往信号灯控制的方法不同的是,本发明保留了以往方法的优越性,增强了相邻路口之间的互相协作,更是在最大压力概念的基础上更科学地平衡了各条出车道上的压力,从而更好地缓解了交通拥堵的情况,推进了智能交通的发展;本发明提出的一个交通灯控制算法TaskLight,它引用了多任务学习的思想,引入一种噪声机制并引入到了多任务学习框架,以此来权衡不同时间段每个任务的重要性程度。对于中心路口的效果更佳,对于缓解市中心路段的交通拥堵具有重要的现实意义。

主权项:1.一种基于多任务思想下的深度强化学习交通灯控制方法,其特征在于,包括以下步骤:步骤1、对城市内交通网络数据进行预处理;具体为:步骤1.1、采集一个城市内所有交通节点的信息,形成交通数据集;所述信息包括节点的位置坐标信息、所有车道长度;步骤1.2、采集一个城市一段时间内的车流信息,形成车流数据集;所述信息包括所有车辆进入路网、离开路网的时间、车辆的行动轨迹;步骤2、利用DQN算法构建深度强化学习框架;具体为:步骤2.1、根据车道上的车辆数量设计状态函数,动作函数对信号灯时长进行调控;步骤2.2、将最大压力的概念代入至奖励函数,最大压力即进出车道的车辆数之差,则一条交通运动对应的最大压力公式为:Pi=Nin-Nout又因奖励函数与压力呈负相关,则一条交通运动的奖励函数设定为:ri=-Pi当前路口的总奖励则为所有交通运动的奖励之和,即:R=∑ri式中,Nin是进车道的车辆数,Nout是出车道的车辆数;步骤3、将交通数据集、车流数据集导入深度强化学习框架,进行训练,并记录实验结果;步骤4、以平衡车道压力的思想为基准,修改奖励函数;具体为:以平衡车道压力的思想为基准,修改奖励函数,对平衡压力的公式取负,设定为第一个奖励函数,即:P′i=Nin-Nmax-Noutr′i=-P′i则当前路口的总奖励为:R′=∑r′i第二个奖励函数时采用了自训练开始以来所有即时奖励的平均值和方差:R″=raverage-rvariance使用两个奖励函数并行训练网络之前,设计了一个简单的噪声机制,使得第一个奖励作为主任务,而第二个奖励则为副任务:R=R′+α*R″ 式中,Nin是进车道的车辆数,Nout是出车道的车辆数,Nmax是车道上最大的车辆数,raverage是即时奖励的平均值,rvariance是即时奖励的方差,α是噪声因子,x是训练时间;步骤5、将交通数据集、车流数据集导入新的深度强化学习框架,进行训练,并记录实验结果;步骤6、比较步骤3和步骤5中的实验结果;步骤7、将步骤5中训练生成的回放文件导入至Cityflow平台,进行可视化展示。

全文数据:

权利要求:

百度查询: 南京信息工程大学 一种基于多任务思想下的深度强化学习交通灯控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。