一种基于多任务思想下的深度强化学习交通灯控制方法

导航：龙图腾网> 最新专利技术> 一种基于多任务思想下的深度强化学习交通灯控制方法

申请/专利权人：南京信息工程大学

申请日：2023-03-21

公开（公告）日：2024-06-25

公开（公告）号：CN116524736B

主分类号：G08G1/07

分类号：G08G1/07;G08G1/01;G06N3/092

优先权：

专利状态码：有效-授权

法律状态：2024.06.25#授权;2023.08.18#实质审查的生效;2023.08.01#公开

摘要：本发明公开了一种基于多任务思想下的深度强化学习交通灯控制方法，将平衡压力作为奖励函数构建深度强化学习框架，对交通信号灯进行智能调控。与以往信号灯控制的方法不同的是，本发明保留了以往方法的优越性，增强了相邻路口之间的互相协作，更是在最大压力概念的基础上更科学地平衡了各条出车道上的压力，从而更好地缓解了交通拥堵的情况，推进了智能交通的发展；本发明提出的一个交通灯控制算法TaskLight，它引用了多任务学习的思想，引入一种噪声机制并引入到了多任务学习框架，以此来权衡不同时间段每个任务的重要性程度。对于中心路口的效果更佳，对于缓解市中心路段的交通拥堵具有重要的现实意义。

主权项：1.一种基于多任务思想下的深度强化学习交通灯控制方法，其特征在于，包括以下步骤：步骤1、对城市内交通网络数据进行预处理；具体为：步骤1.1、采集一个城市内所有交通节点的信息，形成交通数据集；所述信息包括节点的位置坐标信息、所有车道长度；步骤1.2、采集一个城市一段时间内的车流信息，形成车流数据集；所述信息包括所有车辆进入路网、离开路网的时间、车辆的行动轨迹；步骤2、利用DQN算法构建深度强化学习框架；具体为：步骤2.1、根据车道上的车辆数量设计状态函数，动作函数对信号灯时长进行调控；步骤2.2、将最大压力的概念代入至奖励函数，最大压力即进出车道的车辆数之差，则一条交通运动对应的最大压力公式为：Pi＝Nin-Nout又因奖励函数与压力呈负相关，则一条交通运动的奖励函数设定为：ri＝-Pi当前路口的总奖励则为所有交通运动的奖励之和，即：R＝∑ri式中，Nin是进车道的车辆数，Nout是出车道的车辆数；步骤3、将交通数据集、车流数据集导入深度强化学习框架，进行训练，并记录实验结果；步骤4、以平衡车道压力的思想为基准，修改奖励函数；具体为：以平衡车道压力的思想为基准，修改奖励函数，对平衡压力的公式取负，设定为第一个奖励函数，即：P′i＝Nin-Nmax-Noutr′i＝-P′i则当前路口的总奖励为：R′＝∑r′i第二个奖励函数时采用了自训练开始以来所有即时奖励的平均值和方差：R″＝raverage-rvariance使用两个奖励函数并行训练网络之前，设计了一个简单的噪声机制，使得第一个奖励作为主任务，而第二个奖励则为副任务：R＝R′+α*R″ 式中，Nin是进车道的车辆数，Nout是出车道的车辆数，Nmax是车道上最大的车辆数，raverage是即时奖励的平均值，rvariance是即时奖励的方差，α是噪声因子，x是训练时间；步骤5、将交通数据集、车流数据集导入新的深度强化学习框架，进行训练，并记录实验结果；步骤6、比较步骤3和步骤5中的实验结果；步骤7、将步骤5中训练生成的回放文件导入至Cityflow平台，进行可视化展示。

全文数据：

权利要求：

百度查询：南京信息工程大学一种基于多任务思想下的深度强化学习交通灯控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种工业物联网网关

下一篇：一种可快速拼接的安装架

相关技术

一种工业物联网网关

一种可快速拼接的安装架

一种地垫

一种装配式铝方通转角拼接结构

建筑工程管理招标装置

一种无纺布绑袋

一种稳固性良好的电动自行车

一种监测作物生长状况的农业装置

一种两级压缩螺杆式空压机壳体

一种模具加工用定位装置

一种高强度组合式不锈钢管

一种具有分级过滤功能的纳滤膜元件

学习相关技术

一种面向情境学习的机器学习模型训练的方法及系统_广东电网有限责任公司_202410368726.4

基于儿童学习偏好和智能教练的自适应学习方法和系统_昫爸教育科技(北京)有限公司_202310980805.6

节气门开度传感器的学习装置及学习方法_株式会社三国_202311446617.1

存储器优化的对比学习_谷歌有限责任公司_202280076446.5

机器学习辅助的图像预测_苹果公司_201980070345.5

用于持续学习的方法和装置_罗伯特·博世有限公司_202180103671.9

一种在线视频学习中学习者注意状态智能检测系统及方法_陕西师范大学_202110305497.8

管理使用机器学习过程训练的模型_皇家飞利浦有限公司_202280073390.8

深度学习加速器系统及其方法_阿里巴巴集团控股有限公司_201980009631.0

一种挂脖式学习机_佛山市生命树文化传播有限公司_202322058516.9

强化相关技术

用于软组织增强和强化的支架_斯玛特费姆医疗技术私人有限公司_202280058474.4

基于中心区域强化的乳腺肿块检测装置_中南民族大学_202410379358.3

一种行星轮式钢球强化研磨装置_无锡金牛钢球有限公司_202410670889.8

强化方法、不等厚柔性玻璃和电子设备_深圳市锐尔觅移动通信有限公司_202211701495.1

一种超声强化研磨装置_广州大学_202410516187.4

一种锁扣式强化地板_安徽扬子地板股份有限公司_202322730769.6

一种强化烟气循环烧结的方法_武汉钢铁有限公司_202410375407.6

环氧树脂组合物、含有强化纤维的环氧树脂组合物、预浸料及使用它们的纤维强化塑料_日铁化学材料株式会社_202311791034.2

基于安全强化学习的列车节能运行控制方法及相关装置_五邑大学_202410151452.3

基于多智能体深度强化学习的无人机辅助边缘卸载方法_东南大学_202410521461.7

深度相关技术

水环境监测用深度取水装置_邢台市南宫生态环境监控中心_202410408040.3

一种轻合金熔体深度取样装置_内蒙古蒙泰集团有限公司_202321954443.5

一种深度测量装置以及方法_山东工业陶瓷研究设计院有限公司_202111543962.8

深度学习加速器系统及其方法_阿里巴巴集团控股有限公司_201980009631.0

一种路面构造深度检测装置_湖北交投智能检测股份有限公司_202323123083.7

一种伸入深度可调的畜牧灌药器_张西伟_202420207339.8

确定地层中材料的存在和深度_特拉塞技术有限责任公司_202280055373.1

一种间甲酚深度脱硫系统及工艺_安徽海华科技集团有限公司_202210287015.5

一种船舶用深度探测仪_武汉交发船舶设计有限公司_202323177425.3

基于深度学习的失聪者辅助交流眼镜_长春师范大学_202410418362.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于多任务思想下的深度强化学习交通灯控制方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务