买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:兰州理工大学
摘要:本发明城市路网交通信号配时优化控制方法,在传统A2C算法的基础上引入重要性采样实现了邻近交叉口经验共享方法,通过离线数据共享使邻近智能体进行学习,提高数据利用率,提高系统收敛效率,在奖励函数设置方面,提出了一种交叉口动态密度法的混合奖励函数模型,在最大化社会车辆通行效率的同时,强调EMV优先级,解决了交通路网环境中深度强化学习奖励稀疏的问题,通过基于合成网络以及摩纳哥交通网络中仿真实验,可以有效地减少交叉口的平均延误和车辆的平均行程时间,从而提高车辆的通过量,与社会车辆相比,EMV提取延迟率低于社会车辆,在道路资源利用率较低的时候,算法表现出较好的信号优先性、稳定性、实用性、安全性。
主权项:1.城市路网交通信号配时优化控制方法,其特征在于,包括以下步骤:步骤S1,建立基于深度强化学习的交通信号控制模型;步骤S2,训练基于深度强化学习的多交叉口协同自适应信号配时优化控制模型;步骤S3,在步骤S2的基础上,生成交通信号配时优化控制策略和持续更新模型;所述建立基于深度强化学习的交通信号控制模型,包括以下步骤:S11.定义深度强化学习控制模型的状态,构造联合状态 其中,分别为包括应急车辆在内的交叉口上游和下游车辆数,wt为交叉口上游排头车辆的等待时间,dt,emv为应急车辆距离交叉口i的最短距离;s12.定义深度强化学习控制模型的动作,每个交叉口的动作切换在其动作集合Ai中进行选择:Ai={NS,NSL,WE,WEL}其中,NS表示南北方向直行;NSL表示南北方向左转;WE表示东西方向直行;WEL东西方向左转;s13.定义深度强化学习控制模型的奖励值函数;s14.设计行动者Actor网络和评论家Critic网络;所述训练基于深度强化学习的多交叉口协同自适应信号配时优化控制模型,具体实施步骤包括:s21.搭建基于微观交通仿真软件SUMO的交通仿真环境,其中,SUMO是一个时间离散、空间连续的微观交通仿真软件,SUMOTraCI提供了一种基于TCP协议的客户服务器体系结构,控制器通过远程INT端口作为客户端访问SUMO,获取仿真对象的值,并对仿真对象进行在线控制,其中,通过在SUMO中搭建合成网络和引入摩纳哥实际路网两种环境,建立相对应的车辆流量信息数据生成各个信号周期的交通状态信息;s22.初始化深度强化学习交通信号控制模型,初始化算法参数,包括训练控制模型的最大回合数epsilon、每个回合的时间步数T、每一批处理数据的批量B、Actor网络学习率ηω、Critic网络学习率ηθ,并初始化策略网络和价值函数网络;s23.初始化训练回合数,使训练回合数初始化为1;s24.初始化每回合的训练时间步数,使时间步数初始化为0;s25.从仿真路网中获取交叉口的交通状态信息作为输入,运行策略网络选择执行动作,返回对应的奖励和状态,输出每一个动作对应的概率,然后时间步+1,循环至采样数据达到小批量的值,进行下一步;s26.计算优势函数和奖励估计,更新Actor网络和Critic网络;s27.检测回合内的时间步数,若时间步数未能达到指定的最大时间步数,则执行步骤s25,若时间步达到指定的最大时间步,则更新网络参数完成一个回合内的训练,执行下一步;s28.检测训练回合数,若回合数epsilon小于最大回合数,则当前回合数+1,执行步骤s24,开始下一回合训练,否则,完成整个交通信号配时控制训练。
全文数据:
权利要求:
百度查询: 兰州理工大学 城市路网交通信号配时优化控制方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。