首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于合作式多智能体强化学习的交通信号灯控制方法_杭州电子科技大学_202210638529.0 

申请/专利权人:杭州电子科技大学

申请日:2022-06-07

公开(公告)日:2024-06-07

公开(公告)号:CN115083174B

主分类号:G08G1/07

分类号:G08G1/07;G08G1/08

优先权:

专利状态码:有效-授权

法律状态:2024.06.07#授权;2022.10.11#实质审查的生效;2022.09.20#公开

摘要:本发明公开了一种基于合作式多智能体强化学习的交通信号灯控制方法。该方法克服了传统强化学习单独控制各个路口的信号灯,没有考虑它们之间的相关性的缺点,提出了一种双层协调控制策略,通过局部合作机制和全局合作机制对路网中的交通信号灯进行协调控制。同时,该方法将车辆排放因素考虑在内,可以在改善路网交通状态的同时尽可能的减少车辆排放。

主权项:1.一种基于合作式多智能体强化学习的交通信号灯控制方法,其特征在于该方法包括以下步骤:步骤一:构建道路交叉口和交通信号灯的路网模型;步骤二:基于强化学习的交通信号灯控制模型构建;a状态空间State设计对于单个交叉口,使用当前信号灯的相位、每个车道车辆等待队列的长度、每个车道的车辆密度以及每个车道的车辆排放浓度来表示状态;b动作空间Action设计设计四种动作分别为:南北方向直行、南北方向左转、东西方向直行、东西方向左转;c奖励函数Reward设计时间步t时刻的奖励函数:R=kRE+1-kRw其中,k为权重系数,RE表示车辆排放部分奖励函数,Rw表示车辆等待时间部分奖励函数;步骤三:构建合作式多智能体强化学习模型;所述合作式多智能体强化学习模型包括个体价值网络,邻近价值网络,全局价值网络和策略网络;该模型的输入为路网中各个路口的交通状态,输出信息为四种动作的概率值,并根据动作概率值进行随机抽样选择动作;所述合作式多智能体强化学习模型采用了局部合作机制和全局合作机制,其中局部合作机制利用局部合作因子来权衡个体奖励和邻近奖励,全局合作机制通过梯度更新协调因子来最大化全局目标;步骤四:信号灯控制Agent学习信号灯控制策略;将单个信号灯控制Agent的局部观测信息输入个体价值网络,所述信号灯控制Agent在环境中获取奖励和下一时刻的观测信息,更新所述信号灯控制Agent的个体价值网络参数;将所述信号灯控制Agent的个体奖励信息和邻近信号灯控制Agent的奖励信息输入邻近价值网络;为求得局部合作因子,将所有信号灯控制Agent的奖励输入全局价值网络来寻找最优的局部合作因子;通过对全局目标进行梯度运算来实现双层全局协调,将得到的最优局部合作因子输入策略网络,并在动作空间中选择最合适的动作发送给路网环境,路网执行动作并转移到下一个状态。

全文数据:

权利要求:

百度查询: 杭州电子科技大学 一种基于合作式多智能体强化学习的交通信号灯控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术