买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京工业大学
摘要:一种基于集中训练、分散执行的多智能体Actor‑Critic交通信号协同控制方法,涉及人工智能领域。在城市交通网络中,每个交叉口智能体分配一个分布式Actor网络和一个集中式Critic网络。在集中训练阶段,智能体之间通过发送各自的局部交通状态、局部奖赏等信息,实现信息共享,形成对全局交通状态的感知。集中式Critic网络根据聚合的全局交通状态和奖赏信息,评估分布式Actor网络的控制策略效果,并指导Actor网络学习如何在动态时变的交通环境中通过共享信息和协同决策最大化交通网络的整体性能;在分散执行阶段,分布式Actor网络根据自己的局部观察和训练好的策略选择控制动作。本发明有效提升了多交叉口交通信号控制的智能合作水平和自适应决策能力。
主权项:1.基于集中训练、分散执行的多智能体Actor-Critic交通信号协同控制方法,其特征在于,包括定义分布式Actor-Critic智能体的交通状态、控制动作、奖惩函数、策略和价值网络以及模型训练的目标函数;在此基础上,建立交通信号多智能体Actor-Critic控制基于集中训练、分散执行的训练算法,学习如何在复杂多变的交通环境中协同优化整个交通网络的全局性能;1建立基于分布式Actor-Critic智能体的交通信号控制模型,具体流程包括:步骤1.1、定义分布式Actor-Critic智能体的交通状态信号交叉口i的交通状态信息包括各个进口车道车辆的相对排队长度和相对等待时间,计算公式分别表示如下: 式1-2中,和分别表示在控制时间步t第i个信号交叉口第j个车道的车辆排队长度和等待时间,表示第i个信号交叉口第j个车道的长度,d表示前后车辆之间最小安全间距,d=2.5m,lv表示车辆的长度,lv=5m,表示在控制时间步t第i个信号交叉口所有车道车辆的最大等待时间,和分别表示在控制时间步t第i个信号交叉口第j个车道车辆的相对排队长度和相对等待时间,交叉口i的取值范围为[1,N],N表示交叉口的数量,车道j的取值范围为[1,J],J表示车道的数量,时间步t的取值范围为[1,T],T表示一轮训练回合中的控制时间步数;根据式1-2,建立信号交叉口i在控制时间步t的交通状态为步骤1.2、定义分布式Actor-Critic智能体的交通信号控制策略在固定相位顺序的前提下,分布式Actor-Critic智能体在信号交叉口i的控制策略采用离散式控制动作,定义为维持当前相位或切换到下一相位,表达式如下: 式3中,表示分布式Actor-Critic智能体在第i个信号交叉口第j个相位在控制时间步t采取的控制策略,0表示维持当前相位,1表示切换到下一相位;步骤1.3、定义分布式Actor-Critic智能体的奖惩函数分布式Actor-Critic智能体在信号交叉口i的奖惩函数包括车辆平均等待时间和排队长度惩罚值,计算公式表示如下:rti=-wt-a·pt4 pt=λt-λq6式4中,a表示权重系数且a∈0,1,反映pt在奖惩函数中的重要性,wt表示距交叉口指定距离内所有车辆的平均等待时间,ωh表示距交叉口指定距离内第h辆车的等待时间,H表示车辆总数;pt表示距交叉口指定距离内排队车辆数的真实值与阈值之差,λt表示在控制时间步t交叉口各进口道排队车辆数之和,λq表示距交叉口指定距离内所有进口方向车道上排队车辆数的阈值,λq值的大小由每个车道上指定距离内能够容纳的最大排队车辆数乘以总的车道数得到;步骤1.4、定义分布式Actor-Critic智能体的深度神经网络每个信号交叉口控制智能体采用的都是Actor-Critic架构,包括策略网络πθ、旧策略网络和价值网络其中策略网络、旧策略网络属于Actor,价值网络属于Critic;每个网络包括四层深度神经网络,分别是输入层、中间层和输出层,中间层是2层含有非线性激活函数的全连接神经网络;其中,输入层有256个神经元节点,中间层第一层有128个神经元节点,中间层第二层有64个神经元节点,这些层采用ReLU激活函数,Actor网络输出层有2个神经元节点,采用SoftMax激活函数;分布式Actor网络的输入是交叉口车辆的相对排队长度和相对等待时间计算公式如式1-2所示,输出是维持当前相位和切换到下一相位的概率;集中式Critic网络的输入是路网上所有交叉口车辆的相对排队长度和相对等待时间,输出是对分布式Actor网络控制效果的价值估计;步骤1.5、定义分布式Actor-Critic智能体模型参数的优化目标函数第i个智能体分布式Actor网络参数优化的目标函数,定义如下: 式7中,B表示模型训练时采样的小批量样本的数量,分别表示第i个Actor的新策略网络和旧策略网络在状态下选择动作的概率,ε表示裁剪系数且ε∈0,1,表示概率分布的熵,c2表示熵的加权系数且c2∈0,1;表示第i个智能体在控制时间步t的广义优势函数,计算公式如下所示: 式8中,γ和λ表示折扣因子且γ,λ∈0,1,表示第i个智能体在控制时间步t+k的时序差分误差,计算公式如下所示: 式9中,和表示第i个智能体集中式Critic网络在不同状态下的价值估计,rt表示全局反馈奖赏值;第i个智能体集中式Critic网络参数优化的目标函数,定义如下: 式10中,c1表示价值函数的加权系数且c1∈0,1;表示累计回报的估计值,计算公式如下: 2建立交通信号多智能体Actor-Critic控制基于集中训练、分散执行的训练算法,具体流程包括:步骤2.1、采用正交初始化的方法,即将网络中的权重矩阵和偏置分别初始化为正交矩阵和常数0,得到初始化后的分布式交通信号控制智能体的Actor网络参数θi和集中式Critic网络参数步骤2.2、设置总训练步数Tmax=200000,经验回放池大小L=2048,网络在单轮训练中的更新次数K=8以及小批量数据样本的数量B=256;步骤2.3、在每一控制时间步t,分布式智能体将从就近交叉口获取局部交通状态信息送入Actor;Actor的旧策略网络依据概率分布输出相应的交通信号控制策略并将从Actor网络输出得到的旧对数概率存储到相应的经验回放池中;步骤2.4、将多个Actor网络产生的控制策略拼接成全局交通信号控制动作at,作用于区域路网,获取下一个控制时间步的交通全局状态st+1和反馈的奖赏信息rt,将储存到每个智能体的经验回放池中;步骤2.5、重复步骤2.3-2.4,直到训练数据的数量达到经验回放池的大小L;步骤2.6、取出储存在分布式智能体经验池中的全局状态数据st和st+1,作为每个分布式智能体Critic网络的输入,并分别得到全局状态价值和采用公式9计算时序差分误差,采用公式8计算广义优势函数,采用公式11计算累计回报估计值;步骤2.7、每个智能体将从各自的经验池中采样B个数据样本进行训练;步骤2.8、采用公式10和Adam梯度下降算法更新每个智能体的集中式Critic网络参数步骤2.9、将存储好的局部状态数据输入Actor的新策略网络再结合局部动作数据得到局部动作的对数概率并以此更新新旧策略比值,在此基础上,采用公式7和Adam梯度下降算法更新每个智能体的新策略网络参数θi;步骤2.10、按照预先设定的训练次数K重复步骤2.7-2.9,其中每一次的采样方式都是随机不重复采样;最后,用Actor网络的新策略网络参数θi更新旧策略网络参数并清空智能体的经验回放池;步骤2.11、重复步骤2.3-2.10,直到达到总训练步数Tmax,保存训练好的模型参数。
全文数据:
权利要求:
百度查询: 北京工业大学 一种基于集中训练、分散执行的多智能体Actor-Critic交通信号协同控制方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。