首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于Q-learning的公交调度方法_西北大学_202410269459.5 

申请/专利权人:西北大学

申请日:2024-03-11

公开(公告)日:2024-06-21

公开(公告)号:CN117875674B

主分类号:G06Q10/0631

分类号:G06Q10/0631;G06N3/042;G06N3/0464;G06N3/092;G06Q10/04;G06Q50/40

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明公开了一种基于Q‑learning的公交调度方法,包括以下步骤:步骤一,获取公交系统的历史运行数据;步骤二,根据历史运行数据得到预设时间内的预期客流量数据;步骤三,利用Q‑learning算法根据预期客流量数据构建得到调度模型;步骤四,将调度模型应用于实际的公交系统运行中。本申请提出的一种基于Q‑learning的公交调度方法,通过公交系统的历史运行数据进行预测得到预设时间内的预期客流量数据,再利用Q‑learning算法根据预期客流量数据构建得到调度模型,提高了采集数据与调度决策的相关度,并提高了公交调度的准确性。

主权项:1.一种基于Q-learning的公交调度方法,其特征在于,包括以下步骤:步骤一,获取公交系统的历史运行数据;步骤二,根据所述历史运行数据得到预设时间内的预期客流量数据;步骤三,利用Q-learning算法根据所述预期客流量数据构建得到调度模型;步骤四,将所述调度模型应用于实际的公交系统运行中;步骤三中,所述利用Q-learning算法根据所述预期客流量数据构建得到调度模型的步骤包括:创建Q矩阵,行表示状态,列表示动作;将Q矩阵的智能体表示为公交车辆,状态表示为各个公交线路的客流量,动作表示为选择某个时刻和某条公交线路进行发车;智能体遍历所有公交线路,智能体获取当前状态下动作组合的最大Q值,获取最大Q值对应的动作并执行,然后转移到下一个状态;采用所述预期客流量数据对所述Q矩阵进行训练,得到训练好的Q矩阵,即所述调度模型;步骤三中,所述采用所述预期客流量数据对所述Q矩阵进行训练包括:A,初始化当前状态为起始状态;B1,根据当前状态和Q矩阵,使用ε-greedy策略选择决策动作;B2,执行所述决策动作,得到新状态;B3,观察新状态和即时奖励;B4,将新的Q值更新到Q矩阵中;B5,将新状态设为当前状态;B6,若到达预设训练步数或到达终点状态,进入下一步骤,否则回到步骤B1;C,若到达预设训练次数,训练完成,否则回到步骤A;步骤B3中,所述即时奖励是通过预设计的奖励函数得到;所述奖励函数包括:运营收入奖励函数、运营成本奖励函数和乘客时间成本奖励函数;运营收入奖励函数如下式:其中,表示运营收入;k表示站点j的乘客数量;s表示票价;运营成本奖励函数如下式:其中,表示运营成本;表示当前站点i与站点j之间的运营成本;表示站点i与站点j的距离;p表示单位油耗费用;n表示站点的个数,发车场点记为第0个站点,停车场点记为第n+1个站点;乘客时间成本奖励函数如下式:其中,表示乘客时间成本;表示站点j的乘客的时间成本;表示公交车到达站点j的实际时间;为站点j时间窗的最晚时间;为乘客的时间价值,即预先设置的乘客乘坐公交所节约时间对应的价值;为正数,用于避免分母为0;奖励函数如下式:步骤B4中,使用Q-learning更新策略进行Q值更新;首先定义记忆矩阵来依次记录智能体所经历过的所有状态st与相应动作at;设记忆矩阵为h行2列的矩阵,其中,h表示从初始时刻到当前时刻所经历的状态数量;以记忆矩阵中的为索引找到前一个“状态-动作”所对应的Q值并更新;然后令t减1,并判断t-1是否为0;如果为0,说明状态st前面所经历过的所有“状态-动作”的Q值已更新完毕;如果不为0,则寻找其下一个“状态-动作”的Q值进行更新,直至所有Q值更新完毕;Q-learning更新策略如下式:其中,表示状态采取动作后更新的Q值;表示g时刻的状态;表示状态采取的动作;表示状态采取动作获得的即时奖励;为折扣系数,表示状态采取动作a可获得的最大Q值;步骤四包括:获取公交系统的实时运行数据;进而,得到对应所述实时运行数据的预期客流量数据并输入所述调度模型,输出调度决策;将对应所述实时运行数据的预期客流量数据作为调度模型的当前状态,选择具有最大Q值的动作作为决策动作,即调度决策;根据所述调度决策进行实际调度。

全文数据:

权利要求:

百度查询: 西北大学 一种基于Q-learning的公交调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。