首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多智能体强化学习的订单匹配和车辆重定位方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:武汉大学

摘要:本发明提出了一种基于多智能体强化学习的订单匹配和车辆重定位方法。本发明通过网约车平台获取多条订单数据和多个网约车司机的历史轨迹点数据;对该数据进行时空划分预处理;根据预处理后的数据构建司机初始分布向量和订单分布变化记录矩阵;构建订单匹配和车辆重定位马尔科夫决策过程;构建订单匹配模型和车辆重定位模型;交替训练订单匹配模型和车辆重定位模型;按照设定次数重复上述步骤,直到模型稳定,得到最终模型。本发明将两个任务建模在同一个马尔科夫决策过程中同时优化两个任务;本发明可以一对一的车辆调度并通过共享权重减少计算量;本发明对城市级别大规模车辆和订单之间的长期时空依赖关系进行建模,缓解网约车供需不平衡。

主权项:1.一种基于多智能体强化学习的订单匹配和车辆重定位方法,其特征在于,包括以下步骤:步骤1:通过网约车平台获取多条订单数据和多个网约车司机的历史轨迹点数据;对多条历史订单数据以及多个网约车司机的历史轨迹点数据进行空间和时间划分预处理,将城市等分为不重叠的多个六边形格网,将一天等分为不重叠的多个时间切片;根据多条网约车司机的历史轨迹点数据轨迹点数据构建司机初始分布向量;步骤1具体如下:步骤1.1:获取多条订单数据和多个网约车司机的历史轨迹点数据;每条订单数据包括:每条订单数据的编号、每条订单数据的服务司机编号、每条订单数据的乘客上车的时间、每条订单数据的上车点的经度、每条订单数据的上车点的纬度、每条订单数据的乘客下车的时间、每条订单数据的下车点的经度、每条订单数据的下车点的纬度、每条订单数据的价格和每条订单数据的行程距离;每个网约车司机的历史轨迹点数据包括:每个网约车司机的历史轨迹点数据的编号、每个网约车司机的历史轨迹点数据的当前时间、每个网约车司机的历史轨迹点数据的当前位置的经度、每个网约车司机的历史轨迹点数据的当前位置的纬度、每个网约车司机的历史轨迹点数据的服务状态;所述服务状态为空载或者载客;步骤1.2:根据预设的六边形大小对订单数据所在的网约车服务区域进行六边形格网划分,分成NH个不重叠的六边形格网,记作六边形格网编号六边形格网编号的数量是NH;将每条订单数据的上车点的经度、每条订单数据的上车点的纬度、每条订单数据的下车点的经度、每条订单数据的下车点的纬度、每个网约车司机的历史轨迹点数据的当前位置的经度、每个网约车司机的历史轨迹点数据的当前位置的纬度依次转换为对应的六边形格网编号;将对应的六边形格网编号添加至每条订单数据,将对应的六边形格网编号添加至每个网约车司机的历史轨迹点数据;步骤1.3:根据预设的时间间隔对一天进行时间切片,分成NT个不重叠的时间切片,记作时间切片编号时间切片编号的数量为NT;将每条订单数据的乘客上车的时间、每条订单数据的乘客下车的时间、每个网约车司机的历史轨迹点数据的当前时间依次转换为对应的时间切片编号,将对应的时间切片编号添加至每条订单数据得到每条预处理后的订单数据,将对应的时间切片编号t添加至每个网约车司机的历史轨迹点数据得到每个预处理后的网约车司机的历史轨迹点数据;步骤1.4:根据所有网约车司机的历史轨迹点数据的编号和所有网约车司机的历史轨迹点数据的时间切片编号得到每个司机编号第一次出现的时间切片编号,作为每个网约司机的上班时间,统计所有网约司机的上班时间的分布的峰值,根据所有网约车司机的历史轨迹点数据位于峰值时段内每个六边形格网的司机数量的比例生成上班时间每个六边形格网的司机数量,记作初始供应向量S,所述S的长度为NH;步骤2:通过多条预处理后的订单数据构建订单分布变化记录矩阵;所述的步骤2具体包括:步骤2.1:根据多条预处理后的订单数据的上车时间编号、上车点的六边形格网编号、下车点的六边形格网编号,统计得到每个时间片段从每个六边形格网出发到每个六边形格网的订单数量,记作需求矩阵D,大小为NT×NH×NH,;步骤2.2:根据多条预处理后的订单数据的上车点的六边形格网编号、下车点的六边形格网编号、订单价格和行程距离,统计得到从每个六边形格网出发到每个六边形格网的订单平均收益,记作奖励矩阵R,大小为NH×NH,其中,每个订单的收益=价格-油价×距离,油价根据网络查询得到;步骤2.3:根据多条预处理后的订单数据的上车点的六边形格网编号、下车点的六边形格网编号、时间切片编号,统计得到从每个六边形格网出发到每个六边形格网的订单平均行程时长,记作时长矩阵T,大小为NH×NH,其中,每个订单的行程时长=下车时间编号-上车时间编号;步骤3:构建订单匹配和车辆重定位马尔科夫决策过程;步骤4:构建时空价值网络、目标时空价值网络以及组合优化函数;根据步骤1.4的供应向量和步骤2.2的需求矩阵得到当前时间切片编号t每个格网的空闲车辆和等待订单,得到所有可能的匹配方案;根据所有可能的匹配方案和构建的时空价值网络、目标时空价值网络计算匹配权重,根据匹配权重得到组合优化函数的最优匹配方案,从而构建基于多智能体强化学习的订单匹配模型:步骤5:构建集中式价值网络、目标集中式价值网络、共享策略网络和目标共享策略网络,进一步构建基于多智能体强化学习的车辆重定位模型;步骤6:使用步骤1的司机分布向量和步骤2的订单分布变化记录矩阵交替进行步骤5、步骤6执行NT次,使用步骤5和步骤6记录的变量训练交替训练基于多智能体强化学习的订单匹配模型和基于多智能体强化学习的车辆重定位模型;按照设定的次数重复上述步骤,直到模型稳定,得到训练好的模型;所述的步骤3具体包括:步骤3.1:构建订单匹配和车辆重定位马尔科夫决策过程,将每个司机视为一个智能体i,马尔科夫决策过程包括对智能体的状态、动作和奖励的定义;将步骤1中所述的司机初始分布向量、步骤2中的订单分布变化记录矩阵的存储和更新过程称为环境模拟器;步骤3.2:智能体i在时间切片编号t时的状态包括智能体i所处的时间编号t、所处的六边形格网编号g、所处的六边形格网及其相邻六边形的供需差所处行程状态f,记作t∈TID;g∈HID;若f=0表示空闲;若f=1表示载客;若f=2表示重定位;步骤3.3:智能体i在时间切片t时的动作为表示智能体i从六边形格网编号g移动到六边形格网编号g′;g′∈HID;:=表示定义;步骤3.4:智能体i在时间切片t时的奖励设置为司机净利润: 其中,R表示奖励矩阵,Rg,g′表示奖励矩阵中第g行第g′列的元素。

全文数据:

权利要求:

百度查询: 武汉大学 一种基于多智能体强化学习的订单匹配和车辆重定位方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。