一种基于多智能体强化学习的订单匹配和车辆重定位方法

导航：龙图腾网> 最新专利技术> 一种基于多智能体强化学习的订单匹配和车辆重定位方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：武汉大学

摘要：本发明提出了一种基于多智能体强化学习的订单匹配和车辆重定位方法。本发明通过网约车平台获取多条订单数据和多个网约车司机的历史轨迹点数据；对该数据进行时空划分预处理；根据预处理后的数据构建司机初始分布向量和订单分布变化记录矩阵；构建订单匹配和车辆重定位马尔科夫决策过程；构建订单匹配模型和车辆重定位模型；交替训练订单匹配模型和车辆重定位模型；按照设定次数重复上述步骤，直到模型稳定，得到最终模型。本发明将两个任务建模在同一个马尔科夫决策过程中同时优化两个任务；本发明可以一对一的车辆调度并通过共享权重减少计算量；本发明对城市级别大规模车辆和订单之间的长期时空依赖关系进行建模，缓解网约车供需不平衡。

主权项：1.一种基于多智能体强化学习的订单匹配和车辆重定位方法，其特征在于，包括以下步骤：步骤1：通过网约车平台获取多条订单数据和多个网约车司机的历史轨迹点数据；对多条历史订单数据以及多个网约车司机的历史轨迹点数据进行空间和时间划分预处理，将城市等分为不重叠的多个六边形格网，将一天等分为不重叠的多个时间切片；根据多条网约车司机的历史轨迹点数据轨迹点数据构建司机初始分布向量；步骤1具体如下：步骤1.1：获取多条订单数据和多个网约车司机的历史轨迹点数据；每条订单数据包括：每条订单数据的编号、每条订单数据的服务司机编号、每条订单数据的乘客上车的时间、每条订单数据的上车点的经度、每条订单数据的上车点的纬度、每条订单数据的乘客下车的时间、每条订单数据的下车点的经度、每条订单数据的下车点的纬度、每条订单数据的价格和每条订单数据的行程距离；每个网约车司机的历史轨迹点数据包括：每个网约车司机的历史轨迹点数据的编号、每个网约车司机的历史轨迹点数据的当前时间、每个网约车司机的历史轨迹点数据的当前位置的经度、每个网约车司机的历史轨迹点数据的当前位置的纬度、每个网约车司机的历史轨迹点数据的服务状态；所述服务状态为空载或者载客；步骤1.2：根据预设的六边形大小对订单数据所在的网约车服务区域进行六边形格网划分，分成NH个不重叠的六边形格网，记作六边形格网编号六边形格网编号的数量是NH；将每条订单数据的上车点的经度、每条订单数据的上车点的纬度、每条订单数据的下车点的经度、每条订单数据的下车点的纬度、每个网约车司机的历史轨迹点数据的当前位置的经度、每个网约车司机的历史轨迹点数据的当前位置的纬度依次转换为对应的六边形格网编号；将对应的六边形格网编号添加至每条订单数据，将对应的六边形格网编号添加至每个网约车司机的历史轨迹点数据；步骤1.3：根据预设的时间间隔对一天进行时间切片，分成NT个不重叠的时间切片，记作时间切片编号时间切片编号的数量为NT；将每条订单数据的乘客上车的时间、每条订单数据的乘客下车的时间、每个网约车司机的历史轨迹点数据的当前时间依次转换为对应的时间切片编号，将对应的时间切片编号添加至每条订单数据得到每条预处理后的订单数据，将对应的时间切片编号t添加至每个网约车司机的历史轨迹点数据得到每个预处理后的网约车司机的历史轨迹点数据；步骤1.4：根据所有网约车司机的历史轨迹点数据的编号和所有网约车司机的历史轨迹点数据的时间切片编号得到每个司机编号第一次出现的时间切片编号，作为每个网约司机的上班时间，统计所有网约司机的上班时间的分布的峰值，根据所有网约车司机的历史轨迹点数据位于峰值时段内每个六边形格网的司机数量的比例生成上班时间每个六边形格网的司机数量，记作初始供应向量S，所述S的长度为NH；步骤2：通过多条预处理后的订单数据构建订单分布变化记录矩阵；所述的步骤2具体包括：步骤2.1：根据多条预处理后的订单数据的上车时间编号、上车点的六边形格网编号、下车点的六边形格网编号，统计得到每个时间片段从每个六边形格网出发到每个六边形格网的订单数量，记作需求矩阵D，大小为NT×NH×NH,；步骤2.2：根据多条预处理后的订单数据的上车点的六边形格网编号、下车点的六边形格网编号、订单价格和行程距离，统计得到从每个六边形格网出发到每个六边形格网的订单平均收益，记作奖励矩阵R，大小为NH×NH，其中，每个订单的收益＝价格-油价×距离，油价根据网络查询得到；步骤2.3：根据多条预处理后的订单数据的上车点的六边形格网编号、下车点的六边形格网编号、时间切片编号，统计得到从每个六边形格网出发到每个六边形格网的订单平均行程时长，记作时长矩阵T，大小为NH×NH，其中，每个订单的行程时长＝下车时间编号-上车时间编号；步骤3：构建订单匹配和车辆重定位马尔科夫决策过程；步骤4：构建时空价值网络、目标时空价值网络以及组合优化函数；根据步骤1.4的供应向量和步骤2.2的需求矩阵得到当前时间切片编号t每个格网的空闲车辆和等待订单，得到所有可能的匹配方案；根据所有可能的匹配方案和构建的时空价值网络、目标时空价值网络计算匹配权重，根据匹配权重得到组合优化函数的最优匹配方案，从而构建基于多智能体强化学习的订单匹配模型：步骤5：构建集中式价值网络、目标集中式价值网络、共享策略网络和目标共享策略网络，进一步构建基于多智能体强化学习的车辆重定位模型；步骤6：使用步骤1的司机分布向量和步骤2的订单分布变化记录矩阵交替进行步骤5、步骤6执行NT次，使用步骤5和步骤6记录的变量训练交替训练基于多智能体强化学习的订单匹配模型和基于多智能体强化学习的车辆重定位模型；按照设定的次数重复上述步骤，直到模型稳定，得到训练好的模型；所述的步骤3具体包括：步骤3.1：构建订单匹配和车辆重定位马尔科夫决策过程，将每个司机视为一个智能体i，马尔科夫决策过程包括对智能体的状态、动作和奖励的定义；将步骤1中所述的司机初始分布向量、步骤2中的订单分布变化记录矩阵的存储和更新过程称为环境模拟器；步骤3.2：智能体i在时间切片编号t时的状态包括智能体i所处的时间编号t、所处的六边形格网编号g、所处的六边形格网及其相邻六边形的供需差所处行程状态f，记作t∈TID；g∈HID；若f＝0表示空闲；若f＝1表示载客；若f＝2表示重定位；步骤3.3：智能体i在时间切片t时的动作为表示智能体i从六边形格网编号g移动到六边形格网编号g′；g′∈HID；：＝表示定义；步骤3.4：智能体i在时间切片t时的奖励设置为司机净利润：其中，R表示奖励矩阵，Rg,g′表示奖励矩阵中第g行第g′列的元素。

全文数据：

权利要求：

百度查询：武汉大学一种基于多智能体强化学习的订单匹配和车辆重定位方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种靶向铜绿假单胞菌凝集素的仿生多功能纳米制剂及其制备方法和应用

下一篇：纵置混动变速箱机械泵

相关技术

一种靶向铜绿假单胞菌凝集素的仿生多功能纳米制剂及其制备方法和应用

纵置混动变速箱机械泵

快速滤波器校准方法

慢性低度炎症刺激形成衰老成纤维细胞模型的构建方法

一种基于可逆热致变色微胶囊的复合绝缘材料及其制备方法

一种用于光伏板边框的铝合金型材

一种注册终端设备的方法及装置

一种飞机复合材料部件超规范修理专家系统

一种分层架构下的无人机网络动态任务卸载方法

一种发动机选配零件装配过程人机交互防错装置及方法

一种能自动弹出的抽屉式车载冰箱

像素补偿方法、装置、设备、显示面板及存储介质

订单相关技术

订单部署方法及其相关设备_广州天奕技术股份有限公司_202410789142.4

订单下发处理方法、装置和系统_北京沃东天骏信息技术有限公司_202010227951.8

订单处理方法、装置及系统_北京京东振世信息技术有限公司_202110366139.8

用于处理订单的方法和装置_北京京东乾石科技有限公司_201910978352.7

用于订单的接收、装载、排队和交付的系统_弗兰卡技术和商标有限公司_202380020613.9

一种订单派送的方法和装置_北京京东乾石科技有限公司_202410717161.6

医疗器械订单处理方法及装置_国科恒泰(北京)医疗科技股份有限公司_202410695604.6

订单处理方法、系统、装置、设备及介质_五八畅生活(北京)信息技术有限公司_202410876931.1

一种订单分拣的方法和装置_北京京东远升科技有限公司_202410711515.6

一种基于SpringBoot服务框架的订单补录系统_浪潮云信息技术股份公司_202410891202.3

匹配相关技术

信息匹配方法及装置_北京沃东天骏信息技术有限公司_202010927051.4

音视频匹配方法、音视频匹配模型的训练方法及装置_腾讯科技(深圳)有限公司_202310269977.2

主从匹配的控制方法及机器人系统_北京术锐机器人股份有限公司_202311221370.3

阻抗电路自匹配优化方法、系统及相关设备_深圳飞骧科技股份有限公司_202410790135.6

基于人工智能的保险匹配方法_成都亚保科技有限公司_202411155571.2

一种地图匹配方法和系统_杭州浙诚数据科技有限公司_202411162653.X

文本匹配方法、装置、设备及存储介质_深圳前海微众银行股份有限公司_202110667338.2

基于多模板的帧内模板匹配预测_腾讯美国有限责任公司_202480001091.2

轨道车辆焊缝涂层匹配性的检测方法_中车青岛四方机车车辆股份有限公司_202111045712.1

用于车辆配件交易的数据匹配方法_厦门创联享信息科技有限公司_202211088505.9

学习相关技术

一种学习书架_刘毅_202420259449.9

提升AI识别学习能力_华为技术有限公司_201980068228.5

基于关键学习期识别的同态加密联邦学习通信成本控制方法和系统_北京航空航天大学_202410766229.X

一种基于联邦学习的机器学习模型训练方法及装置_西交网络空间安全研究院_202410880422.6

一种基于原型对齐学习的个性化联邦学习方法_浙江大学_202410762046.0

一种基于学习行为的个性化区块链联邦学习方法_东华大学_202410792742.6

基于深度学习的自动束建模_医科达(上海)科技有限公司_202080103747.3

一种学习桌_厦门胜诚鑫科技股份有限公司_202323419230.5

一种面向深度学习大模型的参数微调迁移学习方法及系统_山东省计算中心(国家超级计算济南中心)_202410820143.0

检查装置、检查方法、学习完毕模型生成装置、检查用程序以及学习完毕模型生成用程序_日置电机株式会社_202380020782.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于多智能体强化学习的订单匹配和车辆重定位方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务