首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种面向实时订单数据的无人机物流配送全局规划方法 

申请/专利权人:南京大学

申请日:2021-05-12

公开(公告)日:2024-06-25

公开(公告)号:CN113205220B

主分类号:G06Q10/047

分类号:G06Q10/047;G06Q10/0835;G06Q30/0601;G06N3/092

优先权:

专利状态码:有效-授权

法律状态:2024.06.25#授权;2021.08.20#实质审查的生效;2021.08.03#公开

摘要:本发明公开一种面向实时订单数据的无人机物流配送全局规划方法,首先接收新触发的实时订单数据,并提取当前无人机执行状态,对每架无人机预分配订单;之后根据深度学习模型指针网络,融合外部信息生成部分动作序列,并用启发式算法两元素优化进行优化;再使用贪心插入的方法,构造出中间动作序列,并用模拟退火框架进行可行性验证;之后根据预规划的执行动作序列提取出环境状态,传递给通过深度强化学习框架PPO训练出的订单分配智能体进行订单分配;订单分配之后,根据订单分配结果、预规划计算的动作序列,提取出各无人机执行订单的方案,并将无人机的配送方案发布出来。本发明适用于订单不断生成的动态情境。

主权项:1.一种面向实时订单数据的无人机物流配送全局规划方法,其特征在于,首先输入新订单数据,并提取当前无人机状态,对每架无人机预分配订单;之后根据深度学习模型指针网络,融合外部信息生成部分动作序列,并用启发式算法两元素优化进行优化;再使用贪心插入的方法,构造出中间动作序列,并用模拟退火框架进行可行性验证,生成最终的预规划订单执行动作序列;之后根据预规划的执行动作序列提取出环境状态,传递给通过深度强化学习框架PPO训练出的订单分配智能体进行订单分配;订单分配之后,根据订单分配结果、预规划计算的动作序列,提取出各无人机执行订单的方案;根据当前无人机订单执行的状态、新触发的订单信息,提取出所有无人机状态,所述无人机状态包括当前位置、待取货任务队列、待送达任务队列;所述对每架无人机预分配订单是指对每一架无人机进行新订单的预分配,将新订单加入待取货队列;所述根据深度学习模型指针网络,融合外部信息生成部分动作序列是指:根据训练出的深度学习网络,即融合了外部信息的指针网络,处理待取货任务的取货动作、待送达任务的送达动作,生成每架无人机的部分动作序列;所述构造出中间动作序列是指,使用贪心插入的方法,将各无人机未完成的待送达任务的送货动作插入到其部分动作序列中,生成每架无人机的中间动作序列;在提取出无人机的当前状态之后,对每架无人机分别使用融合外部信息的指针网络生成其部分动作序列;该指针网络属于深度学习模型,基于LSTM与注意力机制实现; 1式中ui表示解码环节针对编码环节第i个隐状态计算出的注意力值,v表示注意力向量,其转置之后于后面相乘,tanh是双曲正切激活函数,Wref表示对于编码部分的注意力矩阵,ri是第i个编码环节的隐状态,Wq表示解码部分的注意力矩阵,q表示当前解码环节的输入,需要融合外部信息:q=Dense1Dense2qraw:minfo:miget:miput:mimerge22式中Dense1与Dense2表示两个不同的深度学习全连接层,qraw表示根据上一时刻注意力机制指针从编码输入中选中的值作为当前时刻解码的输入,minfo、miget、miput、mimerge为根据外部信息提取出的地图信息、待取货信息、待送达信息以及取货送货可合并完成的信息;之后对之前编码阶段的注意力值做处理:Aref,q;Wref,Wq,v=softmaxu3上式中,A表示注意力函数,其参数分别为ref、q、Wref、Wq和v,其中ref是ri构成的向量,通过softmax函数处理1式得到的u从而获得整体的注意力函数值;之后指针网络根据:n=argmaxAref,q;Wref,Wq,v4直接选中第n个编码阶段的输入元素作为下一个解码阶段的输入;4中argmax表示选择使得值最大的参数,里面的A即是3计算出的注意力函数值;通过解码过程的不断迭代,运用融合外部信息的指针网络生成无人机的部分动作序列;使用启发式方法两元素优化,对每架无人机的部分动作序列进行优化,具体步骤如下:对每架无人机执行以下步骤:步骤51输入待优化的部分动作序列;步骤52判断是否已经迭代设定轮数,“是”转步骤56,“否”转步骤53;步骤53随机选择动作序列中两点;步骤54翻转两点之间的动作序列,并与前后部分拼接形成新的序列;步骤55通过计算执行代价评判新的动作序列,如果值比原序列小,说明新的动作序列更好,就将原动作序列更新为新动作序列,否则不做处理;转步骤52;步骤56输出优化后的部分动作序列;使用贪心插入的方法,将各无人机未完成的待送达任务的送货动作插入到其部分动作序列中,生成每架无人机的中间动作序列,对每架无人机执行以下步骤:步骤61输入部分动作序列;步骤62判断该无人机是否有待送达订单,“是”转步骤63,“否”转步骤67;步骤63处理下一个待送达订单的送达动作;步骤64定位该订单送达动作的所有可能位置;步骤65遍历所有可能位置依次插入该订单的送达动作;步骤66计算所有生成的新动作序列的执行代价,找到最低的作为插入该订单的新动作序列,转步骤62;步骤67输出中间动作序列;使用模拟退火框架,对每架无人机中间动作序列分别进行可行性验证,并优化生成最终的预规划订单执行动作序列,对每架无人机执行以下步骤:步骤71输入中间动作序列;步骤72判断是否达到某种终止条件,“是”转步骤76,“否”转步骤73;步骤73随机选择动作序列中两点交换以生成新的动作序列;步骤74模拟该无人机按照此新的动作序列执行的结果,考察在执行过程中是否满足载荷、续行的约束条件;步骤75用执行代价不满足可行性则执行代价设置极大评估新的动作序列,与原动作序列相比较,以一定概率接受: 上式中,p表示接受的概率,e是自然常数,T表示模拟退火系统当前的温度,s′与s分别表示新的和原来的动作序列,f为评估函数,衡量的指标是所有订单的总等待时间;之后转步骤72;步骤76输出最终动作序列;根据生成的预规划订单执行动作序列,计算出每架无人机执行新订单的代价、载荷,提取出环境的状态;根据深度强化学习PPO框架训练出的深度网络构成的订单分配智能体,根据环境状态做出决策将订单分配给某架无人机;当前环境提取出的状态信息,包含无人机的接单前、后执行代价以及当前的载荷,被传给订单分配智能体,用以做订单分配决策;订单分配智能体是一个3层的深度神经网络:at=Dense1Dense2Dense3st66式中,该智能体由Dense1、Dense2和Dense33个全连接层构成,接受当前环境的状态st,最终输出这一时刻的动作at,即订单分配的结果;这个智能体由深度强化学习框架PPO训练生成,用于训练反馈的回馈函数为:rt=-ΔCt+ασct+11+βVσLt+17上式中,rt表示这一时刻环境反馈的回馈函数,ΔCt为动作选择的接单无人机所带来的代价负载增量,α为超参数,ct+1为下一时刻的所有无人机代价负载,σ表示其标准差,β为超参数,Lt+1为下一时刻所有无人机载荷,Vσ表示其标准差系数;根据新订单的分配结果、预规划订单执行动作序列提取各个无人机执行订单的动作序列,该接受分配的无人机根据本次预规划订单执行动作序列来执行,而其他无人机则按照据之前订单规划出的动作序列继续执行。

全文数据:

权利要求:

百度查询: 南京大学 一种面向实时订单数据的无人机物流配送全局规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。