首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于多智能体协作的停机位分配方法、设备及介质_中国民航大学_202410403244.8 

申请/专利权人:中国民航大学

申请日:2024-04-03

公开(公告)日:2024-06-21

公开(公告)号:CN117993580B

主分类号:G06Q10/04

分类号:G06Q10/04;G06Q10/0631;G06Q50/40;G06N3/006;G06N3/0442;G06N3/045;G06N3/084;G06N3/092

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2024.05.24#实质审查的生效;2024.05.07#公开

摘要:本发明提供了一种基于多智能体协作的停机位分配方法、设备及介质,该方法包括:响应于接收到停机位分配指令,获取停机位分配指令中包括的分配时间;若分配时间在目标时间段内,则获取每一目标停机位在分配时间的停机状态标识;将若干个停机状态标识输入至预设的停机位分配模型中,得到每一目标停机位在分配时间对应的停机位分配策略;停机位分配模型根据对每一目标停机位的目标停机位信息和每一目标航班的目标航班信息进行训练得到。本发明将每个目标停机位当作一个智能体,综合考虑目标机场的多个约束条件,通过强化学习算法控制所有智能体选择适合的目标航班进行停机位分配,使各个智能体之间相互协作,保证目标停机位的最大化近机位利用率。

主权项:1.一种基于多智能体协作的停机位分配方法,其特征在于,应用于停机位分配系统,所述停机位分配系统中存储有目标机场的若干目标停机位对应的目标停机位标识,以及在目标时间段内到达所述目标机场的若干目标航班对应的目标航班标识;所述方法包括如下步骤:步骤S100、响应于接收到停机位分配指令,获取所述停机位分配指令中包括的分配时间;步骤S200、若所述分配时间在所述目标时间段内,则获取每一所述目标停机位在所述分配时间的停机状态标识;步骤S300、将所述停机状态标识输入至预设的停机位分配模型中,得到每一所述目标停机位在所述分配时间对应的停机位分配策略;所述停机位分配模型根据对每一所述目标停机位的目标停机位信息和每一目标航班的目标航班信息进行训练得到;所述目标停机位信息包括所述目标停机位的机位属性标识和机位可容纳机型标识;所述目标航班信息包括所述目标航班的目标航班标识、进出港时间和机型标识;其中,所述停机位分配模型包括智能体策略网络和混合网络,所述智能体策略网络和混合网络相互连接;所述智能体策略网络包括线性输入层、门控循环单元、线性输出层、动作掩码层,所述线性输出层连接所述混合网络;所述线性输入层用于将输入的训练样本传输至所述门控循环单元,所述门控循环单元用于根据训练样本编码每个目标停机位的局部观察信息,记录目标停机位的交互轨迹,通过门控循环单元中的重置门得到每个隐藏状态单元保留旧信息的比例,从更新门中得到每个隐藏状态单元保留新信息的比例,并传输至线性输出层,由线性输出层得到对应的动作参数和奖励函数,所述动作参数由所述线性输出层传输至所述动作掩码层,所述奖励函数由所述线性输出层传输至所述混合网络,所述混合网络对接收到的奖励函数进行训练计算,得到全局奖励值;其中,所述停机位分配模型通过以下步骤确定:步骤S310、获取每一所述目标停机位在所述目标时间段内的观测值,得到观测值列表集A=A1,A2,...,Ai,...,An;Ai=Ai1,Ai2,...,Aim,...,Aif;Aim=Ai1,Aim2,Aim3,Aim4;其中,i=1,2,...,n;n为所述目标停机位的数量;Ai为第i个所述目标停机位对应的观测值列表;m=1,2,...,f;f为所述目标时间段内包括的子时间段的数量;每一所述子时间段的长度均相等;Aim为第i个所述目标停机位在第m个子时间段内的观测值;Ai1为第i个所述目标停机位的机位可容纳机型标识;Aim2为第i个所述目标停机位在第m个子时间段内的机位属性标识;Aim3为第i个所述目标停机位在第m个子时间段内的占用标识;Aim4为第i个所述目标停机位在第m个子时间段内停放的飞行器的编号;步骤S320、获取每一所述目标航班的目标航班信息,得到目标航班信息集B=B1,B2,...,Bc,...,Bd;Bc=Bc1,Bc2,Bc3,Bc4;其中,c=1,2,...,d;d为所述目标航班的数量;Bc为第c个所述目标航班的目标航班信息;Bc1为第c个所述目标航班的目标航班标识;Bc2为第c个所述目标航班的进港时间;Bc3为第c个所述目标航班的出港时间;Bc4为第c个所述目标航班的机型标识;步骤S330、获取每一所述目标停机位在每一所述目标航班到达目标机场的动作值,得到动作列表集D=D1,D2,...,Di,...,Dn;Di=Di1,Di2,...,Dic,...,Did;其中,Di为第i个所述目标停机位对应的动作列表;Dic为第i个所述目标停机位在第c个所述目标航班到达目标机场的动作值;步骤S340、将所述观测值列表集A、所述目标航班信息集B、所述动作列表集D输入至预设的初始模型的智能体策略网络中进行训练,输出每一所述目标停机位对应的奖励函数和动作参数;步骤S350、将每一所述目标停机位对应的奖励函数输入至预设的初始模型的混合网络中进行迭代训练,得到所述混合网络输出的全局奖励值;步骤S360、实时监测所述混合网络输出的全局奖励值,若得到的全局奖励值达到收敛,则将达到收敛时的初始模型确定为停机位分配模型;其中,所述全局奖励值根据以下步骤确定:步骤S351、获取每一所述目标停机位对应的停机位利用率奖励值,得到停机位利用率奖励值列表E=E1,E2,...,Ei,...,En;其中,Ei为第i个所述目标停机位对应的停机位利用率奖励值;步骤S352、获取每一所述目标停机位对应的机型匹配奖励值,得到机型匹配奖励值列表F=F1,F2,...,Fi,...,Fn;其中,Fi为第i个所述目标停机位对应的机型匹配奖励值;若Fi为1,则表示第i个所述目标停机位选择停放的飞行器符合对应的停放规则;若Fi为-1,则表示第i个所述目标停机位选择停放的飞行器不符合对应的停放规则;步骤S353、根据所述停机位利用率奖励值列表E和所述机型匹配奖励值列表F,确定全局奖励值Z=∑ni=1Ei+∑ni=1Fi;其中,Ei根据以下步骤确定:步骤S3511、获取第i个所述目标停机位被第c个所述目标航班对应的飞行器所占用的时间tic;步骤S3512、获取第c个所述目标航班对应的飞行器的总占用时间ac;步骤S3513、确定第i个所述目标停机位对应的停机位利用率奖励值Ei=∑dc=1ticac。

全文数据:

权利要求:

百度查询: 中国民航大学 一种基于多智能体协作的停机位分配方法、设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。