首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

5G-A基于多智能体元强化学习eSIM安全调度方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:国网安徽省电力有限公司信息通信分公司

摘要:本发明公开了一种5G‑A基于多智能体元强化学习的eSIM安全调度方法。该方法中定义了安全速率比,并将其作为衡量调度方案安全性的性能指标。同时,采用多智能体元强化学习的方法对eSIM的带宽资源进行调度,在eSIM用户面对新的通信场景时,能够在较少的时间步内实现模型收敛,从而最大化所提出eSIM带宽资源安全调度方案的安全性能指标。

主权项:1.5G-A基于多智能体元强化学习eSIM安全调度方法,其特征在于,包括如下步骤:步骤A,定义eSIM带宽资源调度策略中的智能体,每个智能体对应一个eSIM,同时定义安全速率比,将其作为智能体与环境互动得到的奖励值来衡量eSIM调度方案的安全性;步骤B,设计eSIM带宽资源调度策略的元强化学习框架,每个智能体包含一个元学习器和一个基学习器,利用元学习器提取eSIM的不同资源安全调度任务间的共同知识,基学习器则针对具体任务学习网络策略的选择;步骤C,训练eSIM带宽资源调度策略中的智能体,使用元强化学习算法对每个智能体进行训练,学习策略网络的初始化参数,以便能够更快的部署到应用中,实现对eSIM资源的安全调度;步骤D,基于训练好的智能体,为每个eSIM生成资源安全调度策略,采用安全速率比评估资源调度策略的安全性;步骤E,对策略进行微调,将资源调度策略应用于eSIM资源调度系统中,在系统不断运行的过程中,收集经验数据,用于进一步优化智能体的性能,实现eSIM带宽资源调度方案的高安全性;其中,步骤A具体包括:A1,定义一个eSIM安全调度系统模型,该模型由一个窃听者、N个eSIM用户以及一个基站组成;A2,定义智能体i的状态空间Si={Btotal,Ni,Pi,Bused},其中,Btotal,Ni,Pi和Bused分别表示总带宽、智能体i到达基站的信道噪声功率、第i个eSIM的发送信号功率以及带宽占用情况;A3,定义动作空间集合Ai={Bi}其中Bi表示分配给第i个智能体的带宽资源;A4,设置奖励函数,第i个智能体的奖励函数定义为 其中riSi,t,ai,t表示第i个智能体的累计奖励函数,ζ为折扣率,Si,t与ai,t分别表示t时刻第i个智能体根据环境互动得到的状态信息和根据状态信息分配个第i个智能体的带宽资源,为t时刻的安全速率比,用来衡量调度方案的安全性,当存在一个时刻,窃听者的接收信干噪比大于阈值,则视为该调度方案是不安全的;当任意一个eSIM用户的接受信干噪比大于等于0,且窃听者的接收信干噪比小于阈值时,则该调度方案是安全的,且返回给智能体i一个奖励值,表示窃听者窃听第i个eSIM用户时可实现的速率,表示eSIM用户可实现的速率,γE,i,γeSIM,i分别表示窃听者和eSIM用户的信干噪比,heSIM,i、he,i分别表示eSIM用户、窃听者的信道矩阵,σ2为信道噪声功率,Pi表示eSIM的发送信号功率,Be和Bi分别为窃听者的带宽资源以及分配个第i个eSIM的带宽资源;A5,智能体将分配给自身的带宽资源以及带宽占用情况同步给其他智能体,然后其他的智能体与环境进行交互,获取新的状态信息并执行动作,环境根据智能体的动作反馈新的状态信息和奖励值;其中,步骤B具体包括:B1,多智能体元演员-评论家算法:采用评论家网络对演员网络进行指导,评估演员网络做出动作的好坏程度,并根据好坏程度指导演员网络做出下一步动作,演员网络定义为πθai,t|Si,t;θ=softmaxReLUMLPAttentionSi,t,ViSi,t;μ其中,θ={W1,W2,WQ,WK,b1,b2}为演员网络的参数;AttentionSi,t,ViSi,t;μ是交叉注意力机制,用来建立评论家网络与演员网络之间的联系,其中WQ、WK分别是查询向量和键向量的权重矩阵参数,Si,t,ViSi,t;μ分别是第i个智能体的状态映射向量和评论家网络对演员网络给出的分配给第i个eSIM带宽资源的评分,d表示特征向量的维度,MLP·为多层感知机模型,具体的表示为一个具有两个隐层的感知机模型,W1、W2是模型的权重参数,b1、b2是模型的偏置项,最后经过ReLU激活函数和softmax函数,将预测结果映射为0,1区间的概率值,即表示分配给eSIM每个带宽的概率;B2,评论家网络定义为ViSi,t;μ=MLPQiSi,t,ai,t·maxπθai,t|Si,t;θ;μ其中si,t,ai,t分别表示t时刻第i个eSIM的状态和在t时刻分配个第i个eSIM的带宽,ViSi,t;μ为评论家网络,μ为其参数,maxπθai,t|si,t;θ表示演员网络在第i个智能体根据当前的总带宽、信号发送功率、信道噪声以及带宽占用情况这四个状态信息的条件下,给出的最优的带宽分配方案,然后将当前的状态信息和当前演员网络预测的分配给第i个智能体的最优带宽一起送入多层感知机MLP·中,MLP设计fx=W4W3x+b3+b4,其中W3,W4为多层感知机的权重参数,b3,b4为偏置参数,感知机的最后一层神经元个数为1,表示评论家网络对演员网络做出的动作的评分值,QiSi,t,ai,t为动作奖励函数;B3,智能体间互相传递数据包,将分配给第i个eSIM的带宽信息传递给第j个智能体,这样其余的智能体能够得知目前带宽的分配情况,并对智能体所对应的eSIM进行合理的资源调度;其中,步骤C具体包括:C1,从训练集中采样n个轨迹,将n个轨迹信息加入到训练集列表中,每个轨迹包含第i个eSIM的状态信息、具体分配给第i个eSIM的带宽资源以及累计奖励值;C2,演员网络的更新方式 其中θ'now为演员网络当前的参数,θ'new为更新后的参数,β为演员网络参数更新的学习率,设置为0.0001,其中,为演员网络的损失函数,是对当前参数求梯度,Ti为利用参数为θ的元学习器策略函数采样得到的轨迹,ri,t为T个时间步长的累计奖励值;评论家网络的更新方式 其中,μnow为评论家网络当前的参数,μnew为更新后的参数,c为学习率,设置为0.0001,ViSi,t;μ-ri,t-ζViSi,t+1;μ表示评论家网络的损失函数,表示对损失函数求梯度,ViSi,t;μ、ViSi,t+1;μ分别为t时刻和t+1时刻的状态奖励函数,ri,t为t时刻的奖励函数;C3:重复上述步骤,每次执行完一个任务轨迹,从列表中删除这个轨迹信息,直至任务轨迹列表为空;C4,元学习器:策略函数πθai,t|si,t;θ的目的是根据当前的状态和前一时刻的奖励函数决策下一步执行每个动作的概率分布值,更新后的基学习器采样得到共m个轨迹的测试集其中Ditest包括第i个eSIM的状态,动作以及奖励值,采用梯度下降算法来对元学习器参数进行更新 其中,θnow为第i个eSIM当前策略网络的参数,θnew为第i个eSIM更新后的策略网络参数,α为学习率,设置为0.0001,是元学习器的损失函数,是用Dtest中第i个轨迹对策略函数求梯度,T为采样轨迹,PT为采样任务的概率分布,执行m步,对元学习器参数更新m次;C5:元学习器参数更新完成后,继续从C1步骤开始执行,将元学习器的参数作为基学习器的初始化参数;其中,步骤D具体包括:D1,训练结束,得到一个资源安全调度策略,根据资源安全调度策略,利用安全速率比对每个eSIM资源安全调度方法进行评估;D2,构造查询集包括每个eSIM的状态信息、动作和累计奖励函数值,共T个轨迹,通过计算第i个eSIM用户的安全速率比,当安全速率比大于0是表示该资源调度方案是安全的,反之,则不安全;其中,步骤E具体包括:E1,当环境、总的带宽资源或者eSIM的信号发送功率等发生变化时,需要采集新的数据来对eSIM资源调度的策略进行微调,具体采集的数据Di={D1,D2,D3,D4},D1,D2,D3,D4分别表示当前总的带宽资源、第i个eSIM的信号发送功率、信道中噪声和带宽占用情况;E2,从数据集中获取信道噪声功率、总带宽资源以及每个eSIM的信号发送功率,通过式子计算出第i个eSIM的安全速率比,并根据步骤A4构造奖励函数;E3,利用元学习器学习的参数对策略网络进行初始化,采用梯度下降算法对策略网络参数进行微调这里的步长设置为比元学习阶段大的,λ=0.01;E4,重复上述步骤,直至模型收敛;E5,生成在新的通信场景中满足安全约束条件下的最优带宽资源调度策略。

全文数据:

权利要求:

百度查询: 国网安徽省电力有限公司信息通信分公司 5G-A基于多智能体元强化学习eSIM安全调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。