5G-A基于多智能体元强化学习eSIM安全调度方法

导航：龙图腾网> 最新专利技术> 5G-A基于多智能体元强化学习eSIM安全调度方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：国网安徽省电力有限公司信息通信分公司

摘要：本发明公开了一种5G‑A基于多智能体元强化学习的eSIM安全调度方法。该方法中定义了安全速率比，并将其作为衡量调度方案安全性的性能指标。同时，采用多智能体元强化学习的方法对eSIM的带宽资源进行调度，在eSIM用户面对新的通信场景时，能够在较少的时间步内实现模型收敛，从而最大化所提出eSIM带宽资源安全调度方案的安全性能指标。

主权项：1.5G-A基于多智能体元强化学习eSIM安全调度方法，其特征在于，包括如下步骤：步骤A，定义eSIM带宽资源调度策略中的智能体，每个智能体对应一个eSIM，同时定义安全速率比，将其作为智能体与环境互动得到的奖励值来衡量eSIM调度方案的安全性；步骤B，设计eSIM带宽资源调度策略的元强化学习框架，每个智能体包含一个元学习器和一个基学习器，利用元学习器提取eSIM的不同资源安全调度任务间的共同知识，基学习器则针对具体任务学习网络策略的选择；步骤C，训练eSIM带宽资源调度策略中的智能体，使用元强化学习算法对每个智能体进行训练，学习策略网络的初始化参数，以便能够更快的部署到应用中，实现对eSIM资源的安全调度；步骤D，基于训练好的智能体，为每个eSIM生成资源安全调度策略，采用安全速率比评估资源调度策略的安全性；步骤E，对策略进行微调，将资源调度策略应用于eSIM资源调度系统中，在系统不断运行的过程中，收集经验数据，用于进一步优化智能体的性能，实现eSIM带宽资源调度方案的高安全性；其中，步骤A具体包括：A1，定义一个eSIM安全调度系统模型，该模型由一个窃听者、N个eSIM用户以及一个基站组成；A2，定义智能体i的状态空间Si＝{Btotal,Ni,Pi,Bused}，其中，Btotal，Ni，Pi和Bused分别表示总带宽、智能体i到达基站的信道噪声功率、第i个eSIM的发送信号功率以及带宽占用情况；A3，定义动作空间集合Ai＝{Bi}其中Bi表示分配给第i个智能体的带宽资源；A4，设置奖励函数，第i个智能体的奖励函数定义为其中riSi,t,ai,t表示第i个智能体的累计奖励函数，ζ为折扣率，Si,t与ai,t分别表示t时刻第i个智能体根据环境互动得到的状态信息和根据状态信息分配个第i个智能体的带宽资源，为t时刻的安全速率比，用来衡量调度方案的安全性，当存在一个时刻，窃听者的接收信干噪比大于阈值，则视为该调度方案是不安全的；当任意一个eSIM用户的接受信干噪比大于等于0，且窃听者的接收信干噪比小于阈值时，则该调度方案是安全的，且返回给智能体i一个奖励值，表示窃听者窃听第i个eSIM用户时可实现的速率，表示eSIM用户可实现的速率，γE,i，γeSIM,i分别表示窃听者和eSIM用户的信干噪比，heSIM,i、he,i分别表示eSIM用户、窃听者的信道矩阵，σ2为信道噪声功率，Pi表示eSIM的发送信号功率，Be和Bi分别为窃听者的带宽资源以及分配个第i个eSIM的带宽资源；A5，智能体将分配给自身的带宽资源以及带宽占用情况同步给其他智能体，然后其他的智能体与环境进行交互，获取新的状态信息并执行动作，环境根据智能体的动作反馈新的状态信息和奖励值；其中，步骤B具体包括：B1，多智能体元演员-评论家算法：采用评论家网络对演员网络进行指导，评估演员网络做出动作的好坏程度，并根据好坏程度指导演员网络做出下一步动作，演员网络定义为πθai,t|Si,t；θ＝softmaxReLUMLPAttentionSi,t,ViSi,t；μ其中，θ＝{W1,W2,WQ,WK,b1,b2}为演员网络的参数；AttentionSi,t,ViSi,t；μ是交叉注意力机制，用来建立评论家网络与演员网络之间的联系，其中WQ、WK分别是查询向量和键向量的权重矩阵参数，Si,t，ViSi,t；μ分别是第i个智能体的状态映射向量和评论家网络对演员网络给出的分配给第i个eSIM带宽资源的评分，d表示特征向量的维度，MLP·为多层感知机模型，具体的表示为一个具有两个隐层的感知机模型，W1、W2是模型的权重参数，b1、b2是模型的偏置项，最后经过ReLU激活函数和softmax函数，将预测结果映射为0，1区间的概率值，即表示分配给eSIM每个带宽的概率；B2，评论家网络定义为ViSi,t；μ＝MLPQiSi,t,ai,t·maxπθai,t|Si,t；θ；μ其中si,t，ai,t分别表示t时刻第i个eSIM的状态和在t时刻分配个第i个eSIM的带宽，ViSi,t；μ为评论家网络，μ为其参数，maxπθai,t|si,t；θ表示演员网络在第i个智能体根据当前的总带宽、信号发送功率、信道噪声以及带宽占用情况这四个状态信息的条件下，给出的最优的带宽分配方案，然后将当前的状态信息和当前演员网络预测的分配给第i个智能体的最优带宽一起送入多层感知机MLP·中，MLP设计fx＝W4W3x+b3+b4，其中W3，W4为多层感知机的权重参数，b3，b4为偏置参数，感知机的最后一层神经元个数为1，表示评论家网络对演员网络做出的动作的评分值，QiSi,t,ai,t为动作奖励函数；B3，智能体间互相传递数据包，将分配给第i个eSIM的带宽信息传递给第j个智能体，这样其余的智能体能够得知目前带宽的分配情况，并对智能体所对应的eSIM进行合理的资源调度；其中，步骤C具体包括：C1，从训练集中采样n个轨迹，将n个轨迹信息加入到训练集列表中，每个轨迹包含第i个eSIM的状态信息、具体分配给第i个eSIM的带宽资源以及累计奖励值；C2,演员网络的更新方式其中θ'now为演员网络当前的参数，θ'new为更新后的参数，β为演员网络参数更新的学习率，设置为0.0001，其中，为演员网络的损失函数，是对当前参数求梯度，Ti为利用参数为θ的元学习器策略函数采样得到的轨迹，ri,t为T个时间步长的累计奖励值；评论家网络的更新方式其中，μnow为评论家网络当前的参数，μnew为更新后的参数，c为学习率，设置为0.0001，ViSi,t；μ-ri,t-ζViSi,t+1；μ表示评论家网络的损失函数，表示对损失函数求梯度，ViSi,t；μ、ViSi,t+1；μ分别为t时刻和t+1时刻的状态奖励函数，ri,t为t时刻的奖励函数；C3：重复上述步骤，每次执行完一个任务轨迹，从列表中删除这个轨迹信息，直至任务轨迹列表为空；C4，元学习器：策略函数πθai,t|si,t；θ的目的是根据当前的状态和前一时刻的奖励函数决策下一步执行每个动作的概率分布值，更新后的基学习器采样得到共m个轨迹的测试集其中Ditest包括第i个eSIM的状态，动作以及奖励值，采用梯度下降算法来对元学习器参数进行更新其中，θnow为第i个eSIM当前策略网络的参数，θnew为第i个eSIM更新后的策略网络参数，α为学习率，设置为0.0001，是元学习器的损失函数，是用Dtest中第i个轨迹对策略函数求梯度，T为采样轨迹，PT为采样任务的概率分布，执行m步，对元学习器参数更新m次；C5：元学习器参数更新完成后，继续从C1步骤开始执行，将元学习器的参数作为基学习器的初始化参数；其中，步骤D具体包括：D1，训练结束，得到一个资源安全调度策略，根据资源安全调度策略，利用安全速率比对每个eSIM资源安全调度方法进行评估；D2，构造查询集包括每个eSIM的状态信息、动作和累计奖励函数值，共T个轨迹，通过计算第i个eSIM用户的安全速率比，当安全速率比大于0是表示该资源调度方案是安全的，反之，则不安全；其中，步骤E具体包括：E1，当环境、总的带宽资源或者eSIM的信号发送功率等发生变化时，需要采集新的数据来对eSIM资源调度的策略进行微调，具体采集的数据Di＝{D1,D2,D3,D4}，D1，D2，D3，D4分别表示当前总的带宽资源、第i个eSIM的信号发送功率、信道中噪声和带宽占用情况；E2，从数据集中获取信道噪声功率、总带宽资源以及每个eSIM的信号发送功率，通过式子计算出第i个eSIM的安全速率比，并根据步骤A4构造奖励函数；E3，利用元学习器学习的参数对策略网络进行初始化，采用梯度下降算法对策略网络参数进行微调这里的步长设置为比元学习阶段大的，λ＝0.01；E4，重复上述步骤，直至模型收敛；E5，生成在新的通信场景中满足安全约束条件下的最优带宽资源调度策略。

全文数据：

权利要求：

百度查询：国网安徽省电力有限公司信息通信分公司 5G-A基于多智能体元强化学习eSIM安全调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种不等厚火山口玻璃后盖周抛方法

下一篇：一种黄芩病虫害识别系统及方法

相关技术

一种不等厚火山口玻璃后盖周抛方法

一种黄芩病虫害识别系统及方法

柔性石墨烯霍尔传感器及其制备方法

一种家具耐用性综合测试平台及其测试方法

一种人脸识别环卫作业电子工牌

电池单体、储能设备及用电装置

一种行星齿轮减速机

一种用于塑胶原料生产加工的除味装置

一种接地线缆开关状态检测装置和检测方法

一种重型机械龙门自动焊接装置

一种单元幕墙系统内嵌装饰线条的结构体系

一种基于突变适配体的快速检测食品中残留甲硝唑的方法

学习相关技术

基于深度学习的学习笔个性化辅导系统_深圳市博升电子发展有限公司_202410672308.4

机器学习装置、数据处理系统、推理装置以及机器学习方法_金子产业株式会社_202180021503.5

一种改进学习书桌_广东顺德聪聪网络科技有限公司_202420245783.9

一种英语学习专用板_山东理工职业学院_202323663439.6

联邦学习隐私保护方法及系统_中电科大数据研究院有限公司_202410837475.X

用于基于机器学习模型的内部状态来防止对机器学习模型的攻击的系统和方法_爱迪德技术有限公司_202410266231.0

图像处理方法、深度学习模型的训练方法_北京百度网讯科技有限公司_202410907645.7

基于深度学习的征迁范围识别方法_浙江省自然资源征收中心_202311156732.5

使用机器学习模型确定对象与人之间的关联_辉达公司_201980088877.1

深度学习多任务特征编码方法及其系统_中国电信股份有限公司_202110339644.3

eSIM相关技术

一种基于eSIM及北斗技术的计量通讯模块加密方法及系统_广西电网有限责任公司_202410758798.X

基于ESIM的车载无线通信方法_广东联想懂的通信有限公司_202411062170.2

一种POS终端eSIM卡远程烧录方法、装置、系统及存储介质_深圳市新国都支付技术有限公司_202410700180.8

5G-A基于多智能体元强化学习eSIM安全调度方法_国网安徽省电力有限公司信息通信分公司_202410556301.6

一种基于免APN配置的eSIM卡数据远程更新和握手方法_齐犇科技集团有限公司_202410610586.7

一种eSIM管理方法及其装置、存储介质_东信和平科技股份有限公司_202211674986.1

基于eSIM和5G的车载视频监控系统及其监控方法_浙江嘉兴数字城市实验室有限公司_202111063471.3

一种电力AMI系统SIM与eSIM智能切换方法及系统_威胜集团有限公司_202410696240.3

分布式电源5G-A通感算控一体eSIM安全接入方法_国网安徽省电力有限公司信息通信分公司_202410556303.5

一种基于eSIM和5G技术的多运营商切换系统及方法_广西电网有限责任公司_202410654134.9

强化相关技术

一种玻璃化学强化添加剂及玻璃化学强化方法_富联科技(兰考)有限公司_202211682655.2

一种透明盖板玻璃的制备强化方法_咸宁南玻光电玻璃有限公司_202410820649.1

一种基于深度强化学习的建筑方案能耗性能优化方法_上海宝冶集团有限公司_202410725188.X

一种多智能体强化学习可迁移的方法、装置以及设备_厦门渊亭信息科技有限公司_202411081505.5

具有边缘强化保护的便于拆装的光伏板装置_华能新能源股份有限公司山西分公司_202410839667.4

一种模拟大型环形锻件温锻变形强化效果的试验方法_天津重型装备工程研究有限公司_202410709499.7

基于深度强化学习的个性化学习推荐系统及方法_欣正实业发展总公司_202410589383.4

一种基于强化学习的圆形重建系统_集美大学_202410778739.9

基于深度强化学习人机共驾转向权重系数预测分配方法_南京航空航天大学_202410024719.2

基于协作知识图的强化负采样商品推荐模型_太原科技大学_202410823430.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

5G-A基于多智能体元强化学习eSIM安全调度方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务