首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种面向6G普惠智能服务的网络功能链自适应编排方法_贵州大学_202410342627.9 

申请/专利权人:贵州大学

申请日:2024-03-25

公开(公告)日:2024-06-18

公开(公告)号:CN117938669B

主分类号:H04L41/0895

分类号:H04L41/0895;H04L41/40;H04L41/14;H04L41/16;H04W16/18;H04W16/22;G06N3/092

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2024.05.14#实质审查的生效;2024.04.26#公开

摘要:本发明公开了一种面向6G普惠智能服务的网络功能链自适应编排方法,属于自适应网络功能链编排领域,包括步骤:S1,建立网络模型和服务请求模型,基于设备运行特定类型的VNF偏好和设备资源能力构建VNF与设备的关联关系模型,基于注意力机制建立NFC之间的注意力模型;S2,将网络功能链编排问题描述为整数优化模型;S3,将网络功能链的编排过程建模为分布式部分可观察马尔可夫过程,建立服务请求的状态空间、动作空间、整体环境奖励函数;S4,利用NFC间的注意力模型选择性地学习智能体的信息更新策略。本发明采用上述方法,通过关注关键资源和决策点,提高智能体在复杂SDN环境中的决策效率和准确性,减轻传统DRL方法中的训练成本和时间问题。

主权项:1.一种面向6G普惠智能服务的网络功能链自适应编排方法,其特征在于:包括以下步骤:S1,建立网络模型和服务请求模型,并且基于设备运行特定类型的VNF偏好和设备资源能力构建VNF与设备的关联关系模型,以及基于注意力机制建立NFC之间的注意力模型;S2,将网络功能链编排问题描述为整数优化模型,定义部署成本和资源成本,最小化VNF部署和NFC嵌入联合优化的运营成本,以最小化总的网络运营成本为目标;S3,将网络功能链的编排过程建模为分布式部分可观察马尔可夫过程,建立服务请求的状态空间、动作空间、整体环境奖励函数;S4,结合注意力机制的MAAC多智能RL算法解决S3中的马尔可夫过程,将NFC间注意力机制转化为智能体间注意力机制,并设计集中式训练和分布式的多智能体强化学习算法,利用NFC间的注意力模型选择性地学习智能体的信息更新策略,以实现服务功能链的动态部署得到最小化运营成本目标;步骤S1包括步骤S101、步骤S102和步骤S103,步骤S101中,针对NFC编排问题场景建立系统模型,系统模型主要由物理网络模型和服务请求模型组成;步骤S101包括步骤S1011和步骤S1012,步骤S1011:物理网络表示为加权无向图,其中N是物理节点的集合,总结点数为,节点集合表示为,是物理链路集合,表示物理节点和之间的物理链路,,和为指代物理设备的编号,表示链路连接的起始节点,而表示链路连接的目标节点;每个物理节点表示为,分别表示物理节点上的计算资源和内存资源容量,分别表示相应的计算资源和存储资源的资源利用率,链路表示为:,分别表示物理链路带宽和带宽利用率;步骤S1012:服务请求集合表示为,每个服务请求用指代,由预定义的一系列VNF组成,将其表示为有向服务功能图,表示VNF节点的集合,服务请求的第v个VNF请求用表示,,用集合表示为,、分别表示节点的计算和内存资源需求,设总的VNF类型集合为P,,表示VNF的类型为p,表示虚拟链路的集合,每条链路,表示VNF和之间的虚拟链路,其中和表示服务请求链的第v个和第u个VNF请求,且,表示服务请求需要的带宽资源,每个SFC请求最大时间延迟要求设为;步骤S102,建立VNF与设备的关联模型:定义二元变量,,表示q和p两种类型的VNF不存在冲突,能够部署在同一设备,,两种类型VNF相互冲突,不能在同一设备上部署;用符号判断设备能否部署p类型的VNF,计算如下: ;其中为二进制变量,当设备成功部署q类型的VNF为1,否则为0,当时设备部署p类型的VNF不会与设备上已部署的其它类型的VNF冲突,当设备禁止部署p类型的VNF;步骤S103,建立NFC之间的注意力模型:假设同时部署的NFC集合为,其中,中的第v个VNF遵循放置策略,定义表示当前网络状态,包括网络中各设备的计算、存储和带宽资源,以及已经部署的VNF类型,服务请求由封装其部署策略和网络状态上下文的嵌入向量表示: ;其中是嵌入函数,在个NFC并行处理中,令,基于注意力机制,NFC和之间的注意力权重计算公式如下: ;其中的计算方法如公式,投影将输入序列的特征进行线性变换,,,,将变换为查询,将变换为键,并且将变换成值;步骤S2包括步骤S201和步骤S202,步骤S201包括步骤S2011和步骤S2012,步骤S201中,分别定义部署成本和资源成本,部署成本根据不同的VNF类型变化,设p类型的VNF部署成本为,部署成本计算公式为: ;步骤S2011:部署服务请求在节点上的资源成本定义为: ;其中是一个二进制变量,表示服务请求的第个VNF成功嵌入到物理网络的节点,如果没有成功嵌入则;,、分别是节点的计算资源成本、存储资源成本,表示为: ;其中、分别为计算资源消耗达到峰值时的VNF花销和VNF空闲时的VNF花销,、分别为存储资源消耗达到峰值时的VNF花销和VNF空闲时的VNF花销,对于每个NFC实例,嵌入在多个设备上会产生在设备之间传输转换数据的通信成本,通信成本的计算需要明确传输速率,两个不同设备间的带宽表示为,因此基于香农公式获得传输速率为: ;其中以及表示链路传输功率、信道增益和加性白色高斯噪声,通过每个子信道传输数据的每秒单位成本表示为,因此链路总的通信成本计算公式为: ;其中是一个二进制变量,表示的虚拟链路成功嵌入物理链路,否则,网络中总的资源成本为: ;步骤S2012,建立延迟模型:时延包括节点处理时延和链路时延,假设每个节点的处理延迟为,则服务请求的总处理延迟表示为: ;网络功能链的链路延迟表示为: ;其中是链路上网络功能链的延迟,服务请求的响应延迟: ;其中为服务请求的总链路延迟,为服务请求的节点处理总时延;步骤S202:问题目标是最小化总的网络部署成本和资源成本,Cost表示最小化总成本,为: ; ; ; ; ; ;其中表示放置优先级的权重,约束为延迟约束,成功部署的VNF满足延迟的QoS要求,约束确保SFC中的每个VNF只能部署在单个VNF实例上,并且不能由多个VNF实例提供服务,约束和约束是对网络节点的资源容量约束,约束是对链路的资源约束;步骤S3包括步骤S301、步骤S302和步骤S303,步骤S3中,建立分布式部分可观察马尔可夫模型在时间t时刻的状态、动作、奖励:步骤S301:状态,在t时刻,所有智能体收集观察范围内的环境信息,公式为: , ;其中表示服务器在t时刻的剩余计算资源,计算公式为,和分别表示剩余存储空间和带宽资源,表示设备上部署的VNF类型集,表示设备与其他设备的接近度,计算公式为: ;其中表示节点和之间的欧几里德距离,表示链接中的跳数;步骤S302:动作,操作被定义为节点和链接选择,在每个时间步,代理选择服务器,决定VNF部署和资源分配,并选择当前和先前VNF之间跳数最少的资源最有效路径,公式为: ;步骤S303:奖励:在强化学习中,智能体的目标是最大化其收到的总奖励,使用接受率作为奖励,假设当服务请求满足时,判断网络功能链是否满足延迟要求,,否则成功,因此验收成功奖励设置为: ;定义奖励函数表示如下: ;引入了一个平衡系数,作用于分母的奖励函数,为调整因子;步骤S4包括步骤S401和步骤S402,步骤S401:令代理集合为,其中代理;是代理n的观察和动作的函数,以及其他代理的贡献: ;其中为两层多层感知器,为嵌入函数,为其它代理的贡献,由其它代理注意力权重计算: ; 为代理n对代理m的注意力权重,计算方式已有步骤S103描述NFC之间的注意力模型给出,计算公式为: ;如前所述,,,,将变换为查询,将变换为键,并且将变换成值,其中和计算公式如下: ; ;因此原式子中的放置策略和网络状态在强化学习中分别用代理的动作和代理观察的网络信息表示;步骤S402:多智能体强化学习算法采用集中训练分步执行的方法,利用actor-critic框架策略梯度算法,actor-critic框架具有两个关键组件actor和critic,actor组件用于实现分布执行,critic组件用于实现集中训练,将服务请求用户视作actor,actorr根据任务目标构建策略,策略由神经网络拟合,其参数为,actor通过选择动作,另一个组件critic则用于评价策略选取动作的价值;从物理网络的初始状态出发,服务请求用户不断与环境交互得到一个存放到经验回放区,为下一时刻的观察,当达到critic网络和策略网络的更新步数后,从重放缓冲区中采样一定数量的批量更新评论家网络,评论家网络更新利用MSE损失执行梯度下降来更新临界参数: ;其中,,是贴现因子,表示在状态采取动作所获得的奖励;代理n在和分别是目标批评者和目标策略的参数;是确定熵最大化和奖励之间的平衡的温度参数;表示的是对数据集中所有样本的期望值;表示代理n的下一时刻观察,表示下一时刻采取的动作;表示在观察下选择动作的概率,这个概率是根据策略参数决定的;表示在给定状态,根据策略对动作取期望值;actor网络更新通过执行如下梯度上升来最大化有关网络的方程中目标函数的梯度参数: ;其中表示对经验数据集中的观察和策略生成的动作求期望;表示对参数的梯度;公式中为优势函数,其中表达式如下所示: ;其中符号表示除代理之外的所有代理的集合;表示对策略在状态下选择的动作进行采样,然后对动作求期望值;使用下述方程更新critic的目标网络的参数,更新目标actor网络的参数,更新率设为,因此critic的目标网络参数和actor的目标网络参数的参数更新为: ; ;其中为当前critic网络的参数,等式右边为critic网络利用损失函数执行梯度下降后更新的网络参数;为当前actor网络的参数,等式右边为actor网络利用执行梯度上升后更新的网络参数。

全文数据:

权利要求:

百度查询: 贵州大学 一种面向6G普惠智能服务的网络功能链自适应编排方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。