首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于DQN的自适应hello间隔调节方法 

申请/专利权人:北京理工大学

申请日:2024-04-02

公开(公告)日:2024-06-25

公开(公告)号:CN118250764A

主分类号:H04W40/02

分类号:H04W40/02;H04W40/12;H04L45/02;G06N3/045;G06N3/092;G06N3/084;G06N3/048

优先权:

专利状态码:在审-公开

法律状态:2024.06.25#公开

摘要:本发明公开的一种基于DQN的自适应hello间隔调节方法,属于通信技术领域。本发明实现方法为:将时间轴划分成连续的定长时间周期;从网络环境中抽象得到强化学习的问题模型中的状态空间、动作空间和奖励函数;采用全连接的深度强化学习网络DQN作为神经网络框架;将NDN网络设置为环境模块,将深度强化学习网络DQN作为智能体模块;将智能体模块分为决策模块和训练模块两个部分;采用动作执行接口和环境反馈接口实现智能体与环境模块的交互;智能体利用衰减ε贪婪法作为动作选取策略,通过梯度下降法更新主神经网络,并将主神经网络的参数复制给目标神经网络,更新目标神经网路;将通信网络环境中的参数与智能体直接交互,进而实现hello间隔的自适应调节。

主权项:1.一种基于DQN的hello间隔自适应调节方法,其特征在于:包括以下步骤,步骤1、将时间轴划分成连续的定长时间周期,并定义NDN网络为与智能体交互的对象;用t,t+1,t+2,...表示时间周期的序号,并将对应时间周期的动作表示为at,at+1,at+2,...,环境状态表示为st,st+1,st+2,...,环境反馈的奖励表示为rt,rt+1,rt+2,...;步骤2、分析通信网络链路状态参数信息,选取当前时间周期的hello间隔、当前时间周期内节点执行路由表计算的平均次数RC、当前时间周期内的平均端到端时延DELAY和兴趣包成功交付率PDR作为状态空间s;定义用于调整下一时间周期hello间隔的动作空间a,同时将hello间隔限制在预设有效取值范围内作为约束条件;定义用于判断当前时间周期内通信网络服务质量是否优良的奖励函数reward。所述状态空间s、动作空间a和奖励函数reward用于后续步骤5训练深度强化学习网络DQN;步骤3、构建用于调节hello间隔的深度强化学习网络DQN,深度强化学习网络DQN采用全连接结构,包括1个输入层、2个隐藏层和一个输出层;输入层的输入是通信网络的状态空间s,输出是通信网络的状态空间s,使用修正线性单元ReLU作为激活函数处理输入层的输出;第一个隐藏层的输入为经过修正线性单元ReLU处理的输入层的输出,经过第一个隐藏层处理,使用修正线性单元ReLU作为激活函数处理第一个隐藏层的输出;第二个隐藏层的输入是经过修正线性单元ReLU处理的第一个隐藏层的输出,经过第二个隐藏层处理,使用恒等激活函数Identity作为激活函数处理第二个隐藏层的输出;输出层的输入是经过恒等激活函数Identity处理的第二个隐藏层的输出,输出层的输出是动作空间a的动作;输入层输入的是状态空间s,状态空间s的维度是4,输出层输出的是动作空间a,动作空间a的维度是5,因此实现了输入与输出之间的非线性映射,提升了深度强化学习网络DQN的处理能力;采用全连接的深度强化学习网络DQN根据获得的通信网络中关键参数组成的状态空间s,通过一个输入层、两个隐藏层和一个输出层的计算,最终选择动作空间的某一个动作作为下一个时间周期对通信网络中hello间隔的调节;步骤4、环境模块获取NDN网络中的状态空间参数,智能体模块获取环境模块的参数,通过两个深度神经网络进行计算,得到用于调节hello间隔的动作,完成hello间隔自适应调节;步骤5、将智能体模块细分为决策模块和训练模块两个部分,其中决策模块与环境模块交互,将观察到的环境模块的通信网络状态作为主神经网络Q的输入st,然后依据主神经网络的输出即当前Q值选择并执行动作at,即调节hello间隔定时器的具体动作;智能体训练模块包含两个深度强化学习网络DQN,一个是主神经网络,另一个是目标神经网络,主神经网络计算出当前Q值,目标神经网络计算出目标Q值,主神经网络与目标神经网络分别将当前Q值和目标Q值输出给损失函数,损失函数计算后,将更新权重的信息输出给主神经网络,主神经网络在下次计算当前Q值时将会做出相应的调整;智能体的决策模块与训练模块不断重复进行,每个时间周期内,智能体决策模块都会根据环境模块中观测到的通信网络状态,利用主神经网络计算出的当前Q值选择hello间隔调节的动作;步骤6、采用动作执行接口和环境反馈接口实现智能体与环境模块的交互,动作执行接口负责对各节点统一执行智能体输出的动作;环境反馈接口负责从整个环境模块中收集各节点的实时状态和通信网络的性能反馈,并从中抽象得到训练智能体所需的环境观测值和奖励大小;步骤7、在每个时间周期中,智能体利用衰减ε贪婪法作为动作选取策略,并将计算得到的ε值作为概率从动作空间中随机选取一个动作at,或以概率1-ε将当前状态st输入主神经网络Q中计算每个动作的Q值,选择Q值最大的动作at;经过一个时间周期后,智能体通过环境反馈接口得到当前时段的吞吐量和丢包率,计算出奖励rt,同时观察环境状态st+1,判断当前时间周期是否达到每回合最大值T,并设置结束标志is_donet;将当前时间周期的经验数据组合为st,at,rt,st+1,is_donet的形式,存入经验回放单元D,从经验回放单元随机取出数量为Nbatch的经验数据,对每条经验数据sj,aj,rj,sj+1,is_donej,将sj输入主神经网络得到当前Q值Qsj,aj;θ,将sj+1输入目标神经网络计算目标Q值yj,接着计算损失函数,并通过梯度下降法更新主神经网络;每隔Updfre个时间步后,把主神经网络的参数θ复制给目标神经网络,实现对目标神经网络的更新;步骤8、智能体将当前状态st更新为观察到的环境状态st+1,重新进行动作的选择和执行;当通信网络拓扑变化频繁时降低hello包的间隔,反之则增加hello包的间隔,实现将通信网络环境中的参数与智能体直接交互,能够在智能体与环境的不断交互中实现hello间隔的自适应调节;hello自适应调节方法能够避免通信网络在链路资源紧张的状态下,发送过多的hello包导致通信网络陷入死循环直至崩溃,同时也能够在通信网络资源充裕的情况下调节hello包的间隔大小,使得通信网络拓扑能够及时更新。

全文数据:

权利要求:

百度查询: 北京理工大学 一种基于DQN的自适应hello间隔调节方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。