一种基于DQN的自适应hello间隔调节方法

导航：龙图腾网> 最新专利技术> 一种基于DQN的自适应hello间隔调节方法

申请/专利权人：北京理工大学

申请日：2024-04-02

公开（公告）日：2024-06-25

公开（公告）号：CN118250764A

主分类号：H04W40/02

分类号：H04W40/02;H04W40/12;H04L45/02;G06N3/045;G06N3/092;G06N3/084;G06N3/048

优先权：

专利状态码：在审-公开

法律状态：2024.06.25#公开

摘要：本发明公开的一种基于DQN的自适应hello间隔调节方法，属于通信技术领域。本发明实现方法为：将时间轴划分成连续的定长时间周期；从网络环境中抽象得到强化学习的问题模型中的状态空间、动作空间和奖励函数；采用全连接的深度强化学习网络DQN作为神经网络框架；将NDN网络设置为环境模块，将深度强化学习网络DQN作为智能体模块；将智能体模块分为决策模块和训练模块两个部分；采用动作执行接口和环境反馈接口实现智能体与环境模块的交互；智能体利用衰减ε贪婪法作为动作选取策略，通过梯度下降法更新主神经网络，并将主神经网络的参数复制给目标神经网络，更新目标神经网路；将通信网络环境中的参数与智能体直接交互，进而实现hello间隔的自适应调节。

主权项：1.一种基于DQN的hello间隔自适应调节方法，其特征在于：包括以下步骤，步骤1、将时间轴划分成连续的定长时间周期，并定义NDN网络为与智能体交互的对象；用t,t+1,t+2,...表示时间周期的序号，并将对应时间周期的动作表示为at,at+1,at+2,...，环境状态表示为st,st+1,st+2,...，环境反馈的奖励表示为rt,rt+1,rt+2,...；步骤2、分析通信网络链路状态参数信息，选取当前时间周期的hello间隔、当前时间周期内节点执行路由表计算的平均次数RC、当前时间周期内的平均端到端时延DELAY和兴趣包成功交付率PDR作为状态空间s；定义用于调整下一时间周期hello间隔的动作空间a，同时将hello间隔限制在预设有效取值范围内作为约束条件；定义用于判断当前时间周期内通信网络服务质量是否优良的奖励函数reward。所述状态空间s、动作空间a和奖励函数reward用于后续步骤5训练深度强化学习网络DQN；步骤3、构建用于调节hello间隔的深度强化学习网络DQN，深度强化学习网络DQN采用全连接结构，包括1个输入层、2个隐藏层和一个输出层；输入层的输入是通信网络的状态空间s，输出是通信网络的状态空间s，使用修正线性单元ReLU作为激活函数处理输入层的输出；第一个隐藏层的输入为经过修正线性单元ReLU处理的输入层的输出，经过第一个隐藏层处理，使用修正线性单元ReLU作为激活函数处理第一个隐藏层的输出；第二个隐藏层的输入是经过修正线性单元ReLU处理的第一个隐藏层的输出，经过第二个隐藏层处理，使用恒等激活函数Identity作为激活函数处理第二个隐藏层的输出；输出层的输入是经过恒等激活函数Identity处理的第二个隐藏层的输出，输出层的输出是动作空间a的动作；输入层输入的是状态空间s，状态空间s的维度是4，输出层输出的是动作空间a，动作空间a的维度是5，因此实现了输入与输出之间的非线性映射，提升了深度强化学习网络DQN的处理能力；采用全连接的深度强化学习网络DQN根据获得的通信网络中关键参数组成的状态空间s，通过一个输入层、两个隐藏层和一个输出层的计算，最终选择动作空间的某一个动作作为下一个时间周期对通信网络中hello间隔的调节；步骤4、环境模块获取NDN网络中的状态空间参数，智能体模块获取环境模块的参数，通过两个深度神经网络进行计算，得到用于调节hello间隔的动作，完成hello间隔自适应调节；步骤5、将智能体模块细分为决策模块和训练模块两个部分，其中决策模块与环境模块交互，将观察到的环境模块的通信网络状态作为主神经网络Q的输入st，然后依据主神经网络的输出即当前Q值选择并执行动作at，即调节hello间隔定时器的具体动作；智能体训练模块包含两个深度强化学习网络DQN，一个是主神经网络，另一个是目标神经网络，主神经网络计算出当前Q值，目标神经网络计算出目标Q值，主神经网络与目标神经网络分别将当前Q值和目标Q值输出给损失函数，损失函数计算后，将更新权重的信息输出给主神经网络，主神经网络在下次计算当前Q值时将会做出相应的调整；智能体的决策模块与训练模块不断重复进行，每个时间周期内，智能体决策模块都会根据环境模块中观测到的通信网络状态，利用主神经网络计算出的当前Q值选择hello间隔调节的动作；步骤6、采用动作执行接口和环境反馈接口实现智能体与环境模块的交互，动作执行接口负责对各节点统一执行智能体输出的动作；环境反馈接口负责从整个环境模块中收集各节点的实时状态和通信网络的性能反馈，并从中抽象得到训练智能体所需的环境观测值和奖励大小；步骤7、在每个时间周期中，智能体利用衰减ε贪婪法作为动作选取策略，并将计算得到的ε值作为概率从动作空间中随机选取一个动作at，或以概率1-ε将当前状态st输入主神经网络Q中计算每个动作的Q值，选择Q值最大的动作at；经过一个时间周期后，智能体通过环境反馈接口得到当前时段的吞吐量和丢包率，计算出奖励rt，同时观察环境状态st+1，判断当前时间周期是否达到每回合最大值T，并设置结束标志is_donet；将当前时间周期的经验数据组合为st,at,rt,st+1,is_donet的形式，存入经验回放单元D，从经验回放单元随机取出数量为Nbatch的经验数据，对每条经验数据sj,aj,rj,sj+1,is_donej，将sj输入主神经网络得到当前Q值Qsj,aj；θ，将sj+1输入目标神经网络计算目标Q值yj，接着计算损失函数，并通过梯度下降法更新主神经网络；每隔Updfre个时间步后，把主神经网络的参数θ复制给目标神经网络，实现对目标神经网络的更新；步骤8、智能体将当前状态st更新为观察到的环境状态st+1，重新进行动作的选择和执行；当通信网络拓扑变化频繁时降低hello包的间隔，反之则增加hello包的间隔，实现将通信网络环境中的参数与智能体直接交互，能够在智能体与环境的不断交互中实现hello间隔的自适应调节；hello自适应调节方法能够避免通信网络在链路资源紧张的状态下，发送过多的hello包导致通信网络陷入死循环直至崩溃，同时也能够在通信网络资源充裕的情况下调节hello包的间隔大小，使得通信网络拓扑能够及时更新。

全文数据：

权利要求：

百度查询：北京理工大学一种基于DQN的自适应hello间隔调节方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种茶叶生产用高效翻炒装置

下一篇：一种可移动式智能温控糖化槽生产线

相关技术

一种茶叶生产用高效翻炒装置

一种可移动式智能温控糖化槽生产线

一种巡检方便的电容补偿柜

一种酶转化罐内部恒温搅拌机构

一种双向限位器

一种摆动机构及鼓风干燥箱

生产混凝土用碎石仓

一种空调器自清洁系统油污沉淀装置

一种纸尿裤生产用包边机

一种泡菜水检测用的取样装置

一种单双缸风冷柴油机发电机组吸排汇流冷却风道

一种连续制备五氯化磷的装置

hello相关技术

基于hello包和惯性导航的运动节点DOA估计方法_天地信息网络研究院(安徽)有限公司_202310623162.X

Hello报文传输方法、装置和可读存储介质_华为技术有限公司_202010331166.7

一种Hello消息处理方法及装置_中兴通讯股份有限公司_201610565232.0

Hello报文传输方法、装置和可读存储介质_华为技术有限公司_202010331166.7

一种基于NETCONF协议的HELLO报文交互的方法、设备和系统_南京中兴软件有限责任公司_201410345004.3

贪婪地理路由协议Hello报文交换方法_江西理工大学_201610416214.6

为具有平滑重启能力的邻居使用RVSP HELLO抑制的系统和方法_阿尔卡特朗讯公司_201380039529.8

一种Hello消息处理方法及装置_中兴通讯股份有限公司_201610565232.0

一种Fast‑Hello报文的传输方法和设备_新华三技术有限公司_201410302344.8

一种优先发送/接收HELLO报文的方法及路由设备_中兴通讯股份有限公司_201510249988.X

间隔相关技术

调节帧间隔的方法和装置_荣耀终端有限公司_202410228016.1

一种玻璃基板间隔膜用取膜装置_彩虹(合肥)液晶玻璃有限公司_202322542300.X

一种252kV组合电器小型化母联母设间隔_山东泰开高压开关有限公司_202323045884.6

一种改善间隔纸折纸的侧边传送带结构_彩虹(合肥)液晶玻璃有限公司_202322918586.7

适于多间隔多漏点的GIS设备全天候补气装置_国网江苏省电力有限公司常州供电分公司_201910361404.6

一种中空玻璃4SG暖边间隔条压合机_山东沃能德数控机械有限公司_202322928295.6

一种便于拆装的开槽式卫生间隔断型材组件_甘肃百优雄关新型建材有限公司_202322927226.3

一种酒店装饰用卫生间隔断机构_南京远尚卓科技有限公司_202111667421.6

一种基于惯容减振原理的防舞相间间隔棒_东北电力大学_202410538526.9

一种无极可调式防舞动的相间间隔棒_固力发电气有限公司_202410481510.9

自适应相关技术

自适应负压吸附装置_北京欧美利华科技有限公司_202323338533.4

自适应调节的除锈装置_青岛北船管业有限责任公司_202323049786.X

自适应无线充电方法和系统_华南师范大学_202410516702.9

一种工件自适应快速压紧装置_中裕铁信交通科技股份有限公司_202323217765.4

一种机床自适应控制方法及系统_东莞钧腾新材料有限公司_202410343342.7

自适应信道估计方法、装置及介质_中国联合网络通信集团有限公司_202410430465.4

底盘自适应调节方法、装置、设备和存储介质_华人运通(山东)科技有限公司_202211689497.3

一种节能自适应的泵站控制方法_广西联环生态科技有限公司_202210953323.7

自适应的机器人导航方法和装置_珠海一维弦机器人有限公司_202010796261.4

智慧路灯照明自适应控制系统及方法_菲鹏达科技有限公司_202410464743.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于DQN的自适应hello间隔调节方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务