基于强化学习的固定数据传输DSA方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：宁波大学

摘要：本发明公开了一种基于强化学习的固定数据传输DSA方法，其考虑一个填充式传输模型的场景，次级用户机会地接入授权给主用户的频段传输固定大小的数据包，其首先，引入了Mask向量概念，通过“遮盖”明确无法选择的动作，有效降低了强化学习过程中的探索复杂度；其次，对奖励值进行了分段加权处理，以更好地引导学习过程，从而获得更优的训练效果。本发明方法在稳定性方面表现出色，即使在场景中次级用户数量增加的情况下，依然能够保持高效的性能；此外，还显著降低了计算的复杂度，提升了接入的效率，使其在实际应用中更具可行性和实用性。

主权项：1.一种基于强化学习的固定数据传输DSA方法，其特征在于包括以下步骤：步骤1：在认知无线电系统的DSA网络中，设定使用填充式传输模型进行数据传输，且数据传输采用时隙传输方式；设定共有一个主基站、M个主用户、N个次级用户，主基站配备有M个正交信道，M个正交信道被一一对应授权给M个主用户，每个次级用户带有一个智能体；定义连续的T个时隙为一个周期，由连续的T个时隙构成一个请求间隔；其中，M≥1，N≥1；步骤2：将DSA网络建模为马尔可夫决策过程，在马尔可夫决策过程中，每个次级用户的智能体与一个环境交互，每个次级用户的智能体在一个时隙开始前观测环境获得观测状态，之后根据观测状态和策略，每个次级用户的智能体在这个时隙内从动作空间中选择一个动作，在动作完成后环境会发生改变，同时每个次级用户的智能体在这个时隙内得到奖励值，从而完成这个时隙的数据收集过程；其中，策略本质上是一个概率分布，用于反映观测状态下选择每个动作的概率，是次级用户的智能体在这个时隙内选择一个动作的依据；步骤3：在将DSA网络建模为马尔可夫决策过程后，使用深度强化学习D3QN算法同时进行所有次级用户的智能体的训练阶段，具体过程如下：步骤3.1：初始化所有次级用户的智能体使用的深度强化学习D3QN算法的算法参数；初始化所有次级用户的智能体各自对应的经验回放池；设定训练阶段共进行NUM个请求间隔；其中，NUM＞1；步骤3.2：对于第num个请求间隔，将这个请求间隔的第t个时隙作为当前时隙，每个次级用户的智能体在当前时隙开始前观测环境获得观测状态，第n个次级用户的智能体在当前时隙开始前观测环境获得的观测状态为中包含有由第t个时隙内所有正交信道的占用状态组成的向量Ct和在当前时隙开始前第n个次级用户还剩余的需传输的数据的大小其中，num的初始值为1，1≤num≤NUM，t的初始值为1；步骤3.3：根据每个次级用户的智能体在当前时隙开始前观测环境获得的观测状态，获取对应的Mask向量，将对应的Mask向量记为其中，onesM表示一个维度为1×M的全1行向量；步骤3.4：根据每个次级用户的智能体在当前时隙开始前观测环境获得的观测状态，并使用∈-greedy方法，每个次级用户的智能体在当前时隙内从动作空间中选择一个动作，第n个次级用户的智能体在当前时隙内从动作空间中选择的动作为然后每个次级用户的智能体在当前时隙内做出动作，在动作完成后环境会发生改变，同时每个次级用户的智能体在当前时隙内得到奖励值，第n个次级用户的智能体在当前时隙内得到的奖励值为接着每个次级用户的智能体在当前时隙的末尾即下一个时隙开始前观测环境获得观测状态，第n个次级用户的智能体在当前时隙的末尾即下一个时隙开始前观测环境获得的观测状态为中包含有由第t+1个时隙内所有正交信道的占用状态组成的向量Ct+1和在第t+1个时隙开始前第n个次级用户还剩余的需传输的数据的大小再根据每个次级用户的智能体在当前时隙的末尾即下一个时隙开始前观测环境获得的观测状态，获取对应的Mask向量，将对应的Mask向量记为步骤3.5：每个次级用户的智能体在当前时隙内将自身的记忆存储在自身的经验回放池中；其中，第n个次级用户的智能体在当前时隙的记忆为步骤3.6：每个次级用户的智能体根据检查数据是否已传输完毕，已传输完毕的次级用户的智能体停止，并等待其他未传输完毕的次级用户的智能体继续传输数据，对于第n个次级用户的智能体，若数据未传输完毕，则令t＝t+1，将这个请求间隔的第t个时隙作为当前时隙，然后返回步骤3.4继续执行；在这个请求间隔结束时，即使有次级用户的智能体还有数据未传输完毕也停止，再执行步骤3.7；其中，t＝t+1中的“＝”为赋值符号；步骤3.7：对于第n个次级用户的智能体，若第n个次级用户的智能体的经验回放池中的记忆已达到预设训练数量，那么第n个次级用户的智能体从自身的经验回放池中按预设训练数量随机抽取记忆；然后将抽取的所有记忆输入到深度强化学习D3QN算法的估计网络中，对估计网络进行训练，训练过程中估计网络获得每条记忆对应的Q估计值，同时将抽取的所有记忆输入到深度强化学习D3QN算法的目标网络中，目标网络得到每条记忆对应的Q目标值；再使每条记忆对应的Q估计值和Q目标值均经过Softmax后乘以得到每条记忆对应的新Q估计值和新Q目标值；之后根据每条记忆对应的新Q估计值和新Q目标值，计算每条记忆对应的损失，并更新估计网络的网络参数；最后将估计网络的更新后的网络参数复制到目标网络中后执行步骤3.8；若第n个次级用户的智能体的经验回放池中的记忆未达到预设训练数量，那么不进行训练，直接执行步骤3.8；步骤3.8：令num＝num+1，令t＝1，然后返回步骤3.2继续执行，直至NUM个请求间隔结束，完成了所有次级用户的智能体的训练阶段，得到了每个次级用户的智能体对应的训练好的D3QN模型；其中，num＝num+1中的“＝”为赋值符号；步骤4：将训练好的D3QN模型用于实施阶段，在实施阶段中，对于第n个次级用户的智能体，根据其对应的训练好的D3QN模型，自行在一个时隙开始前观测环境获得观测状态，在这个时隙内从动作空间中选择一个动作，并做出动作。

全文数据：

权利要求：

百度查询：宁波大学基于强化学习的固定数据传输DSA方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种带有封堵机构的注液套杯组件

下一篇：一种改善6061铝合金挤压性的均匀化热处理方法及其铸棒

相关技术

一种带有封堵机构的注液套杯组件

一种改善6061铝合金挤压性的均匀化热处理方法及其铸棒

一种电炉铁液随流孕育装置

一种便于安装的安防防盗报警装置

水封逆止阀及其使用方法

具有处于低速档的分动箱的混合动力的动力总成系统和操作

一种适用于垂直起降无人机的可折叠起落架

回环检测方法、装置、电子设备和存储介质

一种热管理系统及车辆

用于装置气溶胶生成系统的传感器

一种市政道路铺砖装置

一种玉米栽培供水装置

学习相关技术

基于深度学习的学习笔个性化辅导系统_深圳市博升电子发展有限公司_202410672308.4

机器学习装置、数据处理系统、推理装置以及机器学习方法_金子产业株式会社_202180021503.5

一种改进学习书桌_广东顺德聪聪网络科技有限公司_202420245783.9

一种英语学习专用板_山东理工职业学院_202323663439.6

联邦学习隐私保护方法及系统_中电科大数据研究院有限公司_202410837475.X

用于基于机器学习模型的内部状态来防止对机器学习模型的攻击的系统和方法_爱迪德技术有限公司_202410266231.0

图像处理方法、深度学习模型的训练方法_北京百度网讯科技有限公司_202410907645.7

基于深度学习的征迁范围识别方法_浙江省自然资源征收中心_202311156732.5

使用机器学习模型确定对象与人之间的关联_辉达公司_201980088877.1

深度学习多任务特征编码方法及其系统_中国电信股份有限公司_202110339644.3

固定相关技术

儿童输液固定架_海南省妇女儿童医学中心_202323279477.1

风扇固定结构_深圳市安卓微科技(集团)有限公司_202420205323.3

透析管路固定夹_安徽医科大学第二附属医院_202323496022.5

便于固定的制氧机_河南太乙医疗科技有限公司_202323283552.1

骨骼固定装置_武汉联影智融医疗科技有限公司_202310224203.8

导管固定装置_绵阳市中心医院_202410837998.4

便于固定的导引鞘_中国人民解放军陆军军医大学第一附属医院_201910111674.1

铜排固定装置_许继(厦门)智能电力设备股份有限公司_201711172996.4

管路固定装置_上海外高桥造船有限公司_202410840277.9

骨科内固定取出装置_贵州省人民医院_202410916469.3

DSA相关技术

基于CT引导的DSA激光辅助定位系统_赛诺威盛科技(北京)股份有限公司_202111391690.4

基于DSA图像的三维血管重建方法和装置_江苏集萃苏科思科技有限公司_202411036961.8

一种基于图像抑制的DSA图像3D重建方法及系统_华中科技大学同济医学院附属协和医院_202410547092.9

一种DSA检查加压滴注装置_丰都县人民医院_202010901673.X

一种DSA图像处理方法_复旦大学附属华山医院_202410495933.6

一种DSA导管床约束装置_徐州市中心医院_202323294943.3

3D DSA图像重建_皇家飞利浦有限公司_202280084630.4

基于平行动作网络结构PPO的DSA能耗优化方法_宁波大学_202410332389.3

DSA数据分析方法、装置及电子设备、计算机可读存储介质_北京惠泽智信科技有限公司_202410474920.0

基于强化学习的固定数据传输DSA方法_宁波大学_202410332473.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于强化学习的固定数据传输DSA方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务