首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于强化学习的固定数据传输DSA方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:宁波大学

摘要:本发明公开了一种基于强化学习的固定数据传输DSA方法,其考虑一个填充式传输模型的场景,次级用户机会地接入授权给主用户的频段传输固定大小的数据包,其首先,引入了Mask向量概念,通过“遮盖”明确无法选择的动作,有效降低了强化学习过程中的探索复杂度;其次,对奖励值进行了分段加权处理,以更好地引导学习过程,从而获得更优的训练效果。本发明方法在稳定性方面表现出色,即使在场景中次级用户数量增加的情况下,依然能够保持高效的性能;此外,还显著降低了计算的复杂度,提升了接入的效率,使其在实际应用中更具可行性和实用性。

主权项:1.一种基于强化学习的固定数据传输DSA方法,其特征在于包括以下步骤:步骤1:在认知无线电系统的DSA网络中,设定使用填充式传输模型进行数据传输,且数据传输采用时隙传输方式;设定共有一个主基站、M个主用户、N个次级用户,主基站配备有M个正交信道,M个正交信道被一一对应授权给M个主用户,每个次级用户带有一个智能体;定义连续的T个时隙为一个周期,由连续的T个时隙构成一个请求间隔;其中,M≥1,N≥1;步骤2:将DSA网络建模为马尔可夫决策过程,在马尔可夫决策过程中,每个次级用户的智能体与一个环境交互,每个次级用户的智能体在一个时隙开始前观测环境获得观测状态,之后根据观测状态和策略,每个次级用户的智能体在这个时隙内从动作空间中选择一个动作,在动作完成后环境会发生改变,同时每个次级用户的智能体在这个时隙内得到奖励值,从而完成这个时隙的数据收集过程;其中,策略本质上是一个概率分布,用于反映观测状态下选择每个动作的概率,是次级用户的智能体在这个时隙内选择一个动作的依据;步骤3:在将DSA网络建模为马尔可夫决策过程后,使用深度强化学习D3QN算法同时进行所有次级用户的智能体的训练阶段,具体过程如下:步骤3.1:初始化所有次级用户的智能体使用的深度强化学习D3QN算法的算法参数;初始化所有次级用户的智能体各自对应的经验回放池;设定训练阶段共进行NUM个请求间隔;其中,NUM>1;步骤3.2:对于第num个请求间隔,将这个请求间隔的第t个时隙作为当前时隙,每个次级用户的智能体在当前时隙开始前观测环境获得观测状态,第n个次级用户的智能体在当前时隙开始前观测环境获得的观测状态为中包含有由第t个时隙内所有正交信道的占用状态组成的向量Ct和在当前时隙开始前第n个次级用户还剩余的需传输的数据的大小其中,num的初始值为1,1≤num≤NUM,t的初始值为1;步骤3.3:根据每个次级用户的智能体在当前时隙开始前观测环境获得的观测状态,获取对应的Mask向量,将对应的Mask向量记为其中,onesM表示一个维度为1×M的全1行向量;步骤3.4:根据每个次级用户的智能体在当前时隙开始前观测环境获得的观测状态,并使用∈-greedy方法,每个次级用户的智能体在当前时隙内从动作空间中选择一个动作,第n个次级用户的智能体在当前时隙内从动作空间中选择的动作为然后每个次级用户的智能体在当前时隙内做出动作,在动作完成后环境会发生改变,同时每个次级用户的智能体在当前时隙内得到奖励值,第n个次级用户的智能体在当前时隙内得到的奖励值为接着每个次级用户的智能体在当前时隙的末尾即下一个时隙开始前观测环境获得观测状态,第n个次级用户的智能体在当前时隙的末尾即下一个时隙开始前观测环境获得的观测状态为中包含有由第t+1个时隙内所有正交信道的占用状态组成的向量Ct+1和在第t+1个时隙开始前第n个次级用户还剩余的需传输的数据的大小再根据每个次级用户的智能体在当前时隙的末尾即下一个时隙开始前观测环境获得的观测状态,获取对应的Mask向量,将对应的Mask向量记为步骤3.5:每个次级用户的智能体在当前时隙内将自身的记忆存储在自身的经验回放池中;其中,第n个次级用户的智能体在当前时隙的记忆为步骤3.6:每个次级用户的智能体根据检查数据是否已传输完毕,已传输完毕的次级用户的智能体停止,并等待其他未传输完毕的次级用户的智能体继续传输数据,对于第n个次级用户的智能体,若数据未传输完毕,则令t=t+1,将这个请求间隔的第t个时隙作为当前时隙,然后返回步骤3.4继续执行;在这个请求间隔结束时,即使有次级用户的智能体还有数据未传输完毕也停止,再执行步骤3.7;其中,t=t+1中的“=”为赋值符号;步骤3.7:对于第n个次级用户的智能体,若第n个次级用户的智能体的经验回放池中的记忆已达到预设训练数量,那么第n个次级用户的智能体从自身的经验回放池中按预设训练数量随机抽取记忆;然后将抽取的所有记忆输入到深度强化学习D3QN算法的估计网络中,对估计网络进行训练,训练过程中估计网络获得每条记忆对应的Q估计值,同时将抽取的所有记忆输入到深度强化学习D3QN算法的目标网络中,目标网络得到每条记忆对应的Q目标值;再使每条记忆对应的Q估计值和Q目标值均经过Softmax后乘以得到每条记忆对应的新Q估计值和新Q目标值;之后根据每条记忆对应的新Q估计值和新Q目标值,计算每条记忆对应的损失,并更新估计网络的网络参数;最后将估计网络的更新后的网络参数复制到目标网络中后执行步骤3.8;若第n个次级用户的智能体的经验回放池中的记忆未达到预设训练数量,那么不进行训练,直接执行步骤3.8;步骤3.8:令num=num+1,令t=1,然后返回步骤3.2继续执行,直至NUM个请求间隔结束,完成了所有次级用户的智能体的训练阶段,得到了每个次级用户的智能体对应的训练好的D3QN模型;其中,num=num+1中的“=”为赋值符号;步骤4:将训练好的D3QN模型用于实施阶段,在实施阶段中,对于第n个次级用户的智能体,根据其对应的训练好的D3QN模型,自行在一个时隙开始前观测环境获得观测状态,在这个时隙内从动作空间中选择一个动作,并做出动作。

全文数据:

权利要求:

百度查询: 宁波大学 基于强化学习的固定数据传输DSA方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。