首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于平行动作网络结构PPO的DSA能耗优化方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:宁波大学

摘要:本发明公开了一种基于平行动作网络结构PPO的DSA能耗优化方法,其考虑一个交织式接入模型的场景,由主基站作为集中控制,控制场景中各移动设备的接入信道和发射功率,从而传输固定大小的数据包,其将主基站智能体的神经网络进行分支,使其可以同时进行离散以及连续动作的选择,降低了动作空间的维度,从而避免维度诅咒,获得更好的训练效果;主基站的智能体在一个Episode内得到的奖励值是负值,在训练过程中这个负值越来越大,也就是能耗越来越小,达到了能耗优化的目的,不仅节省了传输时间也节省了传输能耗;此外,本发明方法还引入无人机辅助流量卸载,进一步降低了传输能耗。

主权项:1.一种基于平行动作网络结构PPO的DSA能耗优化方法,其特征在于包括以下步骤:步骤1:在认知无线电系统的DSA网络中,设定使用交织式接入模型进行数据传输,数据传输时传输开始到完成的过程定义为Episode;设定共有一个主基站、M个移动设备、一架无人机,主基站配备有一个智能体和K个正交信道,无人机也配备有一个智能体,主基站的智能体使用平行动作网络结构PPO算法,无人机的智能体使用标准的PPO算法;设定无人机与主基站或移动设备之间通信使用专属频段;其中,M≥1,K≥1,平行动作网络结构PPO算法和标准的PPO算法均是以表演家-批评家网络为基础的深度强化学习算法,平行动作网络结构PPO算法包括表演家网络和批评家网络,表演家网络由离散动作网络和连续动作网络组成,离散动作网络和连续动作网络以及批评家网络均由输入层、隐藏层和输出层组成,隐藏层包含两个全连接层,离散动作网络的隐藏层和输出层分为M个分支,平行动作网络结构PPO算法的表演家网络的结构称为平行动作网络结构;标准的PPO算法包括表演家网络和批评家网络,表演家网络和批评家网络均由输入层、隐藏层和输出层组成,隐藏层包含两个全连接层;步骤2:将DSA网络建模为马尔可夫决策过程,在马尔可夫决策过程中,主基站的智能体和无人机的智能体分别与环境交互,主基站的智能体和无人机的智能体在同一个Episode开始前各自观测环境获得各自的观测状态;之后根据主基站的智能体在这个Episode开始前观测环境获得的观测状态以及主基站的智能体自身的策略,主基站的智能体在这个Episode内从混合动作空间中选择一个混合动作,在混合动作完成后环境会发生改变,同时主基站的智能体在这个Episode内得到奖励值;同样,根据无人机的智能体在这个Episode开始前观测环境获得的观测状态以及无人机的智能体自身的策略,无人机的智能体在这个Episode内从单一动作空间中选择一个单一动作,在单一动作完成后环境会发生改变,同时无人机的智能体在这个Episode内得到奖励值;其中,混合动作空间由离散动作空间和连续动作空间组成,主基站的智能体在这个Episode内从离散动作空间中为每个移动设备选择一个离散动作,主基站的智能体在这个Episode内从连续动作空间中为每个移动设备选择一个连续动作,主基站的智能体在这个Episode内从离散动作空间中选择的所有离散动作和从连续动作空间中选择的所有连续动作构成混合动作,策略本质上是一个概率分布,用于反映观测状态下选择每个动作的概率,主基站的智能体自身的策略有两部分,一部分为离散动作网络相应的离散动作策略,另一部分为连续动作网络相应的连续动作策略,主基站的智能体在这个Episode内得到的奖励值是负值;步骤3:在将DSA网络建模为马尔可夫决策过程后,主基站的智能体使用平行动作网络结构PPO算法进行训练阶段,训练阶段的具体过程如下:步骤3.1.1:初始化主基站的智能体使用的平行动作网络结构PPO算法的算法参数;初始化主基站的智能体对应的经验回放池;设定训练阶段共进行I个循环,每个循环共进行T个Episode;其中,I>1,T>1;步骤3.1.2:对于第t个Episode,将第t个Episode作为当前Episode,主基站的智能体在当前Episode开始前观测环境获得观测状态其中,t的初始值为1,t=1,2,…,T;步骤3.1.3:根据主基站的智能体在当前Episode开始前观测环境获得的观测状态使用平行动作网络结构PPO算法,得到主基站的智能体在当前Episode内选择的混合动作然后主基站的智能体在当前Episode内做出混合动作在混合动作完成后,也就是所有移动设备的数据传输完成,环境会发生改变,同时主基站的智能体在当前Episode内得到奖励值接着主基站的智能体在当前Episode的末尾即下一个Episode开始前观测环境获得观测状态步骤3.1.4:主基站的智能体在当前Episode内将自身的记忆存储在自身的经验回放池中;其中,主基站的智能体在当前Episode内的记忆为步骤3.1.5:令t=t+1,将第t个Episode作为当前Episode,然后返回步骤3.1.3继续执行,直至一个循环所进行的T个Episode结束,再执行步骤3.1.6;其中,t=t+1中的“=”为赋值符号;步骤3.1.6:对主基站的智能体对应的经验回放池中的记忆进行重要性采样,更新平行动作网络结构PPO算法的表演家网络中的离散空间网络和连续空间网络以及批评家网络的网络参数,再执行步骤3.1.7;步骤3.1.7:令t=1,然后返回步骤3.1.2继续执行,直至I个循环结束,完成了主基站的智能体的训练阶段,得到了主基站的智能体对应的训练好的平行动作网络结构PPO模型;同步地,无人机的智能体使用标准的PPO算法进行训练阶段,训练阶段的具体过程如下:步骤3.2.1:初始化无人机的智能体使用的标准的PPO算法的算法参数;初始化无人机的智能体对应的经验回放池;设定训练阶段共进行I个循环,每个循环共进行T个Episode;其中,I>1,T>1;步骤3.2.2:对于第t个Episode,将第t个Episode作为当前Episode,无人机的智能体在当前Episode开始前观测环境获得观测状态其中,t的初始值为1,t=1,2,…,T;步骤3.2.3:根据无人机的智能体在当前Episode开始前观测环境获得的观测状态使用标准的PPO算法,得到无人机的智能体在当前Episode内选择的单一动作然后无人机的智能体在当前Episode内做出单一动作在单一动作完成后,也就是所有移动设备的数据传输完成,环境会发生改变,同时无人机的智能体在当前Episode内得到奖励值接着无人机的智能体在当前Episode的末尾即下一个Episode开始前观测环境获得观测状态步骤3.2.4:无人机的智能体在当前Episode内将自身的记忆存储在自身的经验回放池中;其中,无人机的智能体在当前Episode内的记忆为步骤3.2.5:令t=t+1,将第t个Episode作为当前Episode,然后返回步骤3.2.3继续执行,直至一个循环所进行的T个Episode结束,再执行步骤3.2.6;其中,t=t+1中的“=”为赋值符号;步骤3.2.6:对无人机的智能体对应的经验回放池中的记忆进行重要性采样,更新PPO算法的表演家网络以及批评家网络的网络参数,再执行步骤3.2.7;步骤3.2.7:令t=1,然后返回步骤3.2.2继续执行,直至I个循环结束,完成了无人机的智能体的训练阶段,得到了无人机的智能体对应的训练好的PPO模型;步骤4:将训练好的平行动作网络结构PPO模型和训练好的PPO模型用于实施阶段,在实施阶段中,对于主基站的智能体,根据其对应的训练好的平行动作网络结构PPO模型,自行在一个Episode开始前观测环境获得观测状态,在这个Episode内从混合动作空间中选择一个混合动作,并做出混合动作;同时,对于无人机的智能体,根据其对应的训练好的PPO模型,自行在一个Episode开始前观测环境获得观测状态,在这个Episode内从单一动作空间中选择一个单一动作,并做出单一动作。

全文数据:

权利要求:

百度查询: 宁波大学 基于平行动作网络结构PPO的DSA能耗优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。