基于平行动作网络结构PPO的DSA能耗优化方法

导航：龙图腾网> 最新专利技术> 基于平行动作网络结构PPO的DSA能耗优化方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：宁波大学

摘要：本发明公开了一种基于平行动作网络结构PPO的DSA能耗优化方法，其考虑一个交织式接入模型的场景，由主基站作为集中控制，控制场景中各移动设备的接入信道和发射功率，从而传输固定大小的数据包，其将主基站智能体的神经网络进行分支，使其可以同时进行离散以及连续动作的选择，降低了动作空间的维度，从而避免维度诅咒，获得更好的训练效果；主基站的智能体在一个Episode内得到的奖励值是负值，在训练过程中这个负值越来越大，也就是能耗越来越小，达到了能耗优化的目的，不仅节省了传输时间也节省了传输能耗；此外，本发明方法还引入无人机辅助流量卸载，进一步降低了传输能耗。

主权项：1.一种基于平行动作网络结构PPO的DSA能耗优化方法，其特征在于包括以下步骤：步骤1：在认知无线电系统的DSA网络中，设定使用交织式接入模型进行数据传输，数据传输时传输开始到完成的过程定义为Episode；设定共有一个主基站、M个移动设备、一架无人机，主基站配备有一个智能体和K个正交信道，无人机也配备有一个智能体，主基站的智能体使用平行动作网络结构PPO算法，无人机的智能体使用标准的PPO算法；设定无人机与主基站或移动设备之间通信使用专属频段；其中，M≥1，K≥1，平行动作网络结构PPO算法和标准的PPO算法均是以表演家-批评家网络为基础的深度强化学习算法，平行动作网络结构PPO算法包括表演家网络和批评家网络，表演家网络由离散动作网络和连续动作网络组成，离散动作网络和连续动作网络以及批评家网络均由输入层、隐藏层和输出层组成，隐藏层包含两个全连接层，离散动作网络的隐藏层和输出层分为M个分支，平行动作网络结构PPO算法的表演家网络的结构称为平行动作网络结构；标准的PPO算法包括表演家网络和批评家网络，表演家网络和批评家网络均由输入层、隐藏层和输出层组成，隐藏层包含两个全连接层；步骤2：将DSA网络建模为马尔可夫决策过程，在马尔可夫决策过程中，主基站的智能体和无人机的智能体分别与环境交互，主基站的智能体和无人机的智能体在同一个Episode开始前各自观测环境获得各自的观测状态；之后根据主基站的智能体在这个Episode开始前观测环境获得的观测状态以及主基站的智能体自身的策略，主基站的智能体在这个Episode内从混合动作空间中选择一个混合动作，在混合动作完成后环境会发生改变，同时主基站的智能体在这个Episode内得到奖励值；同样，根据无人机的智能体在这个Episode开始前观测环境获得的观测状态以及无人机的智能体自身的策略，无人机的智能体在这个Episode内从单一动作空间中选择一个单一动作，在单一动作完成后环境会发生改变，同时无人机的智能体在这个Episode内得到奖励值；其中，混合动作空间由离散动作空间和连续动作空间组成，主基站的智能体在这个Episode内从离散动作空间中为每个移动设备选择一个离散动作，主基站的智能体在这个Episode内从连续动作空间中为每个移动设备选择一个连续动作，主基站的智能体在这个Episode内从离散动作空间中选择的所有离散动作和从连续动作空间中选择的所有连续动作构成混合动作，策略本质上是一个概率分布，用于反映观测状态下选择每个动作的概率，主基站的智能体自身的策略有两部分，一部分为离散动作网络相应的离散动作策略，另一部分为连续动作网络相应的连续动作策略，主基站的智能体在这个Episode内得到的奖励值是负值；步骤3：在将DSA网络建模为马尔可夫决策过程后，主基站的智能体使用平行动作网络结构PPO算法进行训练阶段，训练阶段的具体过程如下：步骤3.1.1：初始化主基站的智能体使用的平行动作网络结构PPO算法的算法参数；初始化主基站的智能体对应的经验回放池；设定训练阶段共进行I个循环，每个循环共进行T个Episode；其中，I＞1，T＞1；步骤3.1.2：对于第t个Episode，将第t个Episode作为当前Episode，主基站的智能体在当前Episode开始前观测环境获得观测状态其中，t的初始值为1，t＝1,2,…,T；步骤3.1.3：根据主基站的智能体在当前Episode开始前观测环境获得的观测状态使用平行动作网络结构PPO算法，得到主基站的智能体在当前Episode内选择的混合动作然后主基站的智能体在当前Episode内做出混合动作在混合动作完成后，也就是所有移动设备的数据传输完成，环境会发生改变，同时主基站的智能体在当前Episode内得到奖励值接着主基站的智能体在当前Episode的末尾即下一个Episode开始前观测环境获得观测状态步骤3.1.4：主基站的智能体在当前Episode内将自身的记忆存储在自身的经验回放池中；其中，主基站的智能体在当前Episode内的记忆为步骤3.1.5：令t＝t+1，将第t个Episode作为当前Episode，然后返回步骤3.1.3继续执行，直至一个循环所进行的T个Episode结束，再执行步骤3.1.6；其中，t＝t+1中的“＝”为赋值符号；步骤3.1.6：对主基站的智能体对应的经验回放池中的记忆进行重要性采样，更新平行动作网络结构PPO算法的表演家网络中的离散空间网络和连续空间网络以及批评家网络的网络参数，再执行步骤3.1.7；步骤3.1.7：令t＝1，然后返回步骤3.1.2继续执行，直至I个循环结束，完成了主基站的智能体的训练阶段，得到了主基站的智能体对应的训练好的平行动作网络结构PPO模型；同步地，无人机的智能体使用标准的PPO算法进行训练阶段，训练阶段的具体过程如下：步骤3.2.1：初始化无人机的智能体使用的标准的PPO算法的算法参数；初始化无人机的智能体对应的经验回放池；设定训练阶段共进行I个循环，每个循环共进行T个Episode；其中，I＞1，T＞1；步骤3.2.2：对于第t个Episode，将第t个Episode作为当前Episode，无人机的智能体在当前Episode开始前观测环境获得观测状态其中，t的初始值为1，t＝1,2,…,T；步骤3.2.3：根据无人机的智能体在当前Episode开始前观测环境获得的观测状态使用标准的PPO算法，得到无人机的智能体在当前Episode内选择的单一动作然后无人机的智能体在当前Episode内做出单一动作在单一动作完成后，也就是所有移动设备的数据传输完成，环境会发生改变，同时无人机的智能体在当前Episode内得到奖励值接着无人机的智能体在当前Episode的末尾即下一个Episode开始前观测环境获得观测状态步骤3.2.4：无人机的智能体在当前Episode内将自身的记忆存储在自身的经验回放池中；其中，无人机的智能体在当前Episode内的记忆为步骤3.2.5：令t＝t+1，将第t个Episode作为当前Episode，然后返回步骤3.2.3继续执行，直至一个循环所进行的T个Episode结束，再执行步骤3.2.6；其中，t＝t+1中的“＝”为赋值符号；步骤3.2.6：对无人机的智能体对应的经验回放池中的记忆进行重要性采样，更新PPO算法的表演家网络以及批评家网络的网络参数，再执行步骤3.2.7；步骤3.2.7：令t＝1，然后返回步骤3.2.2继续执行，直至I个循环结束，完成了无人机的智能体的训练阶段，得到了无人机的智能体对应的训练好的PPO模型；步骤4：将训练好的平行动作网络结构PPO模型和训练好的PPO模型用于实施阶段，在实施阶段中，对于主基站的智能体，根据其对应的训练好的平行动作网络结构PPO模型，自行在一个Episode开始前观测环境获得观测状态，在这个Episode内从混合动作空间中选择一个混合动作，并做出混合动作；同时，对于无人机的智能体，根据其对应的训练好的PPO模型，自行在一个Episode开始前观测环境获得观测状态，在这个Episode内从单一动作空间中选择一个单一动作，并做出单一动作。

全文数据：

权利要求：

百度查询：宁波大学基于平行动作网络结构PPO的DSA能耗优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种Z型气动吸附的执行器结构

下一篇：一种神经内科用可缓解神经痛的助眠装置

相关技术

一种Z型气动吸附的执行器结构

一种神经内科用可缓解神经痛的助眠装置

一种铝基制冷散热片及其制备方法

通信方法、装置、存储介质及程序产品

一种接地线缆开关状态检测装置和检测方法

一种页面构建方法和系统

一种家具耐用性综合测试平台及其测试方法

一种大数据检索方法、装置以及可读存储介质

用于机动车的前照灯

一种基于固体废物的晶须增强免烧多孔陶瓷及其制备方法

一种采空区储、净矿井水的方法

声纳图像的可视化处理方法、系统和计算装置

DSA相关技术

基于CT引导的DSA激光辅助定位系统_赛诺威盛科技(北京)股份有限公司_202111391690.4

基于DSA图像的三维血管重建方法和装置_江苏集萃苏科思科技有限公司_202411036961.8

一种基于图像抑制的DSA图像3D重建方法及系统_华中科技大学同济医学院附属协和医院_202410547092.9

一种DSA检查加压滴注装置_丰都县人民医院_202010901673.X

一种DSA图像处理方法_复旦大学附属华山医院_202410495933.6

一种DSA导管床约束装置_徐州市中心医院_202323294943.3

3D DSA图像重建_皇家飞利浦有限公司_202280084630.4

基于平行动作网络结构PPO的DSA能耗优化方法_宁波大学_202410332389.3

DSA数据分析方法、装置及电子设备、计算机可读存储介质_北京惠泽智信科技有限公司_202410474920.0

基于强化学习的固定数据传输DSA方法_宁波大学_202410332473.5

PPO相关技术

一种耐热抗冲击的PPO合金和制备工艺_特立孚塑料(广州)有限公司_202410841716.8

NtSGS3a基因在调控PPO7和PPO8基因沉默效果中的应用和方法_河南农业大学_202410645673.6

一种耐高温、低析出无卤阻燃PPO/PA合金材料及其制备方法_中广核俊尔(浙江)新材料有限公司_202410750749.1

一种PPO塑料造粒用的切割装置_福建华塑新材料有限公司_202323293437.2

无卤阻燃增强PPO/PPA合金材料及其制备方法_浙江新力新材料股份有限公司_202211743122.0

一种基于GIN-PPO算法的资源受限项目调度方法_成都飞机工业(集团)有限责任公司_202410486260.8

一种基于LSTM-PPO算法的分布式能源系统能量调度优化方法_国网江苏省电力有限公司经济技术研究院_202410518992.0

基于聚类PPO算法的多移动机器人合作的路径规划方法_南京理工大学_202410036441.0

一种基于SE-PPO算法的无人机路径规划方法_重庆大学_202410442591.1

一种基于PPO算法的多能源管理方法及装置_航天柏克(广东)科技有限公司_202410484671.3

能耗相关技术

一种碳中和能耗监测管理平台_安徽光谷智能科技股份有限公司_202410820915.0

建筑能耗信息处理方法及系统_润弘精密工程事业股份有限公司_201910978316.0

一种基站能耗控制方法与系统_浙江省邮电工程建设有限公司_202410766441.6

基于机床能耗的表面残余应力监测方法_重庆大学_202111349342.0

一种新能源能耗监测装置及系统_北京国华世纪电子科技有限公司_202411114846.8

一种玻璃能耗测量方法及装置_华北水利水电大学_202011162640.4

一种装配式低能耗免拆墙体模块_北京玛雅科技有限公司_202310216351.5

基于预测及经验回放的DDQN的空调系统综合能耗优化方法_浙江恒隆智慧科技集团有限公司_202411105631.X

一种用于加工板式钢构件的低能耗退火炉_滕建华_202410723353.8

集中供热系统能耗调节方法、设备、存储介质及装置_华电湖北发电有限公司武昌热电分公司_202210223984.4

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于平行动作网络结构PPO的DSA能耗优化方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务