恭喜东南大学李春国获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜东南大学申请的专利基于离线强化学习的以用户为中心的无蜂窝大规模MIMO功率分配方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115412134B 。
龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211051651.4,技术领域涉及:H04B7/0413;该发明授权基于离线强化学习的以用户为中心的无蜂窝大规模MIMO功率分配方法是由李春国;孙希茜;徐澍;王东明;杨绿溪设计研发完成,并于2022-08-31向国家知识产权局提交的专利申请。
本基于离线强化学习的以用户为中心的无蜂窝大规模MIMO功率分配方法在说明书摘要公布了:本发明公开了一种基于离线强化学习的以用户为中心的无蜂窝大规模MIMO功率分配方法,包括:构建以用户为中心的MIMO系统,建立无线接入点与部分用户之间的服务关系;将下行链路的功率控制系数作为优化参数提出问题并构建马尔可夫决策过程模型;建立DuelingDDQN网络并进行在线训练,存储在线训练过程中环境与网络交互产生的状态转移数据;取出在线数据集20%,并在损失函数中引入正则项对网络进行离线训练。“以用户为中心”的功率分配策略为无线接入点选择部分用户接入;本发明提出的离线算法降低了训练成本,仅需要部署在线训练数据集的20%的数据量进行训练,就可以实现在真实场景下离线、实时地调整功率控制系数。
本发明授权基于离线强化学习的以用户为中心的无蜂窝大规模MIMO功率分配方法在权利要求书中公布了:1.一种基于离线强化学习的以用户为中心的无蜂窝大规模MIMO功率分配方法,其特征在于,包括以下步骤:步骤S1、对以用户为中心的无蜂窝大规模MIMO系统进行建模,以上行链路的信道估计为依据确定无线接入点AP与用户设备UE之间的服务关系,以下行链路数据传输阶段的功率控制系数为优化对象,以最大化下行链路速率之和为目标,提出优化问题;步骤S2、根据步骤S1所述优化问题,将下行链路数据传输阶段的功率控制系数的优化过程建模为一个马尔可夫决策过程,确定马尔可夫决策过程的状态转移、动作空间、策略以及奖励;步骤S3、提出基于深度强化学习的功率分配算法模型,该模型包括大规模MIMO系统环境模块和智能体模块;所述大规模MIMO系统环境模块用于模拟以用户为中心的无蜂窝大规模MIMO系统的信道模型以及下行链路数据传输模型,所述智能体模块用于感知当前系统状态、估计功率分配策略的Q值以及选择最佳的功率分配系数;智能体模块的核心是深度神经网络,该深度神经网络的训练方式包括前期的在线训练与应用时期的离线训练;步骤S4、在线训练深度神经DuelingDDQN网络;在线训练阶段在基于数据集中的参数训练深度神经网络之前,需要先采集状态转移参数更新数据集;在初始化大规模MIMO系统后,首先将系统的状态输入所述深度神经网络,然后基于深度神经网络输出的Q值为当前AP选择功率控制系数,在环境中实施功率控制策略,从而改变环境状态并得到奖励,并存储这一次的状态转移信息;接着从数据集中随机抽取一批数据,用深度神经网络分别计算累积奖励值与期望值,以最小化奖励值与期望值的均方误差为目标更新深度神经网络参数;步骤S5、基于步骤S4收集的状态转移数据集离线训练DuelingDDQN网络;取出步骤S4所述状态转移数据集的前20%作为离线训练数据集,每次从离线数据集中取出一批数据输入深度神经网络,用深度神经网络分别计算累积奖励值与期望值,以最小化奖励值与期望值的均方误差为目标更新深度神经网络参数,最终使得智能体模块选择最佳的功率控制系数;所述步骤S1中,所述构建以用户为中心的大规模MIMO系统具体包括:步骤S101、首先设定场景的分布区域,设置其中随机分布了M个AP与K个UE,每个AP要服务的N个UE,然后建立AP与UE之间信道的大尺度衰落与小尺度衰落模型;步骤S102、对上行链路训练阶段进行建模,具体包括:首先为UE分配正交导频序列,然后令UE将导频序列转发至各个AP,AP端接收到数据后,基于最小均方误差准则估计与UE之间的信道系数;步骤S103、为每个AP关联其需要服务的UE,具体包括:对每一个AP,将该AP与所有UE之间的信道估计系数降序排列,为每个AP选择信道系数最高的N个UE建立服务关系,并将建立的服务关系信息转发至CPU;步骤S104、对下行链路数据传输阶段建模,具体包括:AP端将步骤S102中得到的信道估计视作真实信道系数,对待传输数据进行共轭波束赋形,然后以功率将预编码后的数据发送至与当前AP建立连接关系的UE;所述步骤S2将下行链路数据传输阶段的功率控制系数的优化过程建模为一个马尔可夫决策过程具体包括:步骤S201、将系统中的功率分配系数的优化步骤建模为一个序贯决策的过程,该过程所具有的要素包括状态、动作、转移策略和奖励;在该过程中,每一步为以用户为中心的大规模MIMO系统中的一个AP选择功率分配系数;步骤S202、设定系统状态,系统状态描述了当前功率分配策略下用户的信噪比情况,并指定了当前时刻的AP优化功率控制系数;设置当前系统状态指定为第m个AP更新功率控制系数,则会更新参数ηmk,k∈Tm;步骤S203、设定动作空间,动作空间是一个有限集合,集合中的数描述了功率控制系数的全部可选值;步骤S204、设定状态转移概率,状态转移概率描述了在对以用户为中心的大规模MIMO系统实施了功率分配策略后,环境改变为一个新的状态的概率,它的取值为[0,1];步骤S205、设定奖励,奖励描述了对以用户为中心的大规模MIMO系统实施了功率分配策略后K个用户传输速率之和的增益;步骤S202所述系统状态表示为st=[SINR,c]∈S,其中,SINR是用户信噪比,它是一个K维矢量;具体表达式为:SINR=[SINR1,...,SINRk,...,SINRK],c是一个用于指示AP索引值的one-hot编码,其具体表达式为:em是第m维为1,其余维均为0的M维矢量,表示当前要为第m个AP更新功率控制系数,则在当前时刻,智能体会对以用户为中心的大规模MIMO环境更新参数ηmk,k∈Tm,即对于第m个AP建立服务关系的UE,实施这些UE与当前AP之间功率控制系数的更新;而对于没有与第m个AP建立服务关系的UE,将它们与第m个AP之间的功率控制系数置为0;步骤S203所述动作空间为at=ηm1,ηm2,…,ηmK,其中,描述了与AP没有建立服务关系的UE的功率系数的取值只能为0;ηmk∈{0.1,0.4,0.7,1.0},m=1,...,M,k∈Tm则描述了与AP建立服务关系的UE的功率系数功率控制系数的可选值;步骤S4所述深度神经DuelingDDQN网络的在线训练过程具体包括:步骤S401、初始化以用户为中心的大规模MIMO系统环境模块,即确定AP与UE的分布以及信道模型;初始化智能体模块,即初始化DuelingDDQN网络的参数以及缓存区;步骤S402、采集状态转移数据;首先将系统状态输入所述智能体模块,智能体模块估计当前状态的Q值,然后基于Q值进行功率分配系数的选择,并将选择的功率控制系数传输至所述大规模MIMO系统环境模块中实施,从而改变环境状态并得到用户信噪比增益作为奖励,最后将本次状态转移的参数保存至所述缓存区中;步骤S403、训练网络;从缓存区中随机抽取一批状态转移参数,先将转移前的系统状态作为智能体模块的输入,使得智能体感知该状态并估计累计奖励值;再将状态转移后的状态作为智能体模块的输入,使得智能体感知该状态并结合状态转移中的奖励值信息得出期望的累积奖励值;步骤S404、以最小化累积收益与期望值之间的均方误差为目标,利用反向传播算法更新所述DuelingDDQN网络的网络参数;不断重复进行步骤S402~步骤S403的智能体-环境交互操作,从而不断更新网络参数与数据集;步骤S5离线训练过程具体包括:步骤S501、初始化以用户为中心的大规模MIMO系统环境模块,即确定AP与UE的分布以及信道模型;初始化智能体模块,首先随机初始化DuelingDDQN网络的参数,然后取出步骤S4中收集的状态转移参数数据集的前20%的数据作为离线训练的数据集;步骤S502、从离线训练数据集中随机抽取一批状态转移参数,先将转移前的系统状态作为智能体模块的输入,使得智能体感知该状态并估计累计奖励值;再将状态转移后的状态作为智能体模块的输入,使得智能体感知该状态并结合状态转移中的奖励值信息得出期望的累积奖励值;以最小化计算累积收益与期望值之间的均方误差为目标,利用反向传播算法更新所述DuelingDDQN网络的网络参数;步骤S503、不断重复步骤S502,利用离线数据集对DuelingDDQN网络更新参数,直至用户的信噪比增益收敛至某一值,停止网络训练。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东南大学,其通讯地址为:211102 江苏省南京市江宁区东南大学路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。