买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:河北工程大学
摘要:本发明公开了一种基站预编码和有源ARIS波束赋形的联合优化方法,涉及6G领域中的智能超表面技术。本发明包括:构建有源ARIS辅助的地面多用户通信系统模型;对系统直连信道和级联信道进行建模;构建有源ARIS反射信号模型及多用户系统速率最大化优化模型,基于SoftActor‑Critic算法构建经验回放池及深度强化学习神经网络;初始化信道响应矩阵作为神经网络的输入状态参数,对神经网络进行训练,输出基站预编码矩阵和智能超表面波束赋形矩阵作为动作参数;基于训练优化后的深度强化学习模型,得到最优的联合基站预编码和ARIS波束赋形方案。本发明通过SoftActor‑Critic算法实现基站预编码与智能超表面波束赋形的联合优化,显著提升了在视距链路信号较弱条件下地面多用户通信的总速率。
主权项:1.一种基站预编码和有源ARIS波束赋形的联合优化方法,其特征在于,包括以下步骤:步骤S1,构建有源ARIS辅助的地面多用户通信系统模型,通信系统模型包括一个具有M根天线的基站、K个用户,以及一架搭载有源智能超表面的无人机,其中,有源智能超表面上有N个有源反射单元;步骤S2,对通信系统模型的直连信道和级联信道进行建模;通信系统模型中包含基站-用户k的直连信道响应矩阵将基站到用户的级联信道拆分为基站-智能超表面信道响应矩阵和智能超表面-用户k信道响应矩阵其中,表示复数集合,的上标表示笛卡尔积,k=1,2,..,K;直连信道的信号弱于由有源智能超表面辅助的级联信道的信号;步骤S3,构建有源ARIS反射信号模型及多用户速率最大化优化模型;其中,信号从基站发出之前,首先经过基站预编码矩阵进行信号预处理,随后信号分别进入直连信道hk和级联信道,在级联信道上,信号首先进入信道G,当抵达智能超表面后,经过波束赋形处理的信号通过信道fk到达用户端,其中波束赋形矩阵为第i个反射元件的幅值为βi∈[0,1],相位为qi∈[0,2π,diag表示构造对角矩阵;于是,基站预编码后的信号建模为:x=Ws1有源ARIS反射信号模型包括有用信号反射、由有源器件产生的噪声和信道噪声三部分,建模为:yARIS=ΦGx+Φv+n2其中,x和v分别表示有用信号向量和噪声信号向量,n代表信道噪声信号,服从于均值为零、方差为s2的圆形对称复数高斯分布;智能超表面上的有源器件在放大有用信号的同时,也会放大部分噪声信号;用户k的接收端信号包括直连信道信号和级联信道信号两部分,建模为: 其中,和分别为直连信道和智能超表面-用户k的信道噪声信号;联立式3、式4,则用户k处的接收信号为: 其中用户k处的信干噪比为: 因此,多用户速率最大化优化模型建模为式7: 其中,和分别代表基站最大发射功率和ARIS最大发射功率;步骤S4,基于柔性动作-评价算法构建经验回放池及深度强化学习神经网络,将智能体部署在智能超表面的控制器处,智能体获取由当前状态、当前动作、当前奖励、下一步状态组成的四元组,并将四元组放入经验回放池中,用于后续动作的采样;其中,将步骤S2中涉及的基站-ARIS、ARIS-用户以及基站-用户的信道作为状态;步骤S3涉及的基站预编码矩阵和ARIS波束赋形矩阵作为动作;步骤S4涉及到的多用户速率作为当前奖励,而下一步状态则通过对本步骤中涉及的经验回放池中采样获得;深度强化学习神经网络包括Q网络、策略网络和V网络三个网络,其中,策略网络用于学习在给定状态下采取每个动作的概率分布,目标是最大化期望累积奖励;Q网络为两个,分别学习各自的状态-动作值函数Qs,a,其中一个Q网络通过更新Qs,a来评价状态s时选择动作a的好坏,另一个Q网络将Qs,a作为目标函数来减少前一个Q网络更新的波动;V网络通过学习来计算状态值函数Vs,以估计在给定状态s下的长期累积奖励期望;具体来说,状态会作为V网络的输入,用于计算状态值Vs,以当前状态的长期累计奖励期望;而状态经过策略网络之后,经过神经网络的计算过程后最终会根据重要性采样输出动作的一个采样值,采样的动作和状态值Vs则共同作为Q网络的输入,通过计算网络输出状态-动作值Qs,a,用于评估当前状态和动作;步骤S5,初始化信道响应矩阵,将基站-ARIS、ARIS-用户以及基站-用户的三个信道作为神经网络的输入状态参数,信道响应矩阵中的复数数据在输入神经网络时先将数据分为实部和虚部;步骤S6,对步骤S4中构建的神经网络进行训练;神经网络训练过程中,第t步的状态由基站-用户、基站-智能超表面和智能超表面-用户三个信道的信道响应矩阵共同决定,输出基站预编码矩阵和智能超表面波束赋形矩阵作为动作参数,第t步的动作由基站预编码矩阵W和波束赋形矩阵Φ组成;神经网络训练的流程如下:1根据当前策略网络的输出得到一个采样动作;2执行采样动作并与环境交互,观察环境的奖励和下一个状态;3将由当前状态、动作、奖励和下一个状态所组成的四元组存储到经验回放池中;4从经验回放池中采样一批经验数据,根据最大熵策略梯度来更新策略网络;5根据采样的经验数据,通过训练来最小化软贝尔曼残差以更新Q函数参数,通过最小化残差误差平方更新V网络参数;6重复步骤1至步骤5,直至达到设定的回合数或者达到奖励目标值;步骤S7,基于训练优化后的深度强化学习神经网络,得到最优的联合基站预编码和ARIS波束赋形方案。
全文数据:
权利要求:
百度查询: 河北工程大学 一种基站预编码和有源ARIS波束赋形的联合优化方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。