首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种用户公平性通信传输方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中央民族大学

摘要:本发明公开了一种用户公平性通信方法,利用深度学习估计信道参数,该方法首次考虑了大规模无小区通信中利用IRS的用户公平性最大化问题,在用户服务质量和功率约束以及相位约束条件下,设计了一种混合波束形成方案,包括在基站上的数字波束形成和基于IRS的模拟波束形成。在此基础上,利用DDPG和DDQL的深度强化学习算法训练模型。基站上的数字波束形成和基于IRS的模拟波束形成以及深度强化学习网络的不同设计权衡提供了新的思路。

主权项:1.一种用户公平性通信传输方法,其特征在于,基于大规模天线无小区Cell-free,CF可重构智能反射表面IntelligentReconfigurableSurface,IRS系统,并基于基站的数字波束形成算法和IRS的模拟波束形成算法,包括下步骤:步骤A,提出一种深度学习的信道估计算法,利用非盲降噪网络,通过接收信号估计原始信道增益;步骤B,建立接入点到用户的直接间接链路的信道模型,在其噪声方面服从标准复高斯噪声;步骤C,建立马尔可夫学习过程;步骤D,提出了一种基于深度确定策略梯度网络DeepDeterministicPolicyGradient,DDPG的算法;步骤E,提出了一种基于深度双层Q学习DeepDoubleQ-Learning,DDQL的算法;其中,步骤A具体包括:A1,建立基于下行链路DownLink,DL的信道估计器,使用一个全连接神经网络来解决导频功率分配问题,输入数据是k个用户的信道矩阵向量,第L层为输出层,中间的第2至L-1层为隐藏层,用于计算和分析信道状态信息和导频功率之间的映射关系,使用线性整流函数RectifiedLinearUnit,ReLU作为神经网络的激活函数;A2,在输出神经元后加入归一化指数函数softversionofmax,Softmax函数,使Softmax函数之后的神经网络输出之和为1,将输出值乘以总功率P,得到功率分配结果;A3,误差补偿过程:得到初始信道估计值或者第l-1个信道估计值后,抽取信道值的实部和虚部,构成输入向量xl,将xl输入训练好的长短期记忆-多层感知器Longshort-termmemory-MultilayerPerceptron,LSTM-MLP网络中,得到网络输出yl=fLSTM-MLPxl;θLM,fLSTM-MLP.为LSTM-MLP网络的计算过程;θLM表示离线训练过程中所确定的网络系数;其中,步骤B具体包括:B1,计算用户k的可实现速率表达式w为预编码,σ2为高斯噪声,B为基站数量,为等效信道向量;Gb、分别表示从第b个BS到用户k、从第b个BS到IRS、从IRS到用户k的信道;βm为幅值,θ为IRS的反射角度,N为反射元数量;B2,定义用户公平性指标其中xk代表用户k所分得的资源量,即可实现速率,在发射端的传输功率约束、IRS的角度约束,以及用户服务质量的约束下,最大化系统的用户公平性;其中,步骤C具体包括:C1,建立一个马尔可夫决策过程MarkovDecisionProcess,MDP,包括一个元组其中S表示状态空间,是包含代理可以选择的有限动作集的动作空间,包括基站和IRS的波束形成,是一个转移概率,是处于状态S并采取动作at后的预期奖励,ζ∈[0,1是折扣因子;C2,初始化所有的神经网络及其目标的波束形成问题,以及一个重放缓冲区,对于每一节,通过将初始状态s0设置为一个关于安全速率的随机向量,来初始化环境,在一节的每一个时间步,DDQL和DDPG代理分别选择一个动作和动作C3,联合动作被发送到CF网络环境,该环境将返回一个新的状态st+1,这个新的状态将与即刻奖励rt一起返回;C4,在将转换元组st,at,rt,st+1存储在经验重放缓冲区R后,从经验重放缓冲区中随机采样,以训练DDPG和DDQL网络;其中,步骤D具体包括:D1,计算时间差分TemporalDifference,TD误差通过最小化损失更新评论家网络参数θQ,其中ri为第i个智能体奖励,Q.为Q网络,Q'.为目标网络,s为状态,μ'.为演员策略近似网络,θ为相应网络的参数;D2,使用蒙特卡罗近似,通过确定性梯度策略来更新演员策略μs|θμ:其中J为损失函数,θμ为演员网络参数,为样本大小,si为时隙i的状态;D3,更新DDPG目标网络Q'和μ':θQ′←τθQ+1-τθQ′,θμ′←τθμ+1-τθμ′,τ为波利亚克平均参数,θQ′为目标Q网络的参数,θμ为演员策略网络参数,θμ'为目标策略网络参数;其中,步骤E具体包括:E1,选择最优动作Qc′为动作目标Q网络;E2,根据更新DDQL目标网络Qc.,为DDQL在时隙i选择的动作,为目标网络参数,ν为学习速率,ζ∈[0,1为折扣因子,ri为时隙i的奖励。

全文数据:

权利要求:

百度查询: 中央民族大学 一种用户公平性通信传输方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。