恭喜同济大学李晨曦获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜同济大学申请的专利一种基于强化学习的动态视频传输调度方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114980336B 。
龙图腾网通过国家知识产权局官网在2025-03-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210562420.3,技术领域涉及:H04W72/044;该发明授权一种基于强化学习的动态视频传输调度方法是由李晨曦;王睿设计研发完成,并于2022-05-23向国家知识产权局提交的专利申请。
本一种基于强化学习的动态视频传输调度方法在说明书摘要公布了:一种基于强化学习的动态视频传输调度算法,其特征是,包括下列步骤:1通信系统参数的获取。2建立优化问题函数:设K为系统服务的用户数,L为系统包含的OFDM资源块数,则优化问题函数为每一个资源块l分给的用户编号,使满足QoS需求的用户数最大化。3更新通信系统的OFDM资源块分配方式:建立状态、动作以及目标奖励函数,使用强化学习网络输出每一个资源块l分给的用户编号,并组成该通信系统的OFDM资源块分配方式。4更新强化学习网络参数:利用梯度下降法更新强化学习网络参数。5判断是否满足优化结束条件:在该算法输出资源块分配结果后,观察是否达到系统满足QoS需求的用户数目标,若未达到,则返回3进行下一步迭代。
本发明授权一种基于强化学习的动态视频传输调度方法在权利要求书中公布了:1.一种基于强化学习的动态视频传输调度方法,其特征在于,为多用户动态视频传输跨层联合调度优化算法,包括下列步骤:S1获取通信系统参数以供算法训练使用;S2建立优化问题函数:设K为系统服务的用户数,L为系统包含的OFDM资源块数,则优化问题函数为每一个资源块l分给的用户编号,使满足QoS需求的用户数最大化;S3更新通信系统的OFDM资源块分配方式:建立状态、动作以及目标奖励函数,使用强化学习网络输出每一个资源块l分给的用户编号,并组成该通信系统的OFDM资源块分配方式;S4更新强化学习网络参数:利用梯度下降法更新强化学习网络参数;S5判断是否满足优化结束条件:在该算法输出资源块分配结果后,观察是否达到系统满足QoS需求的用户数目标,若未达到,则返回3进行下一步迭代;其中,S2、建立优化问题函数;设K为系统服务的用户数,L为系统包含的OFDM资源块数,则需要找出一种资源块分配方案,使满足QoS需求的用户数最大化;设A为L行K列的资源块分配矩阵,KQos为已经满足QoS需求的用户数,则优化函数为maxKQoSaij∈{0,1},aij∈A,i∈[0,L],j∈[0,K] 上式中,aij为资源块分配矩阵A的元素,i,j为角标;其中,S3、更新通信系统的OFDM资源块分配方式;1利用强化学习算法更新矩阵A;结合本系统应用特点,本发明设计的强化学习状态空间、动作空间和奖励如下:①状态空间s:用以表征系统状态的参数集合;记t时刻K个用户的实际丢帧率为Ot={Ot,1,Ot,2,...,Ot,K},剩余传输时延为Tt={Tt,1,Tt,2,...,Tt,K}、视频帧剩余子帧数为nt={nt,1,nt,2,...,nt,K},信道状态为ht=[h1,h2,...,hK],其中hk={ht,1,ht,2,...,ht,L}表示第k个用户在每一个OFDM资源块上的信噪比;则状态空间可以表示为 上式中,表示ht的转置矩阵;②动作空间:用矩阵A表示通信系统对OFDM资源块的分配状况,是一个L×K维的矩阵;③奖励:用于引导强化学习网络的学习过程,以实现满足QoS需求的用户最大化的目标;本发明使用的奖励函数为r=∑kR1,k+R2,k上式中,R1,k为表征用户k的丢帧率的奖励,仅在视频帧传输完毕时给予奖励;当用户恰好满足丢帧率要求时给予奖励,不满足时不给予奖励;若其实际丢帧率远低于丢帧率需求,则代表该用户占用了过多的通信资源,因此给予一个衰减的奖励;R2,k为表征用户k当前传输速率的奖励,在每一个TTI结束后都给予奖励,若当前系统给予用户的传输速度可以在时延需求内传输完毕,则给予奖励,否则给予惩罚;对于奖励函数的第一部分,在用户k剩余传输时延Tt,k=0时刻进行判定,若此时用户剩余子帧数nt,k≤0则判定该视频帧传输完毕;此时记则R1,k的表达式为 上式中,r1为奖励数值,p为该用户每传输一帧平均占用的OFDM资源块个数,qk用来将用户k的丢帧率限制在其需求附近,由算法使用者自行设置,m为比例系数,需要根据训练结果进行调整;对于奖励函数的第二部分,在每一个传输时间间隔TTI都计算并给予奖励,R2,k的表达式为 上式中,r2为奖励数值,vneed,k为用户k若不丢帧则需要系统分配的最小传输速率,vk为当前系统向用户k分配的传输速率;2所述强化学习算法为深度Q网络;对于每一个OFDM资源块,均建立一个深度Q网络模型,输出该资源块分给的用户编号,即矩阵A的一行;将所有深度Q网络的输出拼成矩阵A,即为通信系统对资源块的分配方式;DQN1~DQNL为个强化学习网络,每个网络均对应通信系统内的一个资源块RB;al={al,1,al,2,...,al,K}l=0,1,2,...L为资源块分配矩阵A的行向量,维度维K,其元素满足 {St-1,At,rt,st}是一个元组,用于存放上一时刻系统状态、资源块分配情况、根据该分配动作执行一个TTI后的奖励以及下一时刻的系统状态;该元组称为“经验”,存入经验回放缓存中,以供强化学习网络学习使用;每执行一个TTI后,系统都会从经验回放缓存中抽取一部分经验,组成miniBatch后送入强化学习网络进行下一步学习;其中,S4、更新强化学习网络参数;1将强化学习网络输出的动作A与环境交互,并将结果存入经验回放缓存中;从经验回放缓存中抽取一部分经验数据,使用梯度下降法更新每一个深度Q网络的网络参数;2更新状态空间参数;对于用户k,使用如下公式更新每一个用户的状态空间参数丢帧率:剩余时延:视频帧剩余子帧数上式中,nsent,k为当前TTI内该用户传输的视频子帧数;信道状态ht,k根据用户当前的反馈进行更新。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人同济大学,其通讯地址为:200092 上海市杨浦区四平路1239号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。