首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】面向边缘蜂窝网络基于强化学习的视频码率自适应方法_上海大学_202211574628.3 

申请/专利权人:上海大学

申请日:2022-12-08

公开(公告)日:2024-06-18

公开(公告)号:CN116016987B

主分类号:H04N21/2343

分类号:H04N21/2343;G06N20/00;H04N21/4402;H04N19/40

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2023.05.12#实质审查的生效;2023.04.25#公开

摘要:一种面向边缘蜂窝网络基于强化学习的视频码率自适应方法,通过构建能够多址边缘计算MEC转码的服务端及内置缓存的客户端作为视频流会话仿真环境,采用并行协作联合多视频切片码率转码和传输的ABR方法PCMC模型,以视频数据集和无线带宽轨迹数据集在视频流会话仿真环境中进行基于异步强化学习A3C的训练,在在线阶段通过该模型对视频码率进行自适应调整。本发明在配置MEC的无线网络场景下,充分利用RAN侧的信息以及MEC计算资源和存储资源的同时,使用传输和转码并行执行的策略,减少MEC带来的额外计算延迟和计算能耗,提高客户端的视频流QoE指标。

主权项:1.一种面向边缘蜂窝网络基于强化学习的视频码率自适应方法,其特征在于,通过构建能够多址边缘计算MEC转码的服务端及内置缓存的客户端作为视频流会话仿真环境,采用并行协作联合多视频切片码率转码和传输的自适应比特率方法模型,以视频数据集和无线带宽轨迹数据集在视频流会话仿真环境中进行基于异步强化学习的训练,在在线阶段通过该模型对视频码率进行自适应调整;所述的并行协作联合多视频切片码率转码和传输的自适应比特率方法模型具备多动作输出的网络结构,包括:环境编码模块、策略生成模块和策略评价模块,其中:环境编码模块根据反映环境Environment特征的状态信息生成特征向量,策略生成模块根据特征向量输出由未来k个动作的集合An组成的策略,策略评价模块对当前的策略进行评价估值并反馈至策略生成模块以估值调整其策略模型;所述的并行协作联合多视频切片码率转码和传输的自适应比特率方法模型具体包括:环境编码模块、策略生成模块以及策略评价模块,其中:环境编码模块根据反映环境Environment特征的环境状态信息bn-1,Zn,m,dn-1,Cn,ln输出特征向量;策略生成模块生成决策模型根据环境编码模块生成的特征向量输出未来k块视频切片的码率选择,即动作An=vn,vn+1,...,vn+k的概率分布当传输索引n的切片时,并行执行n+1的切片码率的转码过程以减小因转码带来的延时,vn为请求索引n视频切片选择的码率,为在t时刻客户端Buffer的长度,bn为传输索引n视频切片的平均网络吞吐量,Zn,m为索引n码率m视频切片的字节大小,dn-1为传输索引n视频造成客户端播放卡顿时长,Cn为索引n视频切片在缓存中最高的码率版本,ln为剩余的视频切片数量;策略评价模块拟合状态值V函数,根据环境状态信息的特征向量输出V值至策略生成模块,用于梯度更新;所述的并行协作联合多视频切片码率转码和传输的自适应比特率方法模型,以最大化期望回报值Jπθ为目标,采用A3C方法进行异步训练,即在AC网络架构的基础上部署多个子线程进行同时训练,子线程训练完毕后将参数同步给主线程;训练过程中策略生成模块和策略评价模块的参数分别通过以下方式进行更新:其中:状态采取动作An比平均水平的差异从状态并执行动作An的双重设定下,在策略π下能够获得的期望回报值V函数的贝尔曼方程为强化学习模型的优化目标应为最大化在观察到下的期望回报值θ表示强化学习模型中所有的参数集合,置信空间向量为在状态信息下观察到的概率分布;智能体做出动作后得到环境的奖励为ω、μ、δ、为各子项的权重系统,为常量;q0为最高码率,方便归一化处理;同时为使模型权衡近期奖励和长期奖励的重要性,使用随着时间衰减的折扣回报Rτ来使策略模型能考虑长远的回报值:并行协作联合多视频切片码率转码和传输的自适应比特率方法模型的策略生成模块和环境编码模块不断交互产生奖励直至达到终止状态,此过程的状态信息、动作和奖励的所有集合即轨迹τ,其发生的概率Pτ;在部分可观察马尔可夫决策过程POMDP中,回报值为r′n,即在置信空间向量下能够得到的rn的期望值;将r′n替换折扣回报Rτ中rn得到新的折扣回报R′τ;由于环境状态转移和策略都具有随机性,同样的策略模型作用于同初始状态的同一环境,也可能产生截然不同的轨迹,因此强化学习模型的优化目标应为最大化在观察到下的期望回报;视频流会话总能量损耗E=Ec+Eom+Etc,其中:MEC服务端执行缓存任务时带来的能耗Ec=wcm*Zn,m,当缓存未命中时,请求源服务器数据的传输延时Tom=Zn,mWom,传输能耗Eom=eom*Zn,m*Tom;当缓存中存在码率版本高于请求时,MEC执行转码任务的计算能耗Etc=ρ0*ctm*qext-qtar*Ttcn,m;wcm为MEC的缓存能耗单位,wom为MEC到源服务器的带宽,eom为MEC到源服务器的传输能耗单位,ρ0为CPU运行每周期的能耗,ctm为CPU处理每比特转码任务所需的周期数。

全文数据:

权利要求:

百度查询: 上海大学 面向边缘蜂窝网络基于强化学习的视频码率自适应方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。