首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于DRL的边缘视频目标检测任务卸载方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江理工大学

摘要:本发明公开了一种基于深度强化学习的边缘视频目标检测任务卸载方法及系统,本发明方法包括如下步骤:S1,建立多终端设备单MEC服务器的系统模型;S2,建立处理视频任务的时延模型;S3,建立处理视频任务的能耗模型;S4,建立优化目标为最小化MEC系统任务处理时延与能耗加权成本的问题模型;S5,设计基于深度强化学习的视频任务卸载策略;S6,初始化网络权重、经验回放池、MEC系统各队列状态;S7,终端设备根据卸载策略执行卸载决策并与环境交互;S8,抽取经验样本更新网络权重;S9,重复上述步骤S7、S8,直至奖励曲线收敛。本发明使终端设备根据环境状态输出最优卸载决策,达到最小的系统成本。

主权项:1.一种基于DRL的边缘视频目标检测任务卸载方法,其特征在于,包括如下步骤:S1,建立多终端设备单MEC服务器的系统模型;S2,建立处理视频任务的时延模型;S3,建立处理视频任务的能耗模型;S4,建立优化目标为最小化MEC系统任务处理时延与能耗加权成本的问题模型;S5,设计基于深度强化学习的视频任务卸载策略;S6,初始化网络权重、经验回放池、MEC系统各队列状态;S7,终端设备根据卸载策略执行卸载决策并与环境交互;S8,抽取经验样本更新网络权重;S9,重复上述步骤S7、S8,直至奖励曲线收敛;步骤S4具体如下:将终端设备集合M={1,2,...,M}与一个MEC服务器作为一个MEC系统,整个MEC系统时延相当于全部设备任务处理时延的最大值即以最后一个任务完成的时刻视作全部任务处理完成,进而所有终端设备在t时刻的任务预期完成时延由式28表示:Lt=L1t,…,Lmt,...,LMt28结合上一步骤建立的能耗成本函数Et,将时延与能耗的加权和作为MEC系统成本;因此优化目标为通过联合优化各终端设备卸载决策,最小化MEC系统成本函数;将αt=α1t,α2t,...,αMt定义为所有终端设备的联合卸载决策向量;该问题模型如式29所示: 上式中λ1和λ2分别表示时延和能耗的权衡系数;步骤S5具体如下:采用双延迟深度确定性策略梯度TD3算法来学习最优卸载决策;S5.1,建立马尔科夫决策过程模型马尔科夫决策过程包含三个关键要素:状态、动作和奖励,t时刻的状态空间St定义为任务状态、终端设备与服务器队列状态和网络带宽状态的组合向量,如式30表示: 式中向量Zt和向量Dt分别表示终端设备集合的任务数据量及其时长,具体表示为Zt=Z1t,Z2t,...,ZMt,Dt=D1t,D2t,...,DMt;向量Qlt、Qst和Qtranst分别表示t时刻各设备队列状态,如31、式32和式33所示: Qst=Qs,h2rt,Qs,inft32 式30中Wt表示当前时刻带宽;表示网络动态预测信息;动作空间At定义为全部终端设备组成的卸载决策向量,具体表示为 将奖励定义为目标函数的负相关函数,奖励函数Rt定义为Rt=-λ1maxLt+λ2Et;S5.2,构建基于LSTM的网络动态性预测模块LSTM模型中包含编码器与解码器,将长度为H的历史带宽序列作为编码器输入,编码器对输入序列提取特征;解码器根据特征输出目标序列,通过一个全连接层输出对下一时隙的网络状态预测H维带宽序列表示为Wt=Wt-H,...,Wt-2,Wt-1,1≤H≤T,1≤t≤T;将与原状态向量Zt,Dt,Qlt,Qst,Qtranst,Wt拼接组成新的状态向量St,即式30所示向量;S5.3,改进原始经验回放机制算法训练阶段设定一系列基准奖励方案,然后将实际经验样本与其基准奖励进行奖励值比较,最后按分级标准存入相应经验回放池;将全本地计算策略与全卸载策略作为基准奖励方案,其中,经验回放池A用于存放奖励值高于基准奖励的经验样本;经验回放池B用于存放奖励低于或等于基准奖励的经验样本;X表示算法更新时采样的样本数量,δ表示样本的采样权重,有0≤δ≤1;步骤S6具体如下:TD3算法主体由Actor网络与Critic网络构成,该算法为解决过估计问题提出了具有6个神经网络的模型结构,分别为:Actor网络及其目标网络、两个Critic网络,以及两个Critic目标网络;在训练环节开始前,先随机初始化Actor网络权重θμ和Critic网络权重θQ1和θQ2,再将其各自目标网络权重拷贝初始化;设定双经验回放池具有相同的最大容量,并清空经验回放池;经验回放池用于存储智能体与环境交互产生的经验样本,每个经验样本由四元组St,At,Rt,St+1表示;同时为DRL算法网络更新权重提供经验样本,具体采样方式为步骤S5中双经验回放池根据权重系数δ进行采样;训练环节开始前,初始化MEC系统中各终端设备与MEC服务器内部队列状态;获取环境起始时刻状态S1,并重置历史网络带宽序列W1为H维全零向量。

全文数据:

权利要求:

百度查询: 浙江理工大学 一种基于DRL的边缘视频目标检测任务卸载方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。