一种基于DRL的边缘视频目标检测任务卸载方法及系统

导航：龙图腾网> 最新专利技术> 一种基于DRL的边缘视频目标检测任务卸载方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：浙江理工大学

摘要：本发明公开了一种基于深度强化学习的边缘视频目标检测任务卸载方法及系统，本发明方法包括如下步骤：S1，建立多终端设备单MEC服务器的系统模型；S2，建立处理视频任务的时延模型；S3，建立处理视频任务的能耗模型；S4，建立优化目标为最小化MEC系统任务处理时延与能耗加权成本的问题模型；S5，设计基于深度强化学习的视频任务卸载策略；S6，初始化网络权重、经验回放池、MEC系统各队列状态；S7，终端设备根据卸载策略执行卸载决策并与环境交互；S8，抽取经验样本更新网络权重；S9，重复上述步骤S7、S8，直至奖励曲线收敛。本发明使终端设备根据环境状态输出最优卸载决策，达到最小的系统成本。

主权项：1.一种基于DRL的边缘视频目标检测任务卸载方法，其特征在于，包括如下步骤：S1，建立多终端设备单MEC服务器的系统模型；S2，建立处理视频任务的时延模型；S3，建立处理视频任务的能耗模型；S4，建立优化目标为最小化MEC系统任务处理时延与能耗加权成本的问题模型；S5，设计基于深度强化学习的视频任务卸载策略；S6，初始化网络权重、经验回放池、MEC系统各队列状态；S7，终端设备根据卸载策略执行卸载决策并与环境交互；S8，抽取经验样本更新网络权重；S9，重复上述步骤S7、S8，直至奖励曲线收敛；步骤S4具体如下：将终端设备集合M＝{1,2,...,M}与一个MEC服务器作为一个MEC系统，整个MEC系统时延相当于全部设备任务处理时延的最大值即以最后一个任务完成的时刻视作全部任务处理完成，进而所有终端设备在t时刻的任务预期完成时延由式28表示：Lt＝L1t,…,Lmt,...,LMt28结合上一步骤建立的能耗成本函数Et，将时延与能耗的加权和作为MEC系统成本；因此优化目标为通过联合优化各终端设备卸载决策，最小化MEC系统成本函数；将αt＝α1t,α2t,...,αMt定义为所有终端设备的联合卸载决策向量；该问题模型如式29所示：上式中λ1和λ2分别表示时延和能耗的权衡系数；步骤S5具体如下：采用双延迟深度确定性策略梯度TD3算法来学习最优卸载决策；S5.1，建立马尔科夫决策过程模型马尔科夫决策过程包含三个关键要素：状态、动作和奖励，t时刻的状态空间St定义为任务状态、终端设备与服务器队列状态和网络带宽状态的组合向量，如式30表示：式中向量Zt和向量Dt分别表示终端设备集合的任务数据量及其时长，具体表示为Zt＝Z1t,Z2t,...,ZMt，Dt＝D1t,D2t,...,DMt；向量Qlt、Qst和Qtranst分别表示t时刻各设备队列状态，如31、式32和式33所示： Qst＝Qs,h2rt,Qs,inft32 式30中Wt表示当前时刻带宽；表示网络动态预测信息；动作空间At定义为全部终端设备组成的卸载决策向量，具体表示为将奖励定义为目标函数的负相关函数，奖励函数Rt定义为Rt＝-λ1maxLt+λ2Et；S5.2，构建基于LSTM的网络动态性预测模块LSTM模型中包含编码器与解码器，将长度为H的历史带宽序列作为编码器输入，编码器对输入序列提取特征；解码器根据特征输出目标序列，通过一个全连接层输出对下一时隙的网络状态预测H维带宽序列表示为Wt＝Wt-H,...,Wt-2,Wt-1,1≤H≤T,1≤t≤T；将与原状态向量Zt,Dt,Qlt,Qst,Qtranst,Wt拼接组成新的状态向量St，即式30所示向量；S5.3，改进原始经验回放机制算法训练阶段设定一系列基准奖励方案，然后将实际经验样本与其基准奖励进行奖励值比较，最后按分级标准存入相应经验回放池；将全本地计算策略与全卸载策略作为基准奖励方案，其中，经验回放池A用于存放奖励值高于基准奖励的经验样本；经验回放池B用于存放奖励低于或等于基准奖励的经验样本；X表示算法更新时采样的样本数量，δ表示样本的采样权重，有0≤δ≤1；步骤S6具体如下：TD3算法主体由Actor网络与Critic网络构成，该算法为解决过估计问题提出了具有6个神经网络的模型结构，分别为：Actor网络及其目标网络、两个Critic网络，以及两个Critic目标网络；在训练环节开始前，先随机初始化Actor网络权重θμ和Critic网络权重θQ1和θQ2，再将其各自目标网络权重拷贝初始化；设定双经验回放池具有相同的最大容量，并清空经验回放池；经验回放池用于存储智能体与环境交互产生的经验样本，每个经验样本由四元组St,At,Rt,St+1表示；同时为DRL算法网络更新权重提供经验样本，具体采样方式为步骤S5中双经验回放池根据权重系数δ进行采样；训练环节开始前，初始化MEC系统中各终端设备与MEC服务器内部队列状态；获取环境起始时刻状态S1，并重置历史网络带宽序列W1为H维全零向量。

全文数据：

权利要求：

百度查询：浙江理工大学一种基于DRL的边缘视频目标检测任务卸载方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于AI的纸币识别方法及纸币清分机

下一篇：一种导热系数低的复合墙体保温砌块及其制备方法

相关技术

一种基于AI的纸币识别方法及纸币清分机

一种导热系数低的复合墙体保温砌块及其制备方法

纵置混动变速箱机械泵

一种养生保健酒

一种汽车零部件冲压加工用夹具

一种预防静脉血栓床上用踝关节辅助锻炼机构

基于场景感知的自动化编队群组引导方法

像素补偿方法、装置、设备、显示面板及存储介质

一种飞机复合材料部件超规范修理专家系统

一种基于非周期非均匀缝隙电容加载的环型宽带水平极化全向天线

一种消化内科催吐装置

镭雕装置

检测相关技术

检测系统和检测方法_苏州长光华芯光电技术股份有限公司_202411154623.4

移动方向的检测电路、检测装置以及检测系统_清华大学_202410726430.5

天车轨道变形检测装置、检测系统及检测方法_北京爱地地质工程技术有限公司_202210846472.3

内存检测方法及其检测系统_芯梦达半导体科技(济南)有限公司_202410704700.2

检测判定机和检测判定方法_电化株式会社_201980063933.6

检测系统_清华大学_202323608247.5

检测设备_珠海科创储能科技有限公司_202323641434.3

检测机构_精塑汽配科技(惠州)有限公司_202323583476.6

一种检测机器人的桥梁检测装置及其检测方法_于华杰_202410711531.5

一种检测装置及检测方法_深圳中科飞测科技股份有限公司_201910457362.6

任务相关技术

任务管理方法、任务管理系统、电子设备、存储介质_北京沃东天骏信息技术有限公司_201910802712.8

生成理货任务的方法和装置_北京京东乾石科技有限公司_201910457796.6

一种主任务和辅助任务并行的智能体分配方法及装置_北京科技大学_202410619346.3

一种任务分配方法和装置_中国建设银行股份有限公司_202010760295.8

云端任务调度方法、装置、设备及存储介质_一汽解放汽车有限公司_202410829575.8

底层视觉任务处理方法、装置及电子设备_中国科学院深圳先进技术研究院_202410684562.6

一种多任务GPU资源分配方法_北京航空航天大学_202410981716.8

分布式任务诊断方法、装置以及存储介质_北京沃东天骏信息技术有限公司_202110018305.5

前期工程的任务引导方法、装置及设备_三峡高科信息技术有限责任公司_202411151682.6

用于确定任务调度结果的方法及装置_北京京东振世信息技术有限公司_202111048153.X

目标相关技术

视频目标检测模型的训练、视频目标检测方法及装置_北京达佳互联信息技术有限公司_202110294961.8

一种基于谱结构特征-目标轨迹的声纳目标生灭判别方法_中国船舶集团有限公司第七一五研究所_202410733563.5

目标聚类方法、目标聚类装置以及计算机存储介质_浙江大华技术股份有限公司_202411166383.X

通告受限目标唤醒时间SP_英特尔公司_202311681279.X

目标材料供应设备和方法_ASML荷兰有限公司_201980070415.7

混合专家目标检测系统及方法_中国航天空气动力技术研究院_202410821561.1

一种多目标雷达_安徽远索科技有限公司_202420218479.5

目标蛋白快速识别及定量方法_深圳先进技术研究院_202111527218.9

目标仿真控制的方法和装置_北京京东乾石科技有限公司_202010954091.8

目标元件的脉冲照明成像_通用电气公司_202310710127.1

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于DRL的边缘视频目标检测任务卸载方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务