恭喜东南大学刘升恒获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜东南大学申请的专利一种基于因果强化学习的边缘缓存方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115460232B 。
龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211136348.4,技术领域涉及:H04L67/1097;该发明授权一种基于因果强化学习的边缘缓存方法是由刘升恒;傅凝宁;黄永明;杨绿溪;尤肖虎设计研发完成,并于2022-09-19向国家知识产权局提交的专利申请。
本一种基于因果强化学习的边缘缓存方法在说明书摘要公布了:本发明公开了一种基于因果强化学习的边缘缓存方法,在边缘缓存系统中,流行的内容可以缓存在网络边缘附近,例如基站中,这样可以大大减少网络的重复流量并缩短传输延迟,但是如何优化基站中缓存的内容是一个关键的问题。因此,本发明的方法利用了观察数据并考虑了隐藏状态的影响,通过优化基站中缓存的文件内容,最大化命中率,减少存储开销和延迟。相比于其他没有利用观察数据或没有考虑隐藏状态的方法,本发明的方法能够大大提高初始时刻的命中率。
本发明授权一种基于因果强化学习的边缘缓存方法在权利要求书中公布了:1.一种基于因果强化学习的边缘缓存方法,其特征在于,所述方法包括以下步骤:步骤S1、针对具有一个云服务器、N个基站和N个用户群的边缘智能系统,构建其边缘缓存模型,其中一个基站对应一个用户群;步骤S2、将所述边缘缓存模型建模为一个部分可观察马尔可夫决策过程的强化学习问题,将N个用户群的文件请求分别建模为环境,每个基站建模为一个智能体,确定其状态集、观察集、动作集、奖励函数及最终的优化目标;优化其中一个基站对应的智能体gint的边缘缓存策略,其余基站对应的智能体gprv和用户群的交互数据作为观察数据;步骤S3、针对所述部分可观察马尔可夫决策过程的强化学习问题,利用观察数据并考虑隐藏状态,优化基于因果强化学习的边缘缓存策略;所述步骤S1中边缘缓存模型为:一个云服务器同时服务N个基站,云服务器中所有文件的总个数记为M,所有文件的集合记为F,第m个文件记为fm,fm∈F,m=0,1,...,M的大小都相等,为B比特;每个基站服务一个对应的用户群,用户群之间没有重合也不会随着时间产生变化;N个基站的存储容量都相等,记为Sstation比特,且Sstation<M·B;用户群本身没有存储容量;云服务器的服务总时长为T,N个用户群在每个时刻t∈T会对某个文件产生一个请求,记为rt,且rt∈F;用户群产生的请求rt不会上传到其对应的基站,用户群的请求对于基站是不可知的;N个基站都配备用户群请求预测机制,该机制能够实时预测用户群的请求rt,请求预测机制为:在t时刻,基站先进行用户群请求预测,得到预测结果如果该时刻基站存储的文件中含有对应的文件,即则基站在t时刻将传输给用户群;如果t时刻基站的存储文件中不包括即则基站产生一个请求向云服务器请求文件,云服务收到该请求后在t+1时刻将对应的文件传输给基站,此时用户群的请求rt+1=rt,基站的用户群请求预测结果如果在t+1时刻基站的存储文件中包括则基站在t+1时刻将文件传输给用户群,否则将在t+2时刻继续向云服务器请求文件,直到基站的存储文件中包含为止,将用户群在这段时间的等待总时隙记为ndelay;在所述步骤S2中智能体gint边缘缓存策略中状态集、观察集、动作集和奖励函数如下:状态集:状态集定义为基站的存储状态和用户群的请求:S={st|t=0,1,2,...T}1t时刻的状态定义为 观察集:观察集定义为基站的存储状态O={ot|t=0,1,2,...T}3t时刻的观察定义为 动作集:动作集定义为基站的动作A={at|t=0,1,2,...T}5在t时刻,基站可以向云服务器请求增加一个文件,或者删除一个文件,或者不增加也不删除文件,t时刻的动作定义为:at=[a1,a2,a3,...aM]6at中的每个元素的取值为-1、0或者1,若am=-1,m=1,2,...M表示基站要从自己的存储空间中删除第m个文件fm;若am=1,m=1,2,...M则表示基站要向云服务器请求第m个文件fm并存储到自己的存储空间中;若am=0,m=1,2,...M,则表示基站既不增加该文件,也不删除该文件;奖励函数:奖励函数由三个部分组成,t时刻的奖励函数ut表示为 其中w1,w2和w3分别是三个部分的权重,有w1+w2+w3=18而ht表示t时刻的命中率,定义如下 是基站中存储的文件的个数,ndelay表示等待延迟;最终,边缘缓存的优化问题归纳为最大化每个回合的奖励总数,表示为: 所述步骤S3具体步骤包括:步骤S3.1、获取智能体gprv的观察数据和其自身与环境交互的干预数据;步骤S3.2、根据步骤S3.1中获取到的观察数据和干预数据,估计真实的环境模型;步骤S3.3、根据步骤S3.2所估计的环境模型,用基于环境模型的Actor-Critic方法训练需要优化缓存策略的基站,以获得最优边缘缓存策略;所述步骤S3.1中,智能体gprv的缓存策略πprvat|ht,st包含τ个回合的观察数据Dobs是从具有下列分布的一个部分可观察马尔可夫决策过程中获取的:Dobs~pinit,ptrans,pobs,πprv11其中,pinit表示状态的初始分布概率、ptrans表示状态转移概率、pobs表示观察概率,πprv表示智能体gprv的策略;观察数据的具体形式为: Di=o0,a0,...,oT13包含k个回合的干预数据Dint是由一个带有随机策略πat|ht的智能体gint从标准部分可观察马尔可夫决策过程中收集到的Dint~pinit,ptrans,pobs,π14其中,pinit表示状态的初始分布概率、ptrans表示状态转移概率、pobs表示观察概率,π表示智能体gint策略;除了策略π以外,式14中的其余三个概率都与式11中的相同;干预数据的具体形式为: Di=o0,a0,...,oT16添加一个辅助变量I∈{0,1}来区分两种策略,即i=0表示观察数据:πat|ht,st,i=0=πprvat|ht,st17若i=1表示的是干预数据:πat|ht,st,i=1=πstdat|ht18;在所述步骤S3.2中,所述根据步骤S3.1中获取到的观察数据和干预数据,估计真实的环境模型,具体包括:a.环境模型的学习:根据观察数据和干预数据拟合一个潜在概率模型具体包括,将实际的部分可观察马尔可夫决策过程的隐藏状态st∈S替换为一个潜在变量zt∈Z,其中Z是该环境模型的离散隐藏空间;由此,环境模型的学习表示为下面的标准最大似然问题: 其中Q是下列概率模型的集合: 其中qi表示观察数据和干预数据各自所占的比例,qz0表示隐藏状态的分布概率,qo0|z0表示隐藏状态的观察概率,qat|ht,zt,i表示智能体的策略,若i=1,则有:qat|ht,zt,i=1=qat|ht,i=121qzt+1|at,zt代表隐藏状态的转移概率,qot+1|zt+1表示t+1时刻隐藏状态的观察概率;b.环境模型的推断:将恢复作为标准部分可观察马尔可夫决策模型转移概率的估计量,其中用前向算法从上述步骤a中学习到的潜在概率模型中推导出来;观察数据Dobs按以下方式影响干预转移模型具体包括:学习到的模型和必须有以下相同的概率qz0,qot|zt和qzt+1|zt,at,只有智能体的策略qat|ht,zt,i=0和qat|ht,zt,i=1能够有一些不同来区分两种方案。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东南大学,其通讯地址为:211189 江苏省南京市江宁区东南大学路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。