买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西南交通大学
摘要:本发明公开了一种考虑评论信息影响的车辆边缘计算系统的资源分配方法,具体为:构建一个由两个有竞争关系的边缘服务器组成的市场,在两个服务阶段中提供计算卸载服务;每个服务阶段开始时,两个边缘服务器都在博弈后宣布他们的最优定价策略,第二阶段的定价策略受到第一阶段结束时车辆生成的评价信息的影响;车辆根据服务信息、定价、车辆偏好和评价信息选择他们的边缘服务器;然后根据选择相同边缘服务器的其他车辆的资源请求信息决定自己的请求策略;在车辆不愿意公开他们的资源请求信息的情况下,使用深度强化学习框架来最大化车辆的效用。本发明能够在任何阶段或服务器场景中实现车辆之间的纳什均衡,实现最大化所有车辆的总体利益。
主权项:1.一种考虑评论信息影响的车辆边缘计算系统的资源分配方法,其特征在于,构建一个由两个有竞争关系的边缘服务器组成的市场,在两个服务阶段中提供计算卸载服务;每个服务阶段开始时,两个边缘服务器都在博弈后宣布他们的最优定价策略,第二阶段的定价策略受到第一阶段结束时车辆生成的评价信息的影响;车辆根据服务信息、定价、车辆偏好和评价信息选择他们的边缘服务器;然后根据选择相同边缘服务器的其他车辆的资源请求信息决定自己的请求策略;在车辆不愿意公开他们的资源请求信息的情况下,使用深度强化学习框架来最大化车辆的效用,具体为:首先,构建一个在卸载服务的两个阶段有两个竞争边缘服务器的垄断市场模型;其中,车辆生成服务请求,并将这些请求卸载给边缘服务器进行处理;边缘服务器垄断了市场,为车辆提供服务,并制定相应的定价策略,从车辆中获取收入;A.边缘服务器的效用假设市场中的两个竞争边缘服务器为H和L,他们各自拥有的边缘单位EU数量分别为MH和ML;第一阶段:在服务开始之前,边缘服务器H和L将公布他们各自的第一阶段价格,分别设为和假设在第一阶段,边缘服务器H和L的服务请求的到达率遵循泊松分布,平均到达率分别为:和车辆对边缘服务器的偏好表示为:和分别代表边缘服务器H和L;边缘服务器为车辆提供的边缘计算服务的质量由两部分组成:一部分是服务的客观质量,即车辆根据边缘服务器的品牌、声誉和服务产品信息所形成的一般理解;另一部分是经验质量,即车辆在服务后的体验,这在服务结束之前是未知的;设qi,i=H,L为边缘服务器i的客观质量;假设边缘服务器H有高的客观质量,L有低的客观质量;这里,设置qH=q,qL=θq,其中θ∈0,1;θ的值越高,两个边缘服务器之间的客观质量差距就越小;定义ηi,i=H,L为车辆在服务提供商i服务后的体验质量;考虑到车辆体验服务的可变性,设置ηi~U-1,1;此外,车辆还会比较边缘服务器之间的价格差异,以感知损失或收益的感觉,边缘服务器H的价格差为:因此,车辆在第一阶段对边缘服务器H和L的净效用是:当时,如果车辆满意,它会给出正面的评价;否则,它会给出负面的评价;因此,边缘服务器H和L在第一阶段的收益是: 第二阶段:在第二阶段的服务期开始之前,偏好边缘服务器i的车辆将在看到第一阶段结束时的评价后,找到对另一个边缘服务器服务的体验质量的期望值;这个期望值是: 其中,代表车辆在体验了边缘服务器i的产品后给出正面评价的概率;是车辆给出正面评价的期望体验质量值,β是车辆对正面评价的敏感度,这里设置为:在第二阶段,车辆将决定是否继续从原来的边缘服务器购买服务,或者根据第二阶段边缘服务器公布的价格价格差异以及根据第一阶段车辆的评论形成的对另一个边缘服务器的体验质量的期望,切换到另一个边缘服务器;第二阶段边缘服务器H和L的车辆到达率分别是: 其中,为边缘服务器H服务的车辆在第二阶段仍从边缘服务器H购买的概率,为边缘服务器L服务的车辆在第二阶段仍从边缘服务器L购买的概率;结合式2得到: 因此,边缘服务器H和L在第二阶段的利润分别是: B.车辆的效用第一阶段:车辆在第一阶段到达边缘服务器H和L的到达率分别为:和考虑每个边缘服务器提供K级别的服务以卸载请求,表示为i∈{1,...,K};边缘服务器H和L提供的第i级别服务的EU数量分别为cHi和cLi;在边缘服务器H和L执行第i级别服务的车辆数量分别为和因此,定义在第一阶段选择H或L的服务级别i所得到的效用为: 其中表示在第一阶段选择边缘服务器H的服务级别i的车辆获得的满意度水平;第二阶段:由于车辆生成的评论信息的影响,第二阶段的车辆到达率可能会发生变化;记第二阶段到达边缘服务器H和L的车辆到达率分别为:和假设边缘服务器H和L提供的用于卸载请求的服务级别的总数仍然为K;在第二阶段服务期间,边缘服务器H和L执行级别i的车辆数量分别记为和他们占用的EU数量分别为cHi和cLi;因此,第二阶段选择H或L的服务级别i的效用为: C.问题描述在建立的模型中,边缘服务器首先在两个阶段进行竞争,制定在两个阶段的最优定价以吸引更多车辆卸载请求,从而获得更多的利润;边缘服务器H和L的两个阶段的总收入分别记为:和因此,从边缘服务器的角度看,优化问题总结为: 车辆根据边缘服务器在两个阶段设定的定价、他们对边缘服务器的偏好以及车辆的评价信息选择边缘服务器请求服务;设定在第一阶段和第二阶段边缘服务器H的最优定价分别为:和同样,边缘服务器L在第一阶段和第二阶段的最优定价分别得到和在第一阶段选择边缘服务器H的车辆的优化问题总结为: 其次,两个服务阶段的博弈均衡;在两个服务阶段中,给定边缘服务器H和L的定价策略:分别为和如果这个定价策略满足条件:和认为两个边缘服务器之间达到了纳什均衡点;车辆选择边缘服务器进行服务请求,并在两个阶段制定他们各自的卸载请求策略:在第二阶段,边缘服务器H和L的最优定价是: 在第一阶段,边缘服务器H和L的最优定价是: 最后,将车辆之间存在的非合作博弈问题划分为两种类型进行讨论:完全信息公开和不完全信息公开;A、信息共享下的资源请求管理问题每辆车首先分享其选择的服务级别,每辆车根据其他车辆的请求状态,决定他请求EUs的最优服务级别的策略;考虑到每辆车选择的服务级别的变化,给定系统内选择服务级别i的车辆数量以及第一阶段边缘服务器H的最优定价请求服务级别i的车辆的最优卸载资源请求策略是: 这里,B、在信息不完全共享下的资源请求管理问题算法考虑到系统中每辆车的自私性和随机性,每辆车被设定为一个智能代理actor,只执行策略和收集经验样本,而选择的边缘服务器H或L则作为进行集中决策的学习者learner;初始时,每辆车与所选边缘服务器的系统进行交互;在采取行动后,它根据观察到的情况形成一个经验回放对并将这些信息传输给学习者进行集中控制处理;每个actor在实施学习策略时采用ε-greedy算法;作为边缘服务器,H和L充当学习者;首先,他们在第一阶段和第二阶段开始前宣布他们的EU服务定价,然后根据每个actor发送到边缘服务器的经验回放信息学习策略,然后将学习到的策略传回每个actor;在此,使用DDQN算法进行车辆资源请求策略处理;状态、行动和奖励信息分别为:状态:所有系统内的状态为:S=S1,...,SN,其中行动:奖励:车辆在第一阶段从服务器H选择级别i服务的奖励是:在DDQN框架中,边缘服务器包括两个神经网络,即评估网络和目标网络;主网络的参数用θ表示,目标网络的参数用θ-表示;两个网络都输入当前状态,并输出每辆车的Q值;目标网络的参数θ-将在一定的步骤后被复制到主网络;然后,基于DDQN使用的目标值为:在公式中,argmax函数用来确定在给定状态和网络参数θt下最大化Q值的行动即arg函数应用于max函数应用于Q函数的可能值;使用DDQN算法分配边缘服务器资源:首先,给出系统的状态、奖励和动作,并建立一个大小为N的经验回放池D,一个带有随机权重参数的动作-值函数Q和一个目标网络;对于每次迭代,状态序列S被初始化,然后在每一步中,使用st评估评估网络的输入状态,并根据ε-greedy算法选择一个随机动作at;之后,通过预设标准获得当前的奖励和下一个状态st+1,然后将st,at,rt,st+1存储在经验回放池中以更新评估网络的参数。
全文数据:
权利要求:
百度查询: 西南交通大学 考虑评论信息影响的车辆边缘计算系统的资源分配方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。