首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度强化学习的环境自适应竞价方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东北大学

摘要:本发明公开了一种基于深度强化学习的环境自适应竞价方法,涉及竞价领域。该方法采取层次化方式对竞价场景进行建模;竞价阶段开始时上层智能体基于离散型强化学习方法选择适合在当前竞价阶段完成竞价的下层智能体;被选中的下层智能体基于连续型强化学习方法完成当前竞价阶段内的每一次竞价,将每次竞价得到的数据保存至该下层智能体的经验回放池中,并判断每次竞价得到的数据是否加入其他下层智能体的经验回放池中;根据预定的竞价阶段结束判断条件判断当前竞价阶段结束时,计算上层智能体获得的奖励,将在当前竞价阶段得到的数据增加至上层智能体的经验回放池中;对上层智能体和N个下层智能体进行训练,将训练好的上下层智能体用于竞价活动。

主权项:1.一种基于深度强化学习的环境自适应竞价方法,其特征在于,包括以下步骤;步骤1:采取层次化方式对竞价场景进行相应建模;基于马尔可夫决策过程对竞价场景进行建模,将竞价场景相关的信息与马尔可夫决策过程中的各元素相对应,用S,A,P,R元组分别对上层智能体和下层智能体的状态、动作和反馈奖励进行表示,并定义在每个竞价阶段的开始由上层智能体从N≥2个下层智能体中选择一个下层智能体去完成该竞价阶段内的每一次竞价,每一竞价阶段内的竞价次数取决于每一竞价阶段的长度;其中S表示状态空间,为所有可能出现的状态组成的集合;A表示动作空间,为所有可能出现的动作组成的集合;定义P表示状态转移函数,决定了在一个状态下采取一个动作后状态的变化;定义R表示奖励函数,决定了在一个状态下采取一个动作后获得多少奖励;定义πh表示上层智能体的策略、sh∈S代表输入上层智能体的状态,包括竞价当日所有下层智能体的总竞价次数、总成交数、整体竞价成功率、整体效益、预算余额及各下层智能体的竞价次数、平均出价、竞价成功率、竞价收益、每一次竞价的产品信息、每一竞价阶段的平均竞价成交金额;定义ah∈A代表上层智能体输出的动作即选择在每一竞价阶段内完成竞价的下层智能体;rh代表每一竞价阶段的竞价收益,也就是在每一竞价阶段开始时对应的状态下执行动作的奖励反馈,定义为每一竞价阶段内所有竞价所得奖励的平均值;定义表示N个下层智能体各自的策略;代表下层智能体输入的状态,包括每个下层智能体的竞价次数、平均出价、竞价成功率、竞价收益以及每一次竞价的产品信息、竞价时所处竞价阶段的平均竞价成交金额;定义al∈A代表下层智能体输出的动作即每一次竞价给出的竞价金额;rl代表每一次竞价的收益,也就是在每一次竞价开始时对应的状态下执行动作的奖励反馈;定义γ表示计算预期总奖励期望的折扣因子;步骤2:确定每一竞价阶段结束的判断条件;步骤3:竞价阶段开始,上层智能体基于离散型强化学习方法,根据当前竞价阶段开始时的状态选择适合在当前竞价阶段完成竞价的下层智能体;步骤4:被选择的下层智能体基于连续型强化学习方法完成当前竞价阶段的每一次竞价,将每一次竞价得到的数据保存至该下层智能体的经验回放池中,并判断每一次竞价得到的数据是否加入其他下层智能体的经验回放池中;步骤5:根据竞价阶段结束的判断条件判断当前竞价阶段结束时,计算上层智能体获得的奖励,将在当前竞价阶段得到的数据增加至上层智能体的经验回放池中;步骤6:根据步骤4和步骤5收集到经验回放池的数据对上层智能体和N个下层智能体进行训练,获得训练好的上层智能体和N个下层智能体;步骤7:将训练好的上层智能体和N个下层智能体用于竞价活动,上层智能体依据每一竞价阶段开始时的状态选择在该竞价阶段完成竞价的下层智能体,被选中的下层智能体则完成所处竞价阶段的每一次竞价。

全文数据:

权利要求:

百度查询: 东北大学 一种基于深度强化学习的环境自适应竞价方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。