一种基于深度强化学习的环境自适应竞价方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：东北大学

摘要：本发明公开了一种基于深度强化学习的环境自适应竞价方法，涉及竞价领域。该方法采取层次化方式对竞价场景进行建模；竞价阶段开始时上层智能体基于离散型强化学习方法选择适合在当前竞价阶段完成竞价的下层智能体；被选中的下层智能体基于连续型强化学习方法完成当前竞价阶段内的每一次竞价，将每次竞价得到的数据保存至该下层智能体的经验回放池中，并判断每次竞价得到的数据是否加入其他下层智能体的经验回放池中；根据预定的竞价阶段结束判断条件判断当前竞价阶段结束时，计算上层智能体获得的奖励，将在当前竞价阶段得到的数据增加至上层智能体的经验回放池中；对上层智能体和N个下层智能体进行训练，将训练好的上下层智能体用于竞价活动。

主权项：1.一种基于深度强化学习的环境自适应竞价方法，其特征在于，包括以下步骤；步骤1：采取层次化方式对竞价场景进行相应建模；基于马尔可夫决策过程对竞价场景进行建模，将竞价场景相关的信息与马尔可夫决策过程中的各元素相对应，用S,A,P,R元组分别对上层智能体和下层智能体的状态、动作和反馈奖励进行表示，并定义在每个竞价阶段的开始由上层智能体从N≥2个下层智能体中选择一个下层智能体去完成该竞价阶段内的每一次竞价，每一竞价阶段内的竞价次数取决于每一竞价阶段的长度；其中S表示状态空间，为所有可能出现的状态组成的集合；A表示动作空间，为所有可能出现的动作组成的集合；定义P表示状态转移函数，决定了在一个状态下采取一个动作后状态的变化；定义R表示奖励函数，决定了在一个状态下采取一个动作后获得多少奖励；定义πh表示上层智能体的策略、sh∈S代表输入上层智能体的状态，包括竞价当日所有下层智能体的总竞价次数、总成交数、整体竞价成功率、整体效益、预算余额及各下层智能体的竞价次数、平均出价、竞价成功率、竞价收益、每一次竞价的产品信息、每一竞价阶段的平均竞价成交金额；定义ah∈A代表上层智能体输出的动作即选择在每一竞价阶段内完成竞价的下层智能体；rh代表每一竞价阶段的竞价收益，也就是在每一竞价阶段开始时对应的状态下执行动作的奖励反馈，定义为每一竞价阶段内所有竞价所得奖励的平均值；定义表示N个下层智能体各自的策略；代表下层智能体输入的状态，包括每个下层智能体的竞价次数、平均出价、竞价成功率、竞价收益以及每一次竞价的产品信息、竞价时所处竞价阶段的平均竞价成交金额；定义al∈A代表下层智能体输出的动作即每一次竞价给出的竞价金额；rl代表每一次竞价的收益，也就是在每一次竞价开始时对应的状态下执行动作的奖励反馈；定义γ表示计算预期总奖励期望的折扣因子；步骤2：确定每一竞价阶段结束的判断条件；步骤3：竞价阶段开始，上层智能体基于离散型强化学习方法，根据当前竞价阶段开始时的状态选择适合在当前竞价阶段完成竞价的下层智能体；步骤4：被选择的下层智能体基于连续型强化学习方法完成当前竞价阶段的每一次竞价，将每一次竞价得到的数据保存至该下层智能体的经验回放池中，并判断每一次竞价得到的数据是否加入其他下层智能体的经验回放池中；步骤5：根据竞价阶段结束的判断条件判断当前竞价阶段结束时，计算上层智能体获得的奖励，将在当前竞价阶段得到的数据增加至上层智能体的经验回放池中；步骤6：根据步骤4和步骤5收集到经验回放池的数据对上层智能体和N个下层智能体进行训练，获得训练好的上层智能体和N个下层智能体；步骤7：将训练好的上层智能体和N个下层智能体用于竞价活动，上层智能体依据每一竞价阶段开始时的状态选择在该竞价阶段完成竞价的下层智能体，被选中的下层智能体则完成所处竞价阶段的每一次竞价。

全文数据：

权利要求：

百度查询：东北大学一种基于深度强化学习的环境自适应竞价方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种批量热浸镀锌铝镁浸镀前两步式活化助镀处理方法

下一篇：天然气发动机配气相位控制方法和天然气发动机

相关技术

一种批量热浸镀锌铝镁浸镀前两步式活化助镀处理方法

天然气发动机配气相位控制方法和天然气发动机

一种基于Wollaston棱镜的同步移相干涉装置及方法

一种行星齿轮减速机

恒湿机

一株马立克病病毒双基因编辑缺失疫苗株SD01ΔmeqΔM11及构建和应用

一种整车软件管理系统及方法

一种齿轨车的制动方法、装置、设备及存储介质

一种大数据检索方法、装置以及可读存储介质

一种Z型气动吸附的执行器结构

通信方法、装置、存储介质及程序产品

一种基于企业资源的职业教育的管理方法以及设备

学习相关技术

基于深度学习的学习笔个性化辅导系统_深圳市博升电子发展有限公司_202410672308.4

机器学习装置、数据处理系统、推理装置以及机器学习方法_金子产业株式会社_202180021503.5

一种改进学习书桌_广东顺德聪聪网络科技有限公司_202420245783.9

一种英语学习专用板_山东理工职业学院_202323663439.6

联邦学习隐私保护方法及系统_中电科大数据研究院有限公司_202410837475.X

用于基于机器学习模型的内部状态来防止对机器学习模型的攻击的系统和方法_爱迪德技术有限公司_202410266231.0

图像处理方法、深度学习模型的训练方法_北京百度网讯科技有限公司_202410907645.7

基于深度学习的征迁范围识别方法_浙江省自然资源征收中心_202311156732.5

使用机器学习模型确定对象与人之间的关联_辉达公司_201980088877.1

深度学习多任务特征编码方法及其系统_中国电信股份有限公司_202110339644.3

环境相关技术

环境声音水平控制_班安欧股份公司_202410266754.5

一种融合多环境因子预测新环境材料表型的方法_华中农业大学_202410794374.9

环境控制设备及芯片测试系统_第一检测有限公司_201911106204.2

一种环境振动分析设备_重庆市南岸区生态环境监测站_202420253767.4

用于环境治理的污水过滤装置_北京益普希环境咨询顾问有限公司山西分公司_202323611263.X

用于环境治理的大气处理装置_洛阳市绿环环保工程有限公司_202420169262.X

聚酰胺组合物的环境属性_巴斯夫欧洲公司_202280083905.2

一种防凝露摄像头及其在低温环境和高温环境中的拍摄应用_浙江大华技术股份有限公司_202410794989.1

一种企业环境智能管理设备_江苏汇环环保科技有限公司_202420124653.X

一种环境检测用废水检测装置_东营市生态环境局广饶生态环境监控中心_202410827310.4

自适应相关技术

自适应多路径调度器_罗伯特·博世有限公司_202310238374.6

自适应无线扫描管理系统_康尔福盛303公司_202280090481.2

自适应前照灯光束_通用汽车环球科技运作有限责任公司_202311414497.7

一种自适应夹具_华洋海纳(北京)科技有限公司_202411116699.8

一种自适应送料机构_巨力索具股份有限公司_202323518631.6

自适应参考信号信令_高通股份有限公司_202280088129.5

系统信息的自适应通信_联想(新加坡)私人有限公司_202380020652.9

自适应风向风力发电装置_左臣伟_202420286184.1

自适应放缆设备及放缆车_广东电网有限责任公司广州供电局_202410770591.4

自适应环内滤波方法和设备_韩国电子通信研究院_202410671432.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于深度强化学习的环境自适应竞价方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务