首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于迁移强化学习的疫情人员筛查与控制优化方法_大连理工大学_202410250950.3 

申请/专利权人:大连理工大学

申请日:2024-03-06

公开(公告)日:2024-06-04

公开(公告)号:CN118136275A

主分类号:G16H50/80

分类号:G16H50/80;G06N3/096;G06N7/01;G06N3/092

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.06.21#实质审查的生效;2024.06.04#公开

摘要:本发明公开了一种基于迁移强化学习的疫情人员筛查与控制优化方法,包括:根据疫情传播特征将人群分类,构建SEAIRD传染病传播模型;考虑抗病毒治疗、疫苗注射、隔离和筛查等类型筛查控制决策,基于每个决策期中不同类型人群中的患者数量,构建马尔科夫决策过程模型;采用强化学习方法开展神经网络预训练,用于近似马尔科夫决策过程的价值函数与最优行动策略,并存储网络训练结果;根据每个决策周期获取的疫情筛查和新增感染者确诊数据,通过拉丁超立方抽样方法估计系统参数和状态;根据每个决策周期系统参数的估计结果,通过迁移学习方法对策略网络与价值网络的训练结果进行微调,基于网络微调结果进行筛查控制决策。

主权项:1.一种基于迁移强化学习的疫情人员筛查与控制优化方法,其特征在于,包括如下步骤:1根据疫情传播特征将人群分为S-易感人群、E-未被筛查确诊的无症状感染人群、A-筛查确诊的无症状感染人群、I-有症状感染人群、R-康复人群、D-死亡人群,构建SEAIRD传染病传播模型;将决策期k=0,…,N开始时各类人群的数量表示为和由于易感者在接触了感染人群后有可能被感染,因此与转移概率pSE,pSI和pSS会受到和的影响,以下在转移概率中引入下标k=0,…,N表示这些时变参数,具体计算公式如式1-3: 其中,α表示感染后不出现症状的比例,γ1,γ2,和γ3表示暴露人群、无症状感染者和有症状感染者的传染率,而Hk表示决策期k开始时的总人数,即2基于SEAIRD传染病传播模型中每个决策期中不同类型人群中的患者数量,构建马尔科夫决策过程模型;具体而言,决策者需要在一定的预算下,根据获取的疫情筛查和新增感染者确诊数据,在线地决策抗病毒治疗T、疫苗注射V、隔离Q和筛查M策略;用表示决策期k的控制决策,包括抗病毒治疗、疫苗注射、隔离,其中表示i的人群在决策期k接受措施m的比例,ωk表示在决策期k的筛查人群比例;相应的,cim表示对i人群实施措施m的单位成本,a表示筛查单位成本;用xk+1=fxk,θk,uk,ωk表示疫情传播和控制系统动态,是决策期kk=0,…,N开始时的系统状态,向量θk为当期系统参数即转移概率,ωk和uk为当期防控决策;用Θ0表示初始决策期获知的由参数取值范围组成的空间,此后,决策者可根据不断获取的系统观察数据Ok和当期对系统参数空间的理解Θk,得到当前系统状态和参数的估计和基于此对防控决策进行优化;Ok与k-1期的筛查决策ωk-1有关,定义为o:xk,ωk-1→Ok;目标是得到最优策略映射μk,记为基于MDP框架,构建不确定条件下多阶段疫情应急防控在线决策模型,即马尔科夫决策过程模型;将每个决策期k,k=0,…,N对应的成本函数定义为代价函数定义为具体如下: 其中,T·是预先定义的函数,TxN+1表示最终系统状态xN+1对应的代价;据此,在决策期k疫情筛查和控制在线决策优化模型如式6-20; s.t. cuk,ωk≤Bkk=0,…,N16oxk,ωk-1=Okk=0,…,N17 0≤ωk≤1k=0,…,N19 式6表示决策期k的目标函数是最小化当期到最后一期的代价之和;式7-15描述了系统中各类人群之间动态,其中表示疫苗有效率,表示筛查有效率,和表示治愈率和治疗后的死亡率;式14-15在式1-2基础上细化了隔离决策对传染率的影响,β1表示未被隔离感染者的传染率,而β2表示被隔离感染者的传染率;式16表示每一期实施疫情防控措施使用的资金不超过当期预算的约束,其中c·表示成本的计算函数,需根据防控策略和实施人群定义;式17表示当期获取的疫情数据由上一期筛查决策ωk-1确定;式18-20对决策变量和系统状态变量的取值范围进行界定;3对于构建的马尔科夫决策过程模型,采用强化学习方法开展预训练,训练得到两个神经网络,称为策略网络与价值网络,分别用于近似马尔科夫决策过程的价值函数与最优行动策略,并存储网络训练结果;具体而言,离线训练阶段,在初始参数空间Θ0下构建了模拟环境,通过强化学习利用梯度下降法训练价值网络和策略网络两个神经网络模型,用于学习MDP的动作-价值函数与最优控制策略;在线决策阶段,在每个决策期中,首先基于新获得的系统观察数据估计当期系统状态并更新参数空间Θk,然后通过迁移学习对价值网络与策略网络的权重进行微调使其适应新的系统参数空间Θk,最后策略网络根据系统状态的估计结果进行疫情应急防控决策;4基于不确定参数的取值范围设置参数空间,通过拉丁超立方抽样在参数空间中对系统不确定参数进行均匀采样,并根据每个决策周期获取的疫情筛查和新增感染者确诊数据,计算参数采样结果与获取实际观测数据的误差,选取误差最小的N采样结果,估计系统的不确定参数和不可观测状态,更新参数区间;5根据每个决策周期系统参数的估计结果,通过迁移学习方法对策略网络与价值网络的训练结果进行微调,并将系统状态的估计结果,输入到策略网络中,输出人群筛查与控制决策结果。

全文数据:

权利要求:

百度查询: 大连理工大学 一种基于迁移强化学习的疫情人员筛查与控制优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。