首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于强化学习的肝素治疗脓毒症的策略推荐及评估方法 

申请/专利权人:中国科学院重庆绿色智能技术研究院

申请日:2024-03-19

公开(公告)日:2024-06-14

公开(公告)号:CN118197602A

主分类号:G16H50/20

分类号:G16H50/20;G06F18/213;G06F18/24;G06N3/092

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.07.02#实质审查的生效;2024.06.14#公开

摘要:本发明公开了基于强化学习的肝素治疗脓毒症的策略推荐及评估方法,属于医疗大数据、人工智能领域。本方法包括以下步骤:S1:对体征监测和肝素剂量的历史数据进行预处理,得到患者时序数据;S2:对患者时序数据进行逐个时刻的评分,且并入到患者时序数据中;S3:将相邻时刻的评分差作为奖励函数,将肝素剂量作为动作,将体征监测作为状态,建立DQN模型;S4:训练DQN模型;S5:将患者时序数据进行二分类人工标注;S6:对DQN模型对应的动作相似度和相对收益进行计算和评价,筛选出最优的参数;S7:利用最优DQN模型实现对患者肝素治疗脓毒症的策略推荐。本发明能够保障输出的推荐策略的及时性和准确性,能够辅助医务人员采取有效措施。

主权项:1.基于强化学习的肝素治疗脓毒症的策略推荐及评估方法,其特征在于,该方法包含以下步骤:S1:对体征监测和肝素剂量的历史数据按照患者和时间时序数据进行预处理,得到患者时序数据;S2:采用拟合的SOFA评分方法对患者时序数据进行逐个时刻的评分,并将该时刻的评分作为新的特征并入到患者时序数据中;S3:将相邻时刻的评分差作为奖励函数,将肝素剂量作为动作,将体征监测作为状态,建立DQN模型;S4:将S2中得到的患者时序数据输入到DQN模型进行训练,得到DQN模型参数;S5:将S2中的患者时序数据逐个患者按照愈后效果的良好和不好进行二分类人工标注;S6:N次重复步骤S4,得到N组DQN模型参数;结合人工标记,分别对每组对应的动作相似度和相对收益进行计算和评价,筛选出最优的DQN模型参数;其中,N为大于1的正整数;S7:利用最优的DQN模型参数构建DQN模型,实现对患者肝素治疗脓毒症的策略推荐;其中,步骤S1所述的体征监测数据包含:PaO2FiO2氧合指数单位为mmHg、是否有机械通气、血小板计数单位为109L、胆红素单位为μmolL、平均动脉压单位为mmHg、多巴胺剂量单位为μgkg*min、多巴酚丁胺剂量单位为μgkg*min、肾上腺素剂量单位为μgkg*min、去甲肾上腺素剂量单位为μgkg*min、GCS评分、肌酐量单位为μmolL、尿量单位为mL;所述的患者时序数据包含患者的唯一ID、时刻、体征监测数据、肝素剂量;所述的SOFA评分的范围为0~24分,由6个部分组成,每个部分的范围为0~4分,6个部分分别为呼吸系统Respiratory、凝血系统Coagulation、肝功能Liver、心血管系统Cardiovascular、中枢神经系统CentralNervousSystem、肾功能Renal,每个部分都需要用若干个体征监测数据来计算一个评分;步骤S3所述的DQN模型由Q网络、目标网络和经验缓冲池构成;所述的Q网络为更新的网络,通过预测Q值实现训练生成最佳的状态与动作值,其输入为经验缓冲池中的当前状态st和当前动作at,输出为预测Q值Qst,at;θ,其中,θ为Q网络训练参数;所述的目标网络从经验缓冲池中获取下一时刻状态st+1,并从该状态执行的所有动作a′中计算出最佳的Q值maxQst+1,a′;θ′,其中,θ′为Q网络训练参数;所述的经验缓冲池将st,at,rt,st+1作为经验存入其中,训练时,会随机给出一批下标,然后从经验缓冲池中提取出下标对应的经验;其中,状态st对应t时刻的体征监测作为状态,动作at对应t时刻的肝素剂量作;步骤S6所述的动作相似度的计算方法为:S601:利用动作相似度计算的DQN模型策略与愈后效果良好的策略的一致率,具体为:1从PS中取出一条时序数据p,假设该条时序数据含有L个时间步,DQN模型在此时的动作为at,愈后效果良好的策略在此时的动作为则基于时序数据p在t时刻的一致率rap,t为:其中,idx*表示*的下标;2将时序数据p所有时间步的单步一致率求平均值,得到这条时序数据的单时序数据一致率3逐条遍历PS中所有的时序数据,计算单时序数据一致率,进一步计算DQN模型策略与愈后效果良好的策略的一致率其中p∈PS;S602:利用动作相似度计算DQN模型策略与愈后效果不好的策略的一致率其中p∈PD;具体步骤与S601相同;所述的相对收益的计算方法为:S603:利用相对增益计算AI策略与愈后效果良好的策略的一致率,具体为:1从PS中取出一条时序数据p,假设该条时序数据含有L个时间步,DQN模型在t时刻的状态为st,DQN模型策略在此时的预测Q值为Qst,at,愈后效果良好的策略在此时动作为下的计算Q值为则t时刻的单步一致率为: 其中,Qst,a′t为N个DQN模型在t时刻预测的最小的Q值;2将时序数据p所有时间步的单步一致率求平均值,得到这条时序数据的单时序数据一致率为:3逐条遍历PS中所有的时序数据,计算所有的时序数据的单时序数据一致率求平均值,进一步计算DQN模型与愈后效果良好的策略的一致率为:其中,p∈PS;S604:利用相对增益计算DQN模型策略与愈后效果不好的策略的一致率其中p∈PD;具体步骤与S603相同;其中,将愈后效果的良好的时序数据的集合记作PS;将愈后效果的不好的时序数据的集合记作PD;将PS包含的时序数据数量记作|PS|,将PD包含的时序数据数量记作|PD|。

全文数据:

权利要求:

百度查询: 中国科学院重庆绿色智能技术研究院 基于强化学习的肝素治疗脓毒症的策略推荐及评估方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。