买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:四川大学华西医院
摘要:一种基于深度监督强化学习的急性胰腺炎治疗推荐系统,涉及医疗技术领域,其主要组成为:数据采集和预处理模块用于收集急性胰腺炎患者的状态数据、医嘱数据并进行预处理;奖励函数构建模块用于计算每个患者SOFA评分和奖励反馈值;策略函数预训练模块用于构建策略函数并进行预训练;深度监督强化学习模型构建模块用于构建行为价值函数及其目标函数,用于构建策略函数的目标函数,并联合训练行为价值函数和策略函数,还用于使用优化参数后的策略函数输出推荐的治疗行为。本发明基于患者的动态实验室检查和生命体征,结合监督学习与强化学习模型,能对急性胰腺炎患者的治疗过程进行动态治疗策略推荐。
主权项:1.一种基于深度监督强化学习的急性胰腺炎治疗推荐系统,其特征在于,包括数据采集和预处理模块(1)、奖励函数构建模块(2)、策略函数预训练模块(3)、深度监督强化学习模型构建模块(4),其中:数据采集和预处理模块(1)用于收集急性胰腺炎患者的状态数据、医嘱数据并进行预处理,所述状态数据包括实验室检查指标和生命体征数据,所述医嘱数据作为患者接受的治疗行为;奖励函数构建模块(2)用于根据数据采集和预处理模块(1)输出的预处理后的状态数据,计算每个患者的每个时间点的SOFA评分,并根据SOFA评分计算奖励函数得到奖励反馈值;策略函数预训练模块(3)用于根据采集和预处理模块(1)输出的预处理后的患者状态数据、以及历史信息编码上下文向量,构建策略函数,并使用患者在各时间点真实接受的治疗行为来对策略函数进行预训练,输出优化后的策略函数的参数,所述历史信息编码上下文向量由历史状态数据和治疗行为通过一个循环神经网络RNN编码得到;深度监督强化学习模型构建模块(4)用于构建行为价值函数及其目标函数,用于构建策略函数的目标函数,并联合训练所述行为价值函数和策略函数,还用于根据患者的当前状态和历史信息编码上下文向量,使用优化参数后的策略函数输出推荐的治疗行为;所述奖励函数构建模块(2)计算奖励函数得到奖励反馈值的具体方法为:定义奖励函数:;其中:是奖励反馈值,和分别为时间点和的SOFA评分,和是预定的不同间隔的SOFA评分的阈值,是预定的调整奖励或惩罚的系数;如果,则奖励反馈值为: ;如果,根据评分等级采用不同规则:如果时的评分,则;如果时的评分,则;在其他情况下,0;如果,则奖励反馈值为: ; 为负数,此时为惩罚;所述策略函数预训练模块(3)构建的策略函数为,其中表示策略函数中待优化的参数,代表在时刻策略函数推荐的种治疗行为的向量,是在时刻根据急性胰腺炎患者的实验室检查指标和生命体征数据得到的状态向量,为历史信息编码上下文向量,覆盖历史时间长度ω,所述,RNN表示循环神经网络,是指患者从时间点至的状态序列,是指患者从时间点至所接受的治疗记录的序列;所述对策略函数进行预训练的具体方法为:构建损失函数, ;式中,是总的时间步长,是治疗行为的种类数,是在时间点对于治疗行为的实际采取情况,取值为0或1,是模型在状态和历史信息编码上下文向量下推荐治疗行为的概率;利用患者在各时间点真实接受的治疗行为来对策略函数进行预训练,通过Adam算法优化所述损失函数,得到初步优化后的参数,并得到预训练后的策略函数;所述深度监督强化学习模型构建模块(4)构建的行为价值函数为,行为价值函数的输入包括患者的状态向量、历史信息编码上下文向量、以及策略函数推荐的治疗行为的向量,行为价值网络的输出是在采取治疗行为后状态的值,由-函数预测;所述行为价值函数的目标函数为: ;式中,表示给定策略的情况下,状态的概率分布,表示给定策略,从状态和奖励的概率分布中抽样状态,表示对状态的概率分布的期望,训练过程中用样本的加权均值进行近似;表示策略函数网络根据患者时刻的状态和历史信息,推荐治疗行为的概率;、和分别为患者时刻的状态,时刻的历史信息以及时刻接受的治疗行为;和分别是时刻的状态和历史信息;表示时刻的即时奖励;表示目标行为价值函数targetQfunction;是行为价值函数的参数,通过梯度下降更新: ;式中,是参数的学习率,称为时间差分误差,用于学习-函数;表示参数的梯度算子,表示行为价值函数对参数的变化率,即参数的梯度;每轮训练结束后,的参数更新公式为: ;式中,是目标网络的参数,是主网络的参数,是更新系数;所述策略函数的目标函数为: ;式中,是用于权衡强化学习和监督学习任务的权重参数; 为强化学习目标: ;式中,是策略下的状态-价值函数;表示给定策略的情况下,状态的概率分布,表示给定策略,从状态和奖励的概率分布中抽样状态;表示对状态的概率分布的期望,训练过程中用样本的加权均值进行近似; 为监督学习目标: ;式中,表示状态的概率分布,表示从分布中抽样状态,表示对状态的概率分布的期望,训练过程中用样本的加权均值进行近似;是治疗行为的种类数,表示在时间医生是否选择了第种治疗行为,是由策略函数预测的第种治疗行为的概率;所述联合训练行为价值函数和策略函数的具体过程为:首先使用所述策略函数预训练模块中进行预训练得到的策略函数参数来初始化联合训练中的策略函数参数: ;再通过actor-critic框架迭代联合优化行为价值函数和策略函数,在联合训练过程中,策略函数的参数和行为价值函数的参数通过Adam优化器进行更新,以最大化联合目标函数: ; ;式中,表示参数的梯度算子,表示行为价值函数对参数的变化率,即参数的梯度;和分别是强化学习目标和监督学习目标函数中参数的梯度。
全文数据:
权利要求:
百度查询: 四川大学华西医院 一种基于深度监督强化学习的急性胰腺炎治疗推荐系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。