买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京航空航天大学
摘要:本发明为一种基于多实例知识蒸馏模型的PDL1表达水平预测方法,步骤如下:步骤一:利用基于多实例学习的教师‑学生卷积神经网络模型对数字病理进行图像块级别PDL1表达水平预测;步骤二:构造加权蒸馏损失函数约束学生网络S优化过程,合理配置PDL1弱标签监督信息;步骤三:利用深度随机模型对全局聚合特征进行分类,实现数字病理图像级别PDL1表达水平预测。本发明可构建组织病理学图像形态学特征与PDL1分子表型间的关联,同时针对弱标签问题设计了一种结合多实例学习与知识蒸馏模型的特征提取框架,保证了PDL1表达水平预测结果的可靠性和稳定性。本发明可以与医疗系统和病理分析相关领域应用密切结合,具有广阔的市场前景与应用价值。
主权项:1.一种基于多实例知识蒸馏模型的PDL1表达水平预测方法,其特征在于,步骤如下:步骤一:利用基于多实例学习的教师-学生卷积神经网络模型对进行数字病理图像块级别PDL1表达水平预测;步骤二:构造加权蒸馏损失函数约束学生网络优化,合理配置PDL1弱标签监督信息;步骤三:利用深度随机模型对全局聚合特征进行分类,实现数字病理图像级别PDL1表达水平预测;在步骤一中,以在ImageNet上预训练的ResNet34为基础主干网络构造教师网络T及学生网络S,以图像块对应病理图像所属病例测序得到的每百万次读取在每千个碱基中匹配的fragments数FPKM为表达水平初始标签,在最大化-最小化多样例学习框架下对学生网络进行训练;基于教师网络T分布约束和典型图像块实例分类损失对学生网络S参数进行优化;基于更新后学生网络S参数以指数移动平均方式更新教师网络T参数,并在每轮训练后根据教师网络输出的数据分布对各样本标签进行更新,保留一定比例典型图像块原始标签进行后续训练;最终输出图像块对应PDL1表达水平预测结果;在步骤一中,具体过程如下:S11、考虑数字病理图像的弱标签属性和具体分布情况,推定PDL1高表达与低表达病理切片中均存在一定比例高表达图像块与低表达图像块,构建多实例学习训练框架;给定初始图像块标签与其对应病理图像相同,基于训练过程中每阶段中间态网络对训练集各图像块进行典型性判别;基于对应假设构建最大化-最小化样例筛选模式,分别选取一定比例的高表达与低表达典型图像块,其标签保持与所在图像相同,其余图像块则设为无标签;基于更新后数据集分布继续对网络进行训练,后续不断迭代更新数据集分布及网络参数;S12、在训练框架基础上,构造孪生结构的教师-学生T-S网络对;其中学生网络S参数更新受最大化-最小化多实例学习框架约束,具体为:当前数据集分布下带标签图像块以交叉熵分类损失形式约束学生网络参数更新,无标签数据则通过衡量教师网络输出数据分布与学生网络输出分布的一致性参与学生网络S参数更新;更新学生网络参数后,通过指数移动平均方式对教师网络T参数进行更新;训练过程中T与S相互监督、交替更新,直至收敛;在步骤二中,具体过程如下:考虑以病例测序得到的每百万次读取在每千个碱基中匹配的fragments数作为其PDL1表达水平依据时,取该读数最高的三分之一样本为高表达样本,其余为低表达;低表达样本数量约为高表达样本两倍;高表达样本中同时存在大量低表达水平图像块,数据具备明显样本分布不均衡特征,因此在损失函数中引入加权交叉熵分类损失函数;同时考虑样本弱标签问题,构造最大化-最小化多实例学习损失函数,使分类损失函数作用于阳性样本的强表征性阳性实例及阴性样本的强表征阴性实例上,避免将与弱标签属性不一致的模糊实例作为噪声引入训练过程;引入分布一致性函数,约束学生网络输出与教师网络输出分布一致性;加权蒸馏损失函数的具体组成如下:在训练的第k轮中,对于每个PDL1高表达病例,从该病例的所有图像块中选取经教师网络T输出阳性概率最高的前50%实例集合对于低表达病例则选取阳性概率最低的50%集合对应赋予与中的实例以阳性和阴性标签,其余实例作为无标签样本;对于有标签实例,计算其加权交叉熵分类损失函数,其表达式为其中xi为集合中图像块样本,xj为集合中图像块样本,P+xi为学生网络输出的xi为高表达的概率值,P-xj为xj为低表达的概率值,α0和α1分别为低表达和高表达样本分类损失的对应权重,为范围内的数学期望;对于无标签样本集合Uk中的实例,计算其在学生网络S和教师网络T下输出的分布一致性;在给定相同输入并进行不同程度的数据增强的情况下形成输入数据对,进而使用l2范数度量学生网络与教师网络输出分布的距离,表达式为其中T·和T'为不同形式的随机数据增强,和分别为教师网络T和学生网络S所表示的映射函数;加权蒸馏损失函数为上述两个损失函数的加权组合,即L=Lweighted-CE+ηLconsistency,η为分布一致性损失函数的权重;采用自适应动量估计优化器ADAM优化,教师网络T和学生网络S的学习率设置均为10-2,通过梯度反向传播调整网络权重值对损失函数进行优化;在图像块级别PDL1预测结果的基础上,构造系列全局特征对数字病理图像进行描述;手工构建的全局特征包括:单张数字病理图像中被分类为阳性的图像块所占百分比、单张数字病理图像中图像块阳性概率分布直方图、单张数字病理图像中图像块阳性概率中值、单张数字病理图像中图像块阳性概率均值及ResNet34网络模型中平均池化层提取到的指定比例的图像块512维平均特征;其中,图像块级别网络共包含3个尺度:20倍放大倍数、10倍放大倍数及5倍放大倍数;将上述三个尺度下图像块级别预测网络输出构造的特征按序拼接得到对应病例多尺度全局特征,使用与图像块级别网络训练集一致的病例作为数字病理图像PDL1表达水平预测模型训练样本,构建深度随机森林,实现数字病理图像级别PDL1表达水平预测;在判别图像块PDL1表达水平时教师网络T具备比学生网络S稍高的准确率;因此,在训练完成的教师网络T基础上,构造系列全局特征V={v1,v2,v3,v4,v5}对完整数字病理图像进行描述;具体地,其中npositive为对应图像包含的阳性图像块的数量,nslide为该图像包含图像块的总数;v1即单张数字病理图像中被分类为阳性的图像块所占百分比;v2=[p0-0.1,p0.1-0.2,...,p0.9-1],其中pa-b表示阳性概率落在区间[a,b]之间的图像块频率,v2即单张数字病理图像中图像块阳性概率分布直方图数据;v3=median[fθxpositive],其中xpositive为单张数字病理图像中阳性图像块集合,即单张数字病理图像中图像块阳性概率中值;v4=mean[fθxpositive],即单张数字病理图像中图像块阳性概率均值; Φavgpool·为训练完成的教师网络T的最后一层平均池化层的映射操作,其输出为512维特征向量,Dhigh为单张图像中指定比例的阳性概率最高图像块的集合,nhigh为该集合包含的元素数量,v5即网络提取到的强表征性图像块的512维平均特征;V包含了3个尺度的全局特征信息,利用图像块级别分类器训练数据集中所包含病例的全局特征V构建深度随机森林F,则outi=FVi即对应数字病理图像PDL1表达水平预测结果。
全文数据:
权利要求:
百度查询: 北京航空航天大学 一种基于多实例知识蒸馏模型的PDL1表达水平预测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。