首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于机器学习的Th2A细胞的数据分选方法及相关设备_北京大学第三医院(北京大学第三临床医学院);北京大学_202410167723.4 

申请/专利权人:北京大学第三医院(北京大学第三临床医学院);北京大学

申请日:2024-02-06

公开(公告)日:2024-05-07

公开(公告)号:CN117743957B

主分类号:G06F18/2411

分类号:G06F18/2411;G06F18/214;G06N3/04

优先权:

专利状态码:有效-授权

法律状态:2024.05.07#授权;2024.04.09#实质审查的生效;2024.03.22#公开

摘要:本发明提供了一种基于机器学习的Th2A细胞的数据分选方法及相关设备,应用于数据处理技术领域。本申请获取训练样本集和目标数据集;对所述训练样本集进行预处理,生成带有标识信息的训练样本集,其中,所述标识信息用于标识与Th2A细胞相关联的基因信息;基于预设处理规则构建初始细胞分类模型;基于所述带有标识信息的训练样本集对所述初始细胞分类模型进行训练,生成目标细胞分类模型;基于所述目标细胞分类模型对所述目标数据集进行处理,生成Th2A细胞。通过比较线性SVM分类器与线性核、多项式核的分类精度或应用10倍交叉验证的径向基函数核,选择线性SVM具有多项式核的分类器,通过分类器对目标数据集进行处理从而识别出Th2A细胞。

主权项:1.一种基于机器学习的Th2A细胞的数据分选方法,其特征在于,包括:获取训练样本集和目标数据集;对所述训练样本集进行预处理,生成带有标识信息的训练样本集,其中,所述标识信息用于标识与Th2A细胞相关联的基因信息;所述对所述训练样本集进行预处理,生成带有标识信息的训练样本集,包括:对所述训练样本集进行特征提取,确定原始特征库;根据所述原始特征库划分各个特征数据集,生成训练数据集和测试数据集;利用分类器对原始特征库划分各个测试数据集进行预测,确定预测结果;使用预设算法在原始特征库划分各个训练数据集进行训练,得到测试集类预测结果;根据预测结果以及测试集类预测结果,生成融合特征数据集;基于预设基因筛选规则对所述融合特征数据集进行处理,生成标识信息,其中,所述标识信息用于标识与Th2A细胞相关联的基因信息;基于预设处理规则构建初始细胞分类模型;所述基于预设处理规则构建初始细胞分类模型,包括:分别获取具有线性函数核的线性SVM分类器、具有多项式函数核的线性SVM分类器和径向基函数核的线性SVM分类器;基于算法决策模型对上述线性SVM分类器进行处理,生成AUC值,其中,所述算法决策模型包括用于生成AUC值的计算公式,所述公式为: ;其中,AUC为ROC曲线下方的面积大小,M是Th2A细胞的数量,N是非Th2A细胞的数量,Xi和Xj表示第i个和第j个概率评分;基于所述AUC值选择具有多项式函数核的线性SVM分类器作为初始细胞分类模型,其中,所述多项式函数核的线性SVM分类器的AUC值为上述线性SVM分类器中分值最大的;基于所述带有标识信息的训练样本集对所述初始细胞分类模型进行训练,生成目标细胞分类模型;所述基于所述带有标识信息的训练样本集对所述初始细胞分类模型进行训练,生成目标细胞分类模型,包括:将所述带有标识信息的训练样本集按照预设比例划分为用于训练所述初始细胞分类模型的训练集和用于测试所述初始细胞分类模型的测试集;从所述训练集中提取多组数据组,其中,每组数据组均包含预设数量的数据样本,其中,至少一个数据样本包括标识信息;基于多组所述数据组中的数据样本对所述初始细胞分类模型进行训练,生成训练后的细胞分类模型;基于所述测试集对所述训练后的细胞分类模型进行处理,生成测试结果;若所述测试结果中包含标识信息的数据样本为Th2A细胞,则将所述训练后的细胞分类模型作为目标细胞分类模型;基于所述目标细胞分类模型对所述目标数据集进行处理,生成Th2A细胞。

全文数据:

权利要求:

百度查询: 北京大学第三医院(北京大学第三临床医学院);北京大学 一种基于机器学习的Th2A细胞的数据分选方法及相关设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。