首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于数据分析的胰腺癌预测系统及预测方法 

申请/专利权人:数据空间研究院

申请日:2024-04-09

公开(公告)日:2024-06-25

公开(公告)号:CN118016315B

主分类号:G16H50/70

分类号:G16H50/70;G16H50/30;G06N20/00;G06N5/01;G06F18/213

优先权:

专利状态码:有效-授权

法律状态:2024.06.25#授权;2024.05.28#实质审查的生效;2024.05.10#公开

摘要:本发明公开了一种基于数据分析的胰腺癌预测系统及预测方法,包括数据采集模块:用于收集来自不同数据源的数据;数据预处理模块:对数据采集模块收集到的数据进行清洗、去噪和预处理;特征提取模块:对预处理后的数据提取与胰腺癌风险相关的特征;机器学习模型构建模块:选择机器学习模型,并基于已标注的训练数据对机器学习模型进行训练和优化,并进行特征选择和机器学习模型参数调整;个体化预测模块:对于待评估的个体,根据个体的各项健康数据和医疗历史数据输入机器学习模型进行计算,得出对应的风险等级或概率预测。本发明通过充分整合多源数据以及采用先进的机器学习和数据挖掘算法,优化了胰腺癌预测模型,提高预测准确性。

主权项:1.一种基于数据分析的胰腺癌预测系统,其特征在于,包括如下模块:数据采集模块:用于收集来自不同数据源的生化指标、医疗历史数据、生活方式数据以及个体的各项健康数据;数据预处理模块:对数据采集模块收集到的数据进行清洗、去噪和预处理;特征提取模块:对预处理后的数据提取与胰腺癌风险相关的特征;机器学习模型构建模块:选择机器学习模型,并基于已标注的训练数据对机器学习模型进行训练和优化,并进行特征选择和机器学习模型参数调整;个体化预测模块:对于待评估的个体,利用已训练好的机器学习模型和特征,个体化预测模块根据个体的各项健康数据和医疗历史数据输入机器学习模型进行计算,得出对应的风险等级或概率预测;预测结果展示模块:将个体化预测模块预测的结果展示给医生和患者;包括如下步骤:S1、数据分类:将数据预处理模块收集的数据划分为训练集和测试集,按照8:2的比例进行分配;S2、加权特征选择:结合数据重要性进行加权,计算每个特征的加权基尼系数或加权信息增益,并选择加权结果最大的特征作为节点划分特征;S3、模型构建:随机森林由多个决策树组成,每个决策树都是一个分类器,根据特征选择方法,在构建每个决策树的节点时,使用加权基尼系数或加权信息增益来选择划分特征;S4、参数调整和交叉验证:对于一个待预测的个体,将个体的各项健康数据和医疗历史数据输入到每个决策树中,每个决策树都给出一个预测结果,随机森林预测结果是所有决策树预测结果的投票结果;还包括数据重要性计算,使用相关系数计算每个特征与胰腺癌风险的相关程度,得到数据重要性向量Data_Importance;所述数据重要性计算具体包括:使用相关系数作为数据重要性的度量,衡量每个特征与胰腺癌风险之间的线性相关程度,Data_Importance是包含所有特征相关系数的向量,相关系数的计算公式如下: ;其中,Data_Importance表示包含所有特征相关系数的向量,Data_Importancei表示第i个特征与目标变量的相关系数,和分别表示第i个样本的特征值和目标胰腺癌风险值,和分别为特征和目标的均值,n为样本数量,x表示与胰腺癌风险相关的特征或指标,y是否患有胰腺癌,患有胰腺癌的患者标记为1,没有胰腺癌的患者标记为0;所述加权特征选择具体包括:用Data_Importance表示数据重要性的向量,每个元素对应一个特征的相关系数,对于每个节点的特征选择,定义加权基尼系数或加权信息增益衡量特征的重要性;对于节点N,在节点N有K个胰腺癌风险等级,K个胰腺癌风险等级中第k个类别的样本个数为,总样本个数为n,节点N的基尼系数用以下公式计算: ;基尼系数衡量节点N中样本的不纯度或混合程度,基尼系数的值范围在0到1之间,基尼系数的值越小表示节点中的样本越纯净,即属于同一类别,基尼系数的值越大表示节点中的样本越混合,即属于不同的类别;节点N,特征的加权基尼系数的计算公式如下: ;在节点N上,信息增益表示为: ;其中,表示特征的取值集合,表示在节点N中特征取值为v的样本个数,与分别表示节点N和特征取值为v的子节点的熵;加权信息增益的计算公式如下: 。

全文数据:

权利要求:

百度查询: 数据空间研究院 基于数据分析的胰腺癌预测系统及预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。