买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西安交通大学医学院第一附属医院;青岛市市北区海伦路街道社区卫生服务中心
摘要:本发明提供一种心血管病例数据的处理方法及系统,涉及数据处理技术领域,所述方法包括:根据特征排序表以及动态因子,确定影响心血管病风险的关键因素;根据关键因素,采用因果稳定性和时间感知的长短期记忆网络学习患者长期代谢特征中的疾病风险信息,以构建处理模型;根据所述处理模型,将个体的特征与因果稳定性和时间感知的长短期记忆网络学习到的疾病风险信息进行特征交互,以得到特征交互结果;根据特征交互结果,以使处理模型使用全连接网络进行最终的疾病风险处理,并输出处理结果。本发明能够充分利用电子病历数据中的多维信息,提高了工作效率和准确性。
主权项:1.一种心血管病例数据的处理方法,其特征在于,包括:对高血压电子病历数据集进行预处理,以得到预处理数据;使用预处理数据构建随机森林模型,对所述随机森林模型进行训练,以得到训练后随机森林模型;通过训练后随机森林模型,计算每个特征的重要性得分;根据每个特征的重要性得分,对特征进行排序,以得到特征排序表;根据特征排序表以及动态因子,确定影响心血管病风险的关键因素;根据关键因素,通过LSTM网络确定一个隐藏状态序列,隐藏状态序列包含了与疾病风险相关的信息;根据隐藏状态序列,为每个隐藏状态分配一个权重;权重的计算公式为: ;其中,,是修正线性单元激活函数;V,W,U和是参数,是额外特征,是双曲正切函数,代表序列的长度,是在时刻的隐藏状态,和分别是在时刻和时刻的注意力得分;将LSTM模型的预测结果与辅助模型的预测结果进行集成,以提高整体预测性能,辅助模型是基于不同特征子集训练的模型,集成学习方法通过结合多个模型的预测来减少单一模型的偏差和方差,从而提高预测的准确性和鲁棒性;利用因子分解机对个体的原始特征进行二阶特征交互,以得到交互结果;将交互结果与隐藏状态序列进行融合,以得到特征交互结果;将特征交互结果输入到一个全连接网络中进行特征抽象和组合,以得到全连接网络输出数据;将特征交互结果作为输入传递给一个梯度提升决策树模型,具体包括,对于梯度提升决策树模型,训练一系列的决策树,在训练完成后,梯度提升决策树模型的输出数据是所有决策树的预测结果的加权和;将全连接网络和梯度提升决策树的输出数据进行集成,以得到集成数据,根据集成数据以得到最终的疾病风险处理结果;对高血压电子病历数据集进行预处理,以得到预处理数据,包括:随机选择k个初始聚类中心,并进行迭代,直到聚类结果稳定,其中,聚类中心的更新公式为: ;其中,是聚类标签,是第i个数据点,是数据集中的总数据点数,是索引,是数据点到聚类中心的欧氏距离的平方,是常数;对于每个聚类中的数据,计算特征之间的协方差矩阵C,其中, ,其中,是第i个数据点的权重,表示矩阵的转置,表示第j个数据点的权重;是第j个数据点;j是索引;对协方差矩阵C进行特征分解,以得到协方差矩阵C的特征值和对应的特征向量;根据特征值的大小排序特征向量;通过将原始数据矩阵与选定的主成分矩阵相乘,以得到预处理数据;使用预处理数据构建随机森林模型,对所述随机森林模型进行训练,以得到训练后随机森林模型,包括:确定决策树的数量、每个决策树的最终深度、叶子节点所需的样本数;采用自助采样法从原始训练数据集中抽取样本,生成一个新的训练子集,在新的训练子集上构建决策树;在每个决策树的节点上,处理每个特征的重要性,并确定最终的特征进行节点划分;决策树持续生长,直到达到预定的停止条件,在生长过程中,每个节点均根据选定的特征进行划分,并递归地生成子节点;重复操作,每次使用不同的自助采样子集构建决策树,直到生成指定数量的决策树;将构建完成的所有决策树集成在一起形成随机森林模型;对所述随机森林模型进行训练,以得到训练后随机森林模型;通过训练后随机森林模型,计算每个特征的重要性得分,包括:获取训练后随机森林模型的特征重要性属性;根据特征重要性属性,计算特征重要性得分;根据每个特征的重要性得分,对特征进行排序,以得到特征排序表,包括:根据特征的重要性得分,使用快速排序法对特征进行初步排序,以得到初步排序列表;根据初步排序列表,分析特征之间的相关性,并根据相关性对初步排序列表进行调整,以得到优化的排序结果,包括:对于初步排序列表中的每一对特征(,),其中,和分别表示第h和第m个特征,计算和之间的相关系数,其中,相关系数的计算公式为: ;其中,是第个样本的权重;和分别是第h和第m个特征的标准差,,表示样本在数据集中出现的频率,,表示第个样本在第h个特征上的值,,表示样本数量;使用相关系数构建一个相关性值,其中,,是EWMA的平滑因子,是时间;根据相关性值,构建一个相关性矩阵R;遍历初步排序列表中的特征,对于每个特征Fh,查找与其相关性较高的特征集合Hh;根据贪心策略,对于每个特征Fh,将其与特征集合Hh中的特征进行位置交换,以得到优化后的排序结果;根据优化的排序结果,生成特征排序表;根据特征排序表以及动态因子,确定影响心血管病风险的关键因素,包括:根据特征的重要性得分和动态因子的数值,计算每个特征的综合得分,其中,综合得分的计算公式为: ;其中,是第个特征的综合得分,表示特征的数量,是第个静态特征的权重是第个特征在第个样本上的标准化值,是动态因子,是在第个时间点上的权重,是在第个时间点上第个特征的观测值,是移动平均的时间窗口大小,是时间,是索引;,是一个介于0和1之间的平滑因子,是比例常数;根据综合得分的高低,确定影响心血管病风险的关键因素;根据综合得分的高低,确定影响心血管病风险的关键因素,包括:根据综合得分,对所有特征进行排序;根据预设的阈值,从排序后的特征列表中挑选出综合得分≥阈值的特征,并将综合得分≥阈值的特征确定为影响心血管病风险的关键因素。
全文数据:
权利要求:
百度查询: 西安交通大学医学院第一附属医院 青岛市市北区海伦路街道社区卫生服务中心 一种心血管病例数据的处理方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。