Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于数据挖掘的堆内构件可靠性分析系统及方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙大城市学院

摘要:本发明公开了一种基于数据挖掘的堆内构件可靠性分析系统及方法,利用监督学习,在建模过程中建立评价指标来衡量模型的优劣,得到评价堆内构件可靠性的两种建模指标;基于确定的堆内构件健康状态评估的指标,对采集到的数据进行降维处理,构建可靠性评价的业务特征;然后基于堆内构件运行状态数据的时序性特点,将当前样本重构为具有时序性的样本集,通过长短时记忆循环神经网络预测方法建立模型框架;模型训练过程则是基于预测目的,选择交叉熵损失函数和Adam优化器,寻找算法模型参数,预测堆内构件的可靠性。本发明具有较高的识别精度和泛化能力,性能好,适用于堆内构件的健康状态识别和可靠性判断。

主权项:1.一种基于数据挖掘的堆内构件可靠性分析系统,其特征在于,该系统包括:数据预处理模块、堆内构件可靠性评价指标确立模块、可靠性评价特征构建模块、可靠性评价维度解析模块、可靠性预测分析模块,其中:数据预处理模块,对堆内构件采集的数据进行异常值处理、空值处理、离散化处理和归一化处理;其中,数据异常值处理、空值处理,通过数据筛选和数据清洗实现;离散化处理和归一化处理,由特征简约和数据变换实现;堆内构件可靠性评价指标确立模块,利用监督学习,在建模过程中建立评价指标来衡量模型的优劣,得到评价堆内构件可靠性的两种建模指标,包括ROC曲线面积为指标和F值系列指标;所述ROC曲线是以面积为指标,评估所有分类阈值下模型的整体性能,描述的是正例率TPR和负利率FPR之间的关系曲线,其中TPR和FPR是基于二元分类混淆矩阵的计算获得;所述F值系列指标则是对某一具体分类阈值模型的预测结果进行评估,包括准确率、精确率、召回率三个指标;所述准确率表示在给定的测试数据集中,分类器正确预测的样本数与总样本数之比,其计算公式如1所示: 其中,TP表示实际值和预测值同为正例的样本数;FP表示实际值为负例,但被预测为正例的样本数;FN表示实际值为正例,但被预测为负例的样本数;TN表示实际值和预测值同为负例的样本数;所述精确率表示预测为正例的实例中实际为正例的比例,其计算公式如2所示: 所述召回率关注的是单一类别的预测准确率,度量有多少个正例被预测为正例,其计算公式如3所示: 可靠性评价特征构建模块,基于确定的堆内构件可靠性评价指标,对采集到的数据进行降维处理,构建可靠性评价的业务特征;其中,降维采用的是自动编码器的方法,是深度学习中一种无监督学习模型,误差来源于重构数据与原输入数据的对比,通过无监督学习的方法尽可能复现输入信号;可靠性评价维度解析模块,基于堆内构件运行状态数据的时序性特点,将当前样本重构为具有时序性的样本集;具体地,基于多维时序序列预测的样本重构方法,分别从数据集和标签集的角度出发,将采集的时间点数据集重构成时间序列样本,将当前状态标签集重构为预测状态标签集,具体实现如式4到式5所示; 其中,矩阵A表示原带标签的样本集,ai表示第i条样本,ci表示第i条样本对应的标签,m表示维度数量,n表示样本点数量; 其中,矩阵B表示基于时序特点重构的带标签的样本集;参数i和j为输入数据时序长度和预测状态时间点;可靠性预测分析模块,通过长短时记忆循环神经网络预测方法建立模型框架;模型训练过程则是基于预测目的,选择交叉熵损失函数和Adam优化器,寻找算法模型参数,预测堆内构件的可靠性;所述长短时记忆循环神经网络预测方法,通过在隐藏层中引入记忆存储模块——单元状态,并增加输入控制门、忘记控制门、输出控制门,决定在单元状态中被记忆的信息,从而实现长时间记忆功能;基于所述堆内构件可靠性分析系统实现的堆内构件可靠性分析方法,包括以下步骤:1根据经验初设样本占比和代价敏感学习参数、批量和批次;2给定时序长度参数i和预测状态时间间隔参数j的取值范围和取值粒度,确定i和j的取值,并使用交叉组合的方式生成m组数据;3依次利用m组i和j的组合值进行基于多维时序序列的样本重构,得到m组输入数据时序长度和预测状态时间间隔均不同的样本集;同时,为保证m组数据建模结果的可比性,需保证不同样本集在预测时间点上的一致性;4依次对m组样本集进行建模预测,并对不同模型在测试集上的应用效果进行对比评估,应用效果最优的i和j的组合值即为i和j的参数值;5在i、j最优组合的基础上,初设批量p和批次n,给定样本占比和代价敏感学习参数的取值范围,使用网格搜索进行寻优,并通过模型在测试集上的应用效果确定样本占比和代价敏感学习参数的最优组合;6在i、j最优组合以及给定样本占比和代价敏感学习参数的最优组合的基础上,给定批量p和批次n的取值范围,使用网格搜索进行寻优,并通过模型在测试集上的应用效果确定p和n的最优组合;7根据不同数量的数据子集模型在测试集上应用效果的加权结果,确定最优加权方式以及数据子集个数。

全文数据:

权利要求:

百度查询: 浙大城市学院 一种基于数据挖掘的堆内构件可靠性分析系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。