首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于机器学习的布鲁氏菌病特征选择方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:内蒙古卫数数据科技有限公司

摘要:本发明公开了一种基于机器学习的布鲁氏菌病特征选择方法及系统,包括:数据获取模块、数据预处理模块、RFE特征排序模块、SHAP分析模块和特征选择模块;该方法为:获取布鲁氏菌病患者及非布鲁氏菌病个体的非空血常规数据并进行预处理;利用递归特征消除RFE得出各特征排序并赋权重;利用随机森林算法构建与训练分类模型,利用SHAP进行可解释性分析,并根据各特征的重要性赋予其权重;分别计算各特征的总权重并降序排列,从首项起依次增加特征构成特征子集,分别进行模型训练与交叉验证,选择最优特征子集为最终的特征集;本发明利用机器学习模型对布鲁氏菌病等分类模型进行多维特征的特征选择过程,降低维度冗余的同时,选择出预测效能较优的特征子集。

主权项:1.一种基于机器学习的布鲁氏菌病特征选择方法,其特征在于,包括以下步骤:S1.获取布鲁氏菌病患者及非布鲁氏菌病个体的非空血常规数据并进行预处理,非空血常规数据包括n维特征,n大于1;S2.基于预处理后的非空血常规数据集,利用递归特征消除RFE得出各特征的排序,并对所有特征赋予权重;S3.基于预处理后的非空血常规数据集,利用随机森林模型进行布鲁氏菌病分类模型的构建与训练,对训练后的布鲁氏菌病分类模型利用SHAP进行可解释性分析,并根据各特征的重要性赋予其权重;S4.分别计算各特征的总权重并降序排列,从首项起依次增加特征构成特征子集,分别用随机森林模型进行交叉验证和训练,得出对应的准确率,选择准确率最高的特征子集为最终的特征集;S2中RFE采用的基模型为支持向量机SVC模型;S2的具体内容为:S21.基于预处理后的非空血常规数据集或更新特征子集,计算分离超平面;S22.利用排序准则计算特征得分;S23.从特征子集中删除得分最小的特征,更新特征子集;S24.重复S21、S22、S23,直到特征子集中的特征数为最小特征数;S25.得到所有特征对应的特征排序值并按特征排序值赋予权重;S21具体内容为:ωΤxi+b=0其中,ω为分类器的权重,b为偏移量,数据集T={xi,yi,i=1,2,…N},xi∈RD,yi∈{0,1},为xi为各样本的特征向量,yi为各样本对应的标签,N为样本量,D为样本特征数;求取特征空间上正确划分数据集且间隔最大的分离超平面: 即最小化对应的拉格朗日函数为: 其中,αi≥0为拉格朗日乘子,Kxi,xj=xiTxj为线性核函数;最小化Lω,b,α使得则ω的解为: S22的计算特征得分的具体公式为: S25中各特征权重αi按排序值j定义如下: 其中,n为预处理后非空血常规数据集的特征总数;S3的具体内容为:利用随机森林模型对预处理后的非空血常规数据集进行训练与测试,经过调参优化将模型调至最优,对训练后的随机森林模型,运用SHAP分析得出各特征的SHAP值j,对模型决策过程进行可视化,得出样本数据中各特征对于最终模型预测结果的影响,即各特征的权重值βi:βi=0.6*ji=1,2,…,n。

全文数据:

权利要求:

百度查询: 内蒙古卫数数据科技有限公司 一种基于机器学习的布鲁氏菌病特征选择方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。