首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多来源基因数据库的基因相关特征融合预测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京大学第三医院(北京大学第三临床医学院);北京大学;宁夏医科大学总医院

摘要:本发明公布了一种基于多来源基因数据库的基因相关特征融合预测方法,建立基于动态阈值的迭代随机森林方法,针对多来源基因数据库的特征基因集合进行计算,根据特征重要性的分布设定动态阈值,对基因数据进行全局优化,并生成不同的特征基因集合,通过融合不同来源的基因数据库及相应的不同特征基因集合,实现对基因相关特征的融合预测。使用本发明方法可实现对不同来源基因数据库、不同机器学习框架、多个特征基因集合进行融合预测计算,实现数据之间的协同,有效地提升基因相关特征预测的准确性。

主权项:1.一种基于多来源基因数据库的基因相关特征融合预测方法,建立基于动态阈值的迭代随机森林方法,针对多来源基因数据库的特征基因集合进行计算,根据特征重要性的分布设定动态阈值,对基因数据进行全局优化,并生成不同的特征基因集合,通过融合不同来源的基因数据库及相应的不同特征基因集合,实现对基因相关特征的融合预测;包括如下步骤:1收集得到多来源基因数据库,不同的基因数据库均包含基因数据、基因相关特征表现相关信息;基因数据包括基因表达水平值;2分别对多来源基因数据库的数据进行标准化处理和数据增强,得到的数据库记为DataBase1*,DataBase2*,…,DataBaseN*;3设计动态阈值迭代随机森林方法,对步骤2得到的N个多来源基因数据库的特征基因集合逐一进行计算,得到N个不同的特征基因集合{SigGen1},{SigGen2},…,{SigGenN};包括:31对各基因数据库中的个体样本的基因数量进行删减;32设计动态阈值迭代随机森林方法,对多来源基因数据库的特征基因集合进行计算;321计算得到多来源基因数据库中每个基因在随机森林中的特征重要性;基因的特征重要性表示基因为随机森林带来的贡献和增益,由基因为随机森林中每棵决策树带来的贡献和增益求平均值得到;322通过设定动态阈值批量删除重要性低的特征,以减少迭代次数;设定动态阈值包括:将特征重要性拟合为某种概率分布;再根据拟合出的概率分布的参数动态地确定阈值;323采用动态阈值迭代随机森林方法进行多轮迭代,在每轮迭代中拟合出对应的分布参数,求解得到全局最优特征子集,筛选出特征基因子集,获得N个不同的特征基因集合,记为{SigGen1},{SigGen2},…,{SigGenN};4对各数据库样本进行合并,并对样本的基因进行筛除,只保留所有样本均具有的基因,最终得到一个新的基因数据库DataBaseAll*;5将步骤3得到的N个不同的特征基因集合{SigGen1},{SigGen2},…,{SigGenN}进行集合合并,得到一个特征基因集合{SigGenAll^};再遍历{SigGenAll^}中的特征基因,去掉步骤4中得到的新基因数据库DataBaseAll*各样本中未包含的基因,最终得到合并后的特征基因集合{SigGenAll*};6采用机器学习算法构造基因分类器,即基因相关特征预测模型;然后基于融合后数据库DataBaseAll*和特征基因集合{SigGenAll*},对基因相关特征预测模型进行训练;训练基因分类器时的输入为基因表达水平值和基因相关特性;再利用训练好的基因相关特征预测模型,对待预测基因数据进行预测分析;预测时输入为待预测的基因表达水平值,分类器的输出是基因相关特性;实现基因相关特征预测。

全文数据:

权利要求:

百度查询: 北京大学第三医院(北京大学第三临床医学院) 北京大学 宁夏医科大学总医院 一种基于多来源基因数据库的基因相关特征融合预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。