西安交通大学杨铁林获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安交通大学申请的专利一种利用双层概率模型聚类宏基因组序列的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114446394B 。
龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210103106.9,技术领域涉及:G16B40/00;该发明授权一种利用双层概率模型聚类宏基因组序列的方法是由杨铁林;刘聪聪;郭燕;董珊珊设计研发完成,并于2022-01-27向国家知识产权局提交的专利申请。
本一种利用双层概率模型聚类宏基因组序列的方法在说明书摘要公布了:本发明涉及宏基因组序列聚类技术领域,尤其涉及一种利用双层概率模型聚类宏基因组序列的方法,包括P1,利用第一层概率模型对初始宏基因组中的所有序列进行聚类,获得多个初级聚类;P2,利用第二层概率模型对每一个初级聚类进行再次聚类,获得最终聚类;所述第二层模型包括种子选择模型、k‑mer频率概率模型和覆盖度概率模型。本发明采用的利用双层概率模型聚类宏基因组序列的方法利用两层模型对初始宏基因组中的所有序列进行处理,能够有效利用宏基因组序列不同维度的特征,适用于所有宏基因组测序数据,例如肠道微生物数据、土壤微生物数据和水微生物数据等。
本发明授权一种利用双层概率模型聚类宏基因组序列的方法在权利要求书中公布了:1.一种利用双层概率模型聚类宏基因组序列的方法,其特征在于,包括以下步骤:P1,利用第一层概率模型对初始宏基因组中的所有序列进行聚类,获得多个初级聚类;所述第一层概率模型为DPGMM模型;具体为:P11,从初始宏基因组中获得所有序列的-mer频率特征向量和覆盖度特征向量,其中-mer表示长度为的寡聚核苷酸;所述-mer频率特征向量中的值为4;P12,将-mer频率特征向量与覆盖度特征向量合并为单一的特征向量;P13,利用狄利克雷过程构建DPGMM模型,以P12合并的特征向量作为输入进行聚类;P14,利用变分方法通过迭代的方式对P13构建的DPGMM模型参数进行估计,利用估计的DPGMM模型参数获得初级聚类;在迭代过程中,每间隔10个循环,计算所有聚类的权重;然后根据权重的大小将所有聚类分为大聚类和小聚类,其中大聚类的权重大于或者等于500Kb,小聚类的权重小于500Kb;随后将小聚类解散并重新分配给大聚类;最后将重新组合的大聚类进行重新迭代;所述初级聚类的权重大于或者等于500Kb;P2,利用第二层概率模型对每一个初级聚类进行再次聚类,获得最终聚类;所述第二层概率模型包括种子选择模型、-mer频率概率模型和覆盖度概率模型;具体为:P21,利用种子选择模型从每一个初级聚类中选择个种子序列,为正整数;P22,将种子序列利用-mer频率概率模型获得的分类概率和利用覆盖度概率模型获得的覆盖度特征进行结合,获得最终聚类;其中,所述分类概率的获取步骤如下:首先利用多分类支持向量模型种子序列的-mer频率特征进行训练,获得已训练的分类模型;再利用已训练的分类模型对初级聚类中的所有序列进行预测,并获得对应的分类概率;利用期望最大化算法获得最终聚类。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安交通大学,其通讯地址为:710049 陕西省西安市咸宁西路28号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。