买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杭州谷禾信息技术有限公司
摘要:本发明公开了一种人体菌群16SrDNA高通量测序物种精确鉴定的优化方法,包括以下步骤:1、建立基于人体微生物样品的人体宏基因组菌基因组数据库;2、提取人体宏基因组菌基因组数据库的全长16SrDNA序列,建立不同人体部位的16SrDNA物种注释数据库;3、建立样本‑菌种16S序列丰度相关性网络,并利用该数据训练机器学习模型。本发明还同时提供了利用构建所得的数据库和模型,对高通量测序16SrDNA序列进行物种鉴定和丰度计算的方法。本发明能大大提高16SrDNA的物种分类分辨率和准确度,使分析者能够根据结果找到更加准确和明确的菌种。
主权项:1.人体菌群16SrDNA高通量测序物种精确鉴定的优化方法,其特征是包括以下步骤:1)、建立基于人体微生物样品的人体宏基因组菌基因组数据库;包括以下步骤:1.1)、获得人体宏基因组测序数据;1.2)、获得人体病原微生物基因组序列;1.3)、获得人体宏基因组参考基因组序列;1.4)、对1.1)所得的来源于人体同一采样部位的人体宏基因组测序数据合并后,进行宏基因组组装、分箱和质量过滤,完整度超过70%且污染少于10%的作为完整基因组;同一样本来源的完整基因组的fasta序列文件与同一来源的人体宏基因组参考基因组集的fasta序列文件以及全部人体病原微生物基因组的fasta序列文件分别合并成人体各组织部位宏基因组参考序列数据库序列文件;2)、提取人体宏基因组菌基因组数据库的全长16SrDNA序列,建立不同人体部位的16SrDNA物种注释数据库;包括以下步骤:2.1)、使用软件预测并提取人体宏基因组菌基因组数据库中每个基因组的全长16SrDNA序列,从而建立不同人体部位的16SrDNA序列数据库;所述软件包括RNAmmer,barrnap;2.2)、对人体宏基因组菌基因组数据库中每个基因组进行基因组物种注释,注释方法为:基于基因组序列kmer的物种注释方法、标志基因的方法;2.3)、将步骤2.1)所得的不同人体部位的16SrDNA序列数据库以及步骤2.2)对应所得的基因组物种注释一起构成样本类型特异性16SrDNA数据库;2.4)、将步骤2.3)所得的样本类型特异性16SrDNA数据库进行16SrDNA序列构建进化树,并标注所有物种序列完全相同至99%相似的16SrDNA序列子集;从而获得相应的16S难分辨物种集合;3)、建立样本-菌种16S序列丰度相关性网络,并利用该数据训练机器学习模型;包括以下步骤:3.1)、以步骤1.4)构建所得的人体宏基因细菌宏基因数据库作为参考序列;将步骤1.1)所得的人体宏基因组测序数据中的每个样本与上述参考序列进行序列比对并注释,从而实现样本物种构成丰度;3.2)、将步骤3.1)所得的样本物种构成丰度与步骤2.3)所得的样本类型特异性16SrDNA数据库将各物种丰度与对应16SrDNA序列相对应,从而实现样本16SrDNA构成丰度;3.3)、将步骤3.2)所得的样本16SrDNA构成丰度与步骤2.4)所得的16S难分辨物种集合使用机器学习模型,预测难分辨16S物种概率;所述机器学习模型包括决策树模型、深度神经网络模型或回归模型;利用上述方法构建所得的数据库和模型,对高通量测序16SrDNA序列进行物种鉴定和丰度计算的方法:为高通量测序16SrDNA序列首先根据样本来源类型与步骤2)中对应的16S物种序列数据库进行序列比对,并利用序列进化树确定所属物种,当出现序列无法区分物种时,将已确定物种的序列及其16SrDNA丰度数据利用步骤3)中的模型预测判断无法区分16SrDNA序列的物种归属和丰度水平。
全文数据:
权利要求:
百度查询: 杭州谷禾信息技术有限公司 人体菌群16S rDNA高通量测序物种精确鉴定的优化方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。