买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:东北林业大学;电子科技大学长三角研究院(衢州)
摘要:基于深度学习的nanopore测序数据碱基识别方法,涉及生物信息学领域,针对现有技术中nanopore测序准确率低的问题,一:下载包括肺杆菌、肠杆菌、变形杆菌在内的50组nanopore原始数据作为训练集;二:对50组原始数据进行碱基识别,得到碱基序列;三:获取准确率在99%以上的Illumina测序序列,并以准确率在99%以上的Illumina测序序列作为参考基因组,以参考基因组作为groundtruth并使用Tombo算法对碱基序列进行校正;四:使用Re‑squiggle方法将校正后的碱基序列转换为对应的电信号数据,然后将电信号数据进行标记;五:利用标记后的电信号数据以及原始数据训练神经网络,并利用训练好的神经网络进行碱基识别。本申请实现了对nanopore测序数据碱基序列高准确的识别。
主权项:1.基于深度学习的nanopore测序数据碱基识别方法,包括以下步骤:步骤一:下载包括肺杆菌、肠杆菌、变形杆菌在内的50组nanopore原始数据作为训练集;步骤二:对50组原始数据进行碱基识别,得到碱基序列;步骤三:获取准确率在99%以上的Illumina测序序列,并以准确率在99%以上的Illumina测序序列作为参考基因组,以参考基因组作为groundtruth并使用Tombo算法对碱基序列进行校正;步骤四:使用Re-squiggle方法将校正后的碱基序列转换为对应的电信号数据,然后将电信号数据进行标记;步骤五:利用标记后的电信号数据以及原始数据训练神经网络,并利用训练好的神经网络进行碱基识别;其特征在于所述神经网络包括第一卷积层、第二卷积层、BERT模块、全连接层和CTC解码模块;所述第一卷积层用于对标记后的电信号数据进行降采样,所述第二卷积层用于对降采样后的电信号数据进行特征提取,所述第一卷积层和第二卷积层后设有BN层,所述BN层用于防止均值和方差饱和,所述BERT模块用于根据提取到的特征进行训练,并输出电信号数据对应的碱基序列,所述全连接层使用softmax函数对电信号数据对应的碱基序列进行处理,得到原始电信号对应的各个碱基序列的概率,所述CTC解码模块对原始电信号对应的各个碱基序列的概率进行处理,得到最终的碱基序列,所述第一卷积层中卷积核的大小为1×3,步长为1×2,输出通道为128,所述第二卷积层中卷积核的大小为1×3,步长为1×2,输出通道为128,所述BERT模块包含12层的Transformer,768维的Embedding隐藏层和12头的注意力机制层。
全文数据:
权利要求:
百度查询: 东北林业大学 电子科技大学长三角研究院(衢州) 基于深度学习的nanopore测序数据碱基识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。