首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种PacBio测序数据纠错结果的自动化评估方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:桂林电子科技大学

摘要:本发明公开一种PacBio测序数据纠错结果的自动化评估方法,对原始PacBio测序数据进行质量控制得到符合设定阈值范围的测序序列;使用待评估的纠错方法对质量控制后的cleanreads纠错得到序列记为correctedreads,并统计纠错所需的内存资源和时间消耗;对纠错前、后的cleanreads、correctedreads进行比较、分析,得到纠错输出率TH和纠错后序列的平均长度;将纠错后的correctedreads与其对应的参考基因组进行比对,得到比对序列MSA并统计分析,得到纠错的灵敏度和正确率;将纠错后的correctedreads组装得到contigs;将contigs与其对应的参考基因组比对,得到比对contigsMSA统计分析,统计出contigs的数量、基因组覆盖率和NGA50。

主权项:1.一种PacBio测序数据纠错结果的自动化评估方法,其特征在于,包括如下步骤:1)对原始PacBio测序数据进行质量控制,得到符合设定阈值范围的测序序列;具体是查看原始PacBio测序数据的碱基质量分数、序列质量分数、GC含量、序列重复级别因素,根据各项因素,设定阈值对原始测序数据进行筛选,剔除低于和高于阈值的序列后,得到的序列记为cleanreads;2)使用待评估的纠错方法对质量控制后的序列cleanreads进行纠错后,得到序列记为correctedreads,纠错的同时,统计纠错所需的内存资源和时间消耗;3)对纠错前的序列cleanreads和纠错后的序列correctedreads进行比较,进行统计分析,得到纠错输出率TH和纠错后序列的平均长度;具体包括如下步骤:3-1)比较纠错后的序列correctedreads和纠错前的序列cleanreads的数据量,计算纠错过程的纠错输出率TH;3-2)计算纠错后序列correctedreads的平均长度,并对长度分布进行可视化;4)将纠错后的序列correctedreads与其对应的参考基因组进行比对,得到比对序列MSA;5)对比对后的序列MSA进行统计分析,得到纠错的灵敏度和正确率,具体包括如下步骤:5-1)对纠错后序列correctedreads统计成功校正的碱基数量TP和出错但未校正的碱基数量FN;5-2)利用TH、TP和FN,计算纠错过程的灵敏度;5-3)对纠错后的序列correctedreads统计器包含的插入、删除、替换三种错误的碱基总数;5-4)对步骤5-3)得到的三种错误的碱基总数计算纠错后序列correctedreads的正确率;5-5)计算纠错后序列correctedreads的基因组覆盖率;6)将纠错后的序列correctedreads进行组装,得到contigs序列,具体包括如下步骤:6-1)对纠错后的序列correctedreads进行两两比对,每条reads只保留质量和长度最优的两个比对结果,计算总体的覆盖率估计;6-2)根据覆盖率信息,对比对结果进行进一步筛选,丢弃覆盖率小于阈值的比对;6-3)将丢弃低覆盖率后的比对结果生成字符串图,修剪末端,去掉支持数量小于阈值的重叠部分,消除短分支;6-4)利用字符串图生成contigs序列;7)将组装得到的contigs序列与其对应的参考基因组进行比对,得到比对序列contigsMSA;8)对步骤7)得到的contigsMSA进行统计分析,具体是统计出contigs序列的数量,以及计算出contigs序列的基因组覆盖率和计算出contigs序列的NGA50。

全文数据:

权利要求:

百度查询: 桂林电子科技大学 一种PacBio测序数据纠错结果的自动化评估方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。