首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于PacBio全长转录组测序数据的质控方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京百迈客生物科技有限公司

摘要:本发明提供了基于PacBio全长转录组测序数据的质控方法,包括步骤:1利用IsoSeq分析流程从原始PacBio全长转录组测序数据得到高质量和低质量的一致性全长序列;2基于Illumina测序数据对低质量一致性全长序列进行校正,过滤仍达不到高质量标准的序列;3合并高质量和校正后符合条件的低质量一致性全长序列,按照以下标准进行过滤:去除由序列嵌合产生的过长序列;去除自身比对结果中存在回文序列的一致性全长序列;去除能被其他一致性全长序列比对到多个位置的序列。通过多个标准过滤一致性全长序列中可能存在的嵌合序列,降低最终转录组中的假阳性结果比例,提高后续转录组相关分析结果的准确性。

主权项:1.基于PacBio全长转录组测序数据的质控方法,包括步骤:1利用IsoSeq分析流程从原始PacBio全长转录组测序数据得到高质量和低质量的一致性全长序列;2基于Illumina测序数据对低质量一致性全长序列进行校正,过滤仍达不到高质量标准的序列;3合并高质量和校正后符合条件的低质量一致性全长序列,去除由序列嵌合产生的过长序列;4去除自身比对结果中存在回文序列的一致性全长序列;5去除能被其他一致性全长序列比对到多个位置的嵌合序列;方法为利用Blast将步骤4去除存在回文序列的一致性全长序列的剩余的每条序列与其他所有序列进行比对,序列比对到任意一条序列的多个位置,同时满足相邻两个位置比对方向相反且比对长度大于自身序列长度的95%和比对相似性大于95%时,被比对上的序列被判定为嵌合序列进行过滤。

全文数据:基于PacBio全长转录组测序数据的质控方法技术领域本发明涉及生物信息学技术领域,具体地说,涉及一种基于PacBio全长转录组测序数据的质控方法,用于过滤PacBio全长转录组测序数据中的嵌合序列。背景技术转录组是连接基因组遗传信息与生物功能的蛋白质组的纽带,转录水平的调控是最重要也是目前研究最广泛的生物体调控方式,转录组研究是理解生命过程必不可少的工具之一。转录组测序能够对样品任意时间点或任意条件下的转录组进行测序,动态反映基因转录水平,同时鉴定和定量稀有转录本和正常转录本,并且提供样品特异的转录本序列结构信息。然而基于第二代高通量测序平台的测序技术往往不能准确得到或组装出完整转录本,无法准确识别isoform及等位基因表达的转录本,使人们难以理解这一生命活动更深层次的含义。基于PacBioSMRT单分子实时测序技术的全长转录组测序无须打断RNA片段,该平台的超长读取包含了单条完整转录本序列信息,后期分析无需组装即可得到完整的转录本。通过PacBio测序技术获取全长转录组的分析过程主要包括全长序列识别、isoform水平聚类得到一致性序列和一致性序列polishing几个步骤。分析过程中因为测序错误无法正确识别出接头序列,原始聚合酶序列中的子序列通过接头序列相连形成嵌合序列。在全长序列识别步骤通过判断序列中间是否存在引物序列过滤掉部分嵌合序列见图1,但仍有部分嵌合序列因无法正确识别到引物序列未被过滤。特别是在没有测序物种参考基因组的情况下,无法通过与参考基因组的比对信息确定可能的嵌合序列。这些无法识别出来的嵌合序列保留到最终的转录组中,会对后面转录组相关分析结果的准确性产生很大影响。为了提高转录组测序数据的准确性,有必要进一步除去现有技术中无法识别出来的嵌合序列,但目前未见相关方法报道。发明内容本发明的目的是提供一种基于PacBio全长转录组测序数据的质控方法,用于过滤PacBio全长转录组测序数据中的嵌合序列,以提高转录组测序数据的准确性。为了实现本发明目的,本发明的技术方案基于PacBio全长转录组测序数据的质控方法,包括步骤:1利用IsoSeq分析流程从原始PacBio全长转录组测序数据得到高质量和低质量的一致性全长序列;本领域公知的是,所述的高质量是根据序列的平均准确率进行判断的,准确率阈值是0.99;2基于Illumina测序数据对低质量一致性全长序列进行校正,过滤仍达不到高质量标准的序列;3合并高质量和校正后符合条件的低质量一致性全长序列,去除由序列嵌合产生的过长序列;4去除自身比对结果中存在回文序列的一致性全长序列;5去除能被其他一致性全长序列比对到多个位置的嵌合序列。本发明的质控方法中,步骤1所述高质量和低质量的一致性全长序列是通过识别全长序列中间的引物序列初步过滤确定有引物序列相连的嵌合序列,并进一步处理具体方法为本领域常规技术,包括:1根据序列相似性对所有全长非嵌合序列进行聚类得到一致性序列;2利用原始数据对一致性序列进行纠错。得到经过打磨纠错后的高质量和低质量的一致性全长序列。步骤1中,高质量一致性全长序列的判断标准是满足序列平均准确率大于0.99。本发明的质控方法中,步骤2是采用proovread对步骤1得到的低质量一致性全长序列进行校正,保留校正后序列准确性大于0.99的一致性全长序列。步骤3中,所述由序列嵌合产生的过长序列是所述指在高质量和校正后符合条件的低质量一致性全长序列的合并序列中,长度大于15000bp的序列。本发明的质控方法的步骤4中,所述回文序列同时满足以下条件:1一致性全长序列自身有两个片段可以互相反向比对上;2比对长度大于500bp;3比对相似性大于95%。步骤5的方法为利用Blast将步骤4去除存在回文序列的一致性全长序列的剩余的每条序列与其他所有序列进行比对,序列比对到任意一条序列的多个位置,同时满足相邻两个位置比对方向相反且比对长度大于自身序列长度的95%和比对相似性大于95%时,被比对上的序列被判定为嵌合序列并进行过滤。本发明提供了所述质控方法在无参考基因组的情况下对经IsoSeq流程处理后得到的一致性全长序列进一步去除嵌合序列中的应用。本发明提供了所述质控方法在降低转录组测序数据中假阳性结果比例中的应用。本发明提供了所述质控方法在提高转录组测序数据准确性中的应用。本发明提供的基于PacBio全长转录组测序数据的质控方法是基于序列长度和序列比对识别回文序列,过滤嵌合序列,不再局限于嵌合序列相连的接头序列和引物序列信息现有技术过滤嵌合序列仅仅是基于嵌合序列相连的接头序列和引物序列信息,导致转录组测序数据的准确性低,能够在接头序列和引物序列高测序错误率的情况下,将现有技术下无法识别的嵌合序列去除,降低最终转录组中假阳性结果的比例,从而可以将低质量一致性全长序列加入分析中以获取更多的转录本,进而提高后续转录组相关分析结果的准确性。附图说明图1为背景技术中现有方法通过识别全长序列中间引物序列鉴定的人工嵌合序列结构。具体实施方式以下实施例进一步说明本发明的内容,但不应理解为对本发明的限制。在不背离本发明精神和实质的情况下,对本发明方法、步骤或条件所作的修改或替换,均属于本发明的范围。若未特别指明,实施例中所用的技术手段为本领域技术人员所熟知的常规手段。实施例1本实施例测序数据包括1个马尾松的PacBio全长转录组测序数据23G,以及马尾松样品的3个生物学重复的Illumina测序数据,每个重复数据量不少于6G。按照本发明的质控方法对数据进行分析,过滤可能的嵌合序列,获取最终的转录组。具体方法为:1利用IsoSeq分析流程从原始PacBio全长转录组测序数据得到高质量和低质量的一致性全长序列;2基于Illumina测序数据利用proovread对低质量一致性全长序列进行校正,过滤校正后序列平均准确性小于0.99的序列;3合并高质量和校正后符合条件的低质量一致性全长序列,统计所有序列的长度,无长度大于15000bp的序列,此步未做过滤;4对经上一步处理后剩余的所有序列进行Blast自身比对,过滤自身比对结果中存在回文序列回文序列判断标准:序列内部有两个以上片段互相反向比对且满足比对长度大于500bp和比对相似性大于95%的所有序列,共过滤340条序列;5对所有序列利用Blast进行互相比对,若某一序列比对到另一序列的多个位置,且满足相邻位置比对方向相反以及比对长度大于自身长度的95%和比对相似性大于95%时,去除被比对上的序列,共过滤610条序列。其中,IsoSeq分析流程通过识别全长序列中间的引物序列识别过滤嵌合序列2551个,该过程对应本发明方法的步骤1,本发明方法在步骤1的基础上,进一步通过步骤2-5过滤可能的嵌合序列950个,占所有嵌合序列2551+950比例为27.14%。基于上述结果,可见本发明方法能够进一步降低测序数据的假阳性率,提高测序的准确性。实施例2本实施例测序数据包括1个柠檬混样的PacBio全长转录组测序数据21.88G,混样中3个单独样品每个样品3个生物学重复的Illumina测序数据,每个重复数据量不少于6G。按照本发明的质控方法对数据进行分析,过滤可能的嵌合序列,获取最终的转录组。具体方法为:1利用IsoSeq分析流程从原始PacBio全长转录组测序数据得到高质量和低质量的一致性全长序列;2基于Illumina测序数据利用proovread对低质量一致性全长序列进行校正,过滤校正后序列平均准确性小于0.99的序列;3合并高质量和校正后符合条件的低质量一致性全长序列,统计所有序列的长度,无长度大于15000bp的序列,此步未做过滤;4对经上一步处理后剩余的所有序列进行Blast自身比对,过滤自身比对结果中存在回文序列回文序列判断标准:序列内部有两个以上片段互相反向比对且满足比对长度大于500bp和比对相似性大于95%的所有序列,共过滤737条序列;5对所有序列利用Blast进行互相比对,若某一序列比对到另一序列的多个位置,且满足相邻位置比对方向相反以及比对长度大于自身长度的95%和比对相似性大于95%时,去除被比对上的序列,共过滤549条序列。其中,IsoSeq分析流程通过识别全长序列中间的引物序列识别过滤嵌合序列3252个,该过程对应本实施例方法的步骤1,本实施例方法在步骤1的基础上,进一步通过后续步骤过滤可能的嵌合序列1286个,占所有嵌合序列3252+1286比例为28.34%。基于上述结果,可见本发明方法过滤掉了大量现有技术无法识别的嵌合序列,能够进一步降低测序数据的假阳性率,提高测序的准确性。虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

权利要求:1.基于PacBio全长转录组测序数据的质控方法,包括步骤:1利用IsoSeq分析流程从原始PacBio全长转录组测序数据得到高质量和低质量的一致性全长序列;2基于Illumina测序数据对低质量一致性全长序列进行校正,过滤仍达不到高质量标准的序列;3合并高质量和校正后符合条件的低质量一致性全长序列,去除由序列嵌合产生的过长序列;4去除自身比对结果中存在回文序列的一致性全长序列;5去除能被其他一致性全长序列比对到多个位置的嵌合序列。2.如权利要求1所述的质控方法,其特征在于,步骤1所述高质量和低质量的一致性全长序列是通过识别全长序列中间的引物序列初步过滤确定有引物序列相连的嵌合序列,并进一步处理得到经过打磨纠错后的高质量和低质量的一致性全长序列。3.如权利要求1所述的质控方法,其特征在于,步骤1中,高质量一致性全长序列的判断标准是满足序列平均准确率大于0.99。4.如权利要求1-3任一所述的质控方法,其特征在于,步骤2对步骤1得到的低质量一致性全长序列进行校正,保留校正后序列准确性大于0.99的一致性全长序列。5.如权利要求1-4任一所述的质控方法,其特征在于,步骤3中,所述由序列嵌合产生的过长序列是所述指在高质量和校正后符合条件的低质量一致性全长序列的合并序列中,长度大于15000bp的序列。6.如权利要求1-5任一所述的质控方法,其特征在于,步骤4中,所述回文序列同时满足以下条件:1一致性全长序列自身有两个片段可以互相反向比对上;2比对长度大于500bp;3比对相似性大于95%。7.如权利要求1-6任一所述的质控方法,其特征在于,步骤5的方法为利用Blast将步骤4去除存在回文序列的一致性全长序列的剩余的每条序列与其他所有序列进行比对,序列比对到任意一条序列的多个位置,同时满足相邻两个位置比对方向相反且比对长度大于自身序列长度的95%和比对相似性大于95%时,被比对上的序列被判定为嵌合序列进行过滤。8.权利要求1-7任一所述的质控方法在无参考基因组的情况下对经IsoSeq流程处理后得到的一致性全长序列进一步去除嵌合序列中的应用。9.权利要求1-7任一所述的质控方法在降低转录组测序数据中假阳性结果比例中的应用。10.权利要求1-7任一所述的质控方法在提高转录组测序数据准确性中的应用。

百度查询: 北京百迈客生物科技有限公司 基于PacBio全长转录组测序数据的质控方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。