首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种批量合并eQTL分析结果中存在连锁不平衡SNP的方法_江苏省农业科学院_202110346625.3 

申请/专利权人:江苏省农业科学院

申请日:2021-03-31

公开(公告)日:2024-05-10

公开(公告)号:CN113066530B

主分类号:G16B20/20

分类号:G16B20/20;G16B50/00

优先权:

专利状态码:有效-授权

法律状态:2024.05.10#授权;2021.07.20#实质审查的生效;2021.07.02#公开

摘要:本发明公开了一种批量合并eQTL分析结果中存在连锁不平衡SNP的方法。本发明所提供的合并eQTL分析结果中存在连锁不平衡SNP的方法基于SNP与靶基因的位置信息将其分为顺式和反式SNP,基于SNP位置信息合并相邻的SNP为一个SNPcluster,基于SNPcluster间的连锁不平衡程度进一步合并结果。本发明的脚本由python3语言写成,速度快,灵活性高,可靠性强,实现了批量化、自动化和流程化计算。本发明将在eQTL分析结果的简化上发挥重要作用。

主权项:1.一种批量合并eQTL分析结果中存在连锁不平衡SNP的方法,其特征在于,步骤如下:1在Windows操作系统下创建工作目录eqtl_analysis及其子文件夹gene_info,将待分析植物的基因注释信息文件***.gff3和脚本abstract_gene_info.py放在gene_info文件夹下,运行“pythonabstract_gene_info.py***.gff3”命令,得到每条染色体各自的基因信息文件,记为G数据集;G数据集文件命名方式为染色体名+“_gene_info.txt”,不保留标题行,文件包括5列,分别为基因名、染色体、基因起始位置、基因中止位置和正负链信息;2将待分析植物的eQTL结果文件记为A数据集,格式为eQTL分析常用软件MatrixeQTL的结果文件格式;脚本separate_cis_trans.py参考G数据集提供的基因物理位置,分析SNP与基因的染色体和物理距离,将所有SNP划分为两类,顺式SNP和反式SNP;A数据集和脚本eqtl_cis_trans.py均放在工作目录eqtl_analysis下,运行命令“pythonseparate_cis_trans.pyXXX1.txtcis_dis”,得到“XXX1_cis.txt”和“XXX1_trans.txt”两个文件;“XXX1.txt”代表所述A数据集的文件名,格式与eQTL分析常用软件MatrixeQTL的结果文件格式相同,包含6列“SNP”,“gene”,“beta”,“t-stat”,“p-value”和“FDR”,脚本利用其中“SNP”,“gene”和“p-value”三列信息;文件按“gene”和“SNP”两列信息进行排序;SNP的命名方式用染色体名+物理位置,染色体为3位或者10位,物理位置为8位数,不足的位数用0补全;“cis_dis”为划分SNP为顺式SNP和反式SNP的距离阈值,默认设定为24,000bp;所述“XXX1_cis.txt”为包含所有顺式SNP的文件名,记为B1数据集;所述“XXX1_trans.txt”为包含所有反式SNP的文件名,记为B2数据集;3脚本combine_near_snp.py合并相邻的显著SNP,得到SNPcluster,并用其中最显著、物理位置小的SNP作为代表,将脚本combine_near_snp.py放在工作目录eqtl_analysis下,针对B1、B2数据集分别运行命令“pythoncombine_near_snp.pyXXX1_cis.txtpart_dis”和“pythoncombine_near_snp.pyXXX1_trans.txtpart_dis”,得到“XXX1_cis_median.txt”和“XXX1_trans_median.txt”两个文件;“part_dis”为合并相邻SNP的距离阈值,默认设定为10,000bp;所述“XXX1_cis_median.txt”为合并相邻的顺式SNP后得到的结果文件,记为C1数据集;“XXX1_trans_median.txt”为合并相邻的反式SNP后得到的结果文件,记为C2数据集;4为计算SNPcluster间的LD系数r2,手动创建各染色体的关联群体基因型文件,记为M数据集,放在新创建的eqtl_analysis子目录snp_info下;脚本combine_ld_snp.py参考M数据集,计算SNPcluster间的r2,若r20.1,则保留更显著、物理位置更小的SNPcluster;将脚本combine_ld_snp.py放在工作目录eqtl_analysis下,针对C1、C2数据集分别运行命令“pythoncombine_ld_snp.pyXXX1_cis_median.txt”和“pythoncombine_ld_snp.pyXXX1_trans_median.txt”,得到“XXX1_cis_final.txt”和“XXX1_trans_final.txt”两个文件;M数据集各染色体基因型文件命名方式为染色体名+“_snp_info.txt”,不保留标题行,文件格式为SNP+基因型信息,SNP包含两个等位基因,分别用0和2表示,杂合、缺失用NA表示;所述“XXX1_cis_final.txt”为合并所有相邻、存在LD的顺式SNP的最终结果文件,记为D1数据集;所述“XXX1_trans_final.txt”为合并所有相邻、存在LD的反式SNP的最终结果文件,记为D2数据集。

全文数据:

权利要求:

百度查询: 江苏省农业科学院 一种批量合并eQTL分析结果中存在连锁不平衡SNP的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。