首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于知识图谱辅助的多任务药物筛选方法和系统 

申请/专利权人:湖南大学

申请日:2022-01-04

公开(公告)日:2024-06-25

公开(公告)号:CN114420221B

主分类号:G16C20/50

分类号:G16C20/50;G16C20/70;G16B15/30;G06F16/36

优先权:

专利状态码:有效-授权

法律状态:2024.06.25#授权;2022.05.20#实质审查的生效;2022.04.29#公开

摘要:本发明公开了一种基于知识图谱的多任务药物筛选方法,包括:获取所有药物和所有化合物映射到知识图谱数据集后的实体映射表、所有药物的候选药物集合、以及预训练好的多任务预测模型,获取用户输入的问题,使用获取到的多任务预测模型对问题中的靶点x和候选药物集合进行预测,以获得药物概率分数表和化合物概率分数表,使用结果集成算法对获取的药物概率分数表和化合物概率分数表进行计算合并,并将合并后的概率分数表中的概率分数按照由大到小的方式进行排序,并从排序结果中选择排名前20个药物对应的实体作为筛选结果返回给用户。本发明能够解决现有基于知识图谱的预测模型无法考虑药物分子和蛋白质本身的特征的问题。

主权项:1.一种基于知识图谱的多任务药物筛选方法,其特征在于,包括以下步骤:1获取所有药物和所有化合物映射到知识图谱数据集后的实体映射表、所有药物的候选药物集合、以及预训练好的多任务预测模型,步骤1中的多任务预测模型包括图神经网络GCN、关系图卷积神经网络RGCN、共享单元、药物靶点相互作用DTI分类器、以及化合物蛋白质相互作用CPI分类器;多任务预测模型是通过以下步骤训练得到的:1-1获取知识图谱数据集、DTI数据集、以及CPI数据集,将DTI数据集和CPI数据集中的所有药物与所有靶点映射到知识图谱数据集中,以得到实体映射表和候选药物集合,并将DTI数据集划分为DTI训练集、DTI验证集和DTI测试集,将CPI数据集划分为CPI训练集、CPI验证集和CPI测试集,其中实体映射表中的每个数据D是由药物d与其对应的实体ea组成d,ea;候选药物集合中每一个数据包括每一个药物相对应的实体M和每一个药物相对应的化合物分子图C;知识图谱数据集中的每个数据G是三元组ehead,r,etail,其包括头实体ehead、关系r以及尾实体etail,实体映射表中所有数据对应的所有实体构成集合E,知识图谱数据集中所有数据对应的所有关系r构成关系集合R;1-2将步骤1-1得到的实体集合E和关系集合R进行随机初始化,以获得每一个实体的表示和每一个关系的表示;1-3针对步骤1-1中获取的CPI训练集而言,获取其中所有化合物的简化分子线性输入规范SMILES字符串集合、以及蛋白质序列,并为蛋白质序列建立蛋白质语料库;同时,根据步骤1-2中获取的实体的进一步表示,获取DTI训练集中单个药物对应的实体的表示ed、以及单个靶点对应的实体的表示et;1-4使用化学信息学开源工具包RDKit将步骤1-3得到的SMILES字符串集合转化为化合物分子图集合,并使用GCN获取化合物分子图集合中每个化合物分子图的表示;1-5分别将步骤1-3中获取的DTI训练集中所有药物对应实体的表示和步骤1-4中获取到的CPI训练集中所有化合物分子图的表示通过共享单元进行融合,以分别获得DTI训练集中所有药物对应的实体的进一步表示、以及CPI训练集中所有化合物分子图的进一步表示;1-6使用分词工具对步骤1-3建立的蛋白质语料库进行分词处理,并使用Word2Vec算法对分词处理后的蛋白质语料库进行处理,以得到蛋白质语料库中所有词的初始化表示,将蛋白质语料库中所有词的初始化表示进行组合,以得到CPI训练集中所有蛋白质序列的表示,将步骤1-5获取的每一个化合物分子图的进一步表示e′g和每一个蛋白质序列的表示es进行组合后,输入到CPI分类器中,以获得每一个化合物分子图和每一个蛋白质序列之间发生相互作用的概率分数;1-7将步骤1-5中获取的每一个药物对应的实体的进一步表示e′d和步骤1-3中获取的每一个靶点对应的实体的表示et组合输入到DTI分类器中,以获取每一个药物对应的实体和每一个靶点对应的实体之间发生相互作用的概率分数1-8根据步骤1-6中获取的相互作用的概率分数和步骤1-7得到的相互作用的概率分数,分别为CPI训练集和DTI训练集构建损失优化函数;1-9根据步骤1-8获取到的CPI训练集和DTI训练集在损失优化函数上的损失函数值,采用随机梯度下降方法同时对CPI训练集和DTI训练集的损失优化函数进行优化,从而得到训练好的多任务预测模型;2获取用户输入的问题,使用步骤1中获取到的多任务预测模型对问题中的靶点x和候选药物集合进行预测,以获得药物概率分数表和化合物概率分数表;步骤2包括以下子步骤:2-1根据步骤1中获取的候选药物集合,获取每个药物对应的实体,并使用多任务预测模型中的RGCN进行处理,以获得每个药物对应实体的表示,单个药物对应实体的表示为kd;根据用户输入问题中的靶点x,从步骤1中获取的实体映射表映射出对应的实体,并使用多任务预测模型中的RGCN进行处理,以获得问题中的靶点x对应的实体的表示kt;同时使用步骤1中获取的蛋白质语料库对问题中的靶点x对应的蛋白质序列进行处理,获得问题中的靶点x对应的蛋白质序列的表示ks;利用多任务预测模型中的GCN对步骤1中获取的候选药物集合中所有化合物分子图进行处理,获得每一个化合物分子图的表示,单个化合物分子图的表示为kg;2-2根据步骤1中获取的多任务预测模型,利用多任务预测模型中的DTI分类器对步骤2-1获得的问题中的靶点x对应的实体的表示kt和候选药物集合中每个药物对应的实体的表示kd进行计算,以获取问题中的靶点x对应的实体与每个药物对应的实体之间发生相互作用的概率分数将所有的概率分数合并以构成药物概率分数表,药物概率分数表的大小与候选药物集合中药物对应的实体数量一致;同时,使用多任务预测模型中的CPI分类器对步骤2-1中获取的问题中的靶点x对应的蛋白质序列的表示ks和候选药物集合中所有化合物分子图的表示kg进行计算,从而获取问题中的靶点x对应的蛋白质序列和候选药物集合中每个化合物分子图之间发生相互作用的概率分数将所有概率分数合并以构成化合物概率分数表,该表的大小和候选药物集合中化合物分子图的数量一致;3使用结果集成算法对步骤2中获取的药物概率分数表和化合物概率分数表进行计算合并,并将合并后的概率分数表中的概率分数按照由大到小的方式进行排序,并从排序结果中选择排名前20个药物对应的实体作为筛选结果返回给用户。

全文数据:

权利要求:

百度查询: 湖南大学 一种基于知识图谱辅助的多任务药物筛选方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。