首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多源特征交互的药物靶标相互作用预测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:吉林大学

摘要:一种基于多源特征交互的药物靶标相互作用预测方法属生物信息学和计算机融合技术领域,本发明包括:网络构建‑‑收集药物、靶标相关数据,构建药物靶标知识图谱;药物表示‑‑利用五种不同的特征提取方法获得药物的特征;蛋白质表示‑‑利用五种不同的特征提取方法获得蛋白质的特征;网络嵌入‑‑采用两种图表示学习算法,生成网络中药物和靶点的特征表示;特征交互和输出‑‑通过多头自注意力机制进行特征交互得到高维特征,并通过残差连接保留初始低维特征,经分类器获得潜在药物‑靶点相互作用的预测。本发明整合多源特征,能提高药物‑靶点相互作用预测的准确性,在药物发现和开发中具有应用价值。

主权项:1.一种基于多源特征交互的药物靶标相互作用预测方法,其特征在于包括下列步骤:1网络构建阶段,包括下列步骤:1.1获取生物医学文本数据集并进行预处理,从PubMed收集生物医学研究文章,利用生物医学文本处理工具BioBERT对这些文章进行实体关系抽取,获得生物医学知识图谱;1.2收集Drugbank、Hetionet和GNBR中相关的药物、靶标数据;1.3整合生物医学知识图谱与Drugbank、Hetionet和GNBR中相关的药物、靶标数据,构建药物靶标知识图谱;2药物表示阶段利用MACCS键、Morgan指纹、Avalon指纹、Mol2vec和graph2vec五种不同的特征提取方法,分别获得相应的药物多源特征,包括下列步骤:2.1将药物SMILES字符串转换为MACCS键、Morgan指纹和Avalon指纹分子指纹表示;2.2使用Mol2vec对SMILES序列进行预训练嵌入,得到300维向量表示;2.3使用graph2vec对分子图结构进行编码,获得空间结构信息;2.4将步骤2.1的指纹表示、步骤2.2的SMILES序列嵌入和步骤2.3编码的分子图结构,组合形成药物的综合向量表示;3蛋白质表示阶段利用CTD、Geary、Paac、Qsorder和CPCProt五种不同的特征提取方法分别获得相应的蛋白质多源特征,包括下列步骤:3.1使用CTD、Geary、Paac和Qsorder方法,对氨基酸序列进行编码,捕获序列结构组成和物理化学性质;3.2应用预训练蛋白质语言模型CPCProt对氨基酸序列进行特征学习,获得蛋白质的低维向量表示;3.3将步骤3.1和步骤3.2的特征进行组合,形成蛋白质的综合向量表示;4网络嵌入阶段采用Attentionwalk和CompGCN两种图表示学习算法对药物靶标知识图谱进行学习,生成药物和靶点的网络特征表示,包括下列步骤:4.1基于随机游走的Attentionwalk算法,嵌入异构网络,捕获网络拓扑结构;4.2基于神经网络的CompGCN算法,嵌入异构网络,独立于随机游走过程;所述CompGCN算法,具体如下: 其中:是节点v经过模型中k层CompGCN层后特征的表达式;是关系r经过模型中k层CompGCN层后特征的表达式;其中:对应于节点xu的特征信息;对应着关系zr的特征信息;W是图神经网络相应节点和关系权重;φ是一种组合函数,采用φhu,hr=hu-hr;4.3将步骤4.1和步骤4.2的药物靶标知识图谱中实体的特征表示进行组合,形成网络嵌入阶段的综合特征表示;5特征交互和输出阶段通过多头自注意力机制和残差连接,学习特征的高阶交互,同时保留原始特征信息,包括下列步骤:5.1将不同源特征映射到多个子空间内,融合步骤2中获得的药物多源特征、步骤3中获得的蛋白质多源特征和步骤4中学习得到的药物和靶点的网络特征表示,通过多头自注意力机制学习各源特征之间的交互,学习到更高阶的特征交互,包括下列步骤:5.1.1使用向量内积方法计算特征em和所有其他特征ek之间的相似度: 其中:和由输入特征矩阵及其线性变换获得;5.1.2计算softmax归一化注意力分布以获得em和ek的注意力权重: 5.1.3通过加权求和的方式得到特征em及其相关的特征在特定子空间h注意力头下组成的一个新交互特征 其中:是通过对输入特征矩阵及其对应的权值进行线性变换得到的;5.1.4当有H个注意力子空间,通过连接每个注意力头下获得的结果获得多头注意力机制的最终特征表示: 其中:表示拼接操作;5.2将多头自注意力学习到的特征交互与残差连接的原始特征拼接,形成最终的特征表示; 其中:WRes是残差矩阵,并采用ReLU激活函数;5.3添加全连接层对特征表示进行非线性映射,预测药物-靶点之间相互作用关系,得到预测性能指标; 5.3.1使用二元交叉熵损失Logloss作为损失函数: 5.3.2确定并使用Precision、Accuracy、Recall、F1score作为本方法性能的测试,并用这4个参数作为与其他模型性能对比的依据,参数计算公式为: Precision表示在预测结果中为正例的样本里,正例所占的比率; Accuracy表示在所有样本中,预测正确所占的比率; Recall表示在预测结果正确的所有样本中,预测结果为正例的样本所占的比率; F1Score是Precision和Recall的一个加权平均。

全文数据:

权利要求:

百度查询: 吉林大学 一种基于多源特征交互的药物靶标相互作用预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。