买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东省计算中心(国家超级计算济南中心);中国海洋大学
摘要:本发明公开了一种基于图注意力网络的蛋白质‑配体亲和力评价方法。为了解决数据集规模小的问题,本发明模拟半柔性对接过程,设计了基于分子柔性的数据增强方法DataEnhancementMethodbasedonmolecularflexibility,扩大数据规模、提高模型质量、保证了方法的科学性与合理性。本发明设计基于图注意力机制的分子特征提取方法,提取分子有效特征,提高打分函数的精度和性能。
主权项:1.一种基于图注意力网络的蛋白质-配体亲和力评价方法,其特征在于,具体方法如下:1数据增强1.1基于分子柔性的数据增强方法;1.1.1提取PDBbind数据集中的配体结构文件;1.1.2确定分子结构中的可旋转键;1.1.3根据配体分子可旋转键的转动情况,生成该配体分子的多个不同构象;1.1.4计算以上分子构象的分子能量,筛选出能量最低的13个构象结构,将数据规模扩大13倍;能量越低的分子构象越稳定;1.2多尺度数据分割分别采用随机拆分、按精度拆分、分子骨架拆分、时间拆分、分层拆分、蛋白质家族拆分对PDBbind数据集进行拆分;2基于注意力机制的分子图嵌入方法2.1确定分子水平的注意力机制添加范围,在化学键水平和原子水平添加注意力机制;2.2根据蛋白质-配体结合亲和力影响因素,找到与之匹配的分子结构、功能基团;考虑的蛋白质-配体结合亲和力影响因素包括:基础特征、芳香基团、氢键、疏水基团;2.3使用图神经网络进行分子特征提取,分别面向蛋白质和配体对相应的分子结构、功能基团添加注意力机制;2.4基于注意力机制的分子图嵌入方法设计;该方法包含图卷积层算法和GraphPoolingLayerwithAttentionMechanism两部分:2.4.1图卷积层算法 是分子图的邻接矩阵,是的对角矩阵,hl∈RN×F是第l个节点的特征矩阵,Θ∈RF×1,是所有节点共享的可训练的权重,σ是ReLU激活函数;2.4.2GraphPoolingLayerwithAttentionMechanism蛋白质-配体亲和力评价函数定义为: Z是“蛋白质-配体亲和力评价”的打分;Nv是节点所有邻域的集合,hv表示节点v的特征;hu表示节点u的特征;αT是共享的注意力操作;αv,v是节点v特征的注意力系数,αu,v是特征在节点u和节点v间传播时的注意力系数; 3.模型设计3.1模型的输入包括蛋白质口袋结构、配体结构和亲和力数据;3.2通过配体特征提取算法和蛋白质特征提取算法分别提取配体特征和蛋白质特征;具体的,配体小分子和蛋白质分别采用LigandEmbedding方法和ProteinEmbedding方法提取LigandStructurerepresentation和ProteinStructuerepresentation;3.3将蛋白质特征和配体小分子特征融合,得到Combinedrepresentation特征;3.4Combinedrepresentation特征经过2个全连接层得到结果y;基于图注意力网络的蛋白质-配体亲和力评价模型的超参数包括Epoch、Batchsize、Optimizer、Leaningrate、Dropoutrate、NumberofLigandsConvolutionLayers、NumberofProteinConvolutionLayers、LigandGatherWidth、ProteinGatherWidth。
全文数据:
权利要求:
百度查询: 山东省计算中心(国家超级计算济南中心) 中国海洋大学 一种基于图注意力网络的蛋白质-配体亲和力评价方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。