买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国人民解放军军事科学院军事医学研究院
摘要:本发明公开了生物信息学领域中基于序列和结构进行多模态蛋白质表征的计算机装置、方法及应用。本发明所要解决的技术问题是如何对蛋白质的三维结构进行量化表示或如何同时基于氨基酸序列和三维结构对蛋白质分子进行深度表征。本发明实现了蛋白质序列和结构信息的深度智能化融合,具体为以蛋白质结构为输入,从中提取氨基酸序列和含CA原子坐标信息,并随机挑选氨基酸和CA原子做掩码处理后通过嵌入模块和编码模块获得蛋白质的特征向量;使用预测模块将该特征向量转变为氨基酸概率信息和CA原子坐标信息获得多模态蛋白质深度学习表征模型。本发明的装置或方法可应用于制备预测蛋白质功能或相互作用、预测蛋白质结构或药物作用靶点的产品。
主权项:1.一种计算机装置,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现如下步骤:S1)数据接收和提取:接收已知蛋白质结构数据,基于所述已知蛋白质结构数据提取已知蛋白质的氨基酸序列信息和已知蛋白质的蛋白质点云信息;S2)数据嵌入:将所述已知蛋白质的氨基酸序列信息嵌入向量空间得到序列特征向量,采用SE3-Transformer模型将所述已知蛋白质的蛋白质点云信息嵌入向量空间得到结构特征向量,将所述序列特征向量和所述结构特征向量进行加和得到所述已知蛋白质的融合特征向量;S3)数据编码:将所述已知蛋白质的融合特征向量输入Transformer编码器进行进一步数据编码,利用注意力机制挖掘已知蛋白质中每个氨基酸残基的相互关系,得到编码后蛋白质特征向量;S4)数据解码:采用两个多层感知机,将所述编码后蛋白质特征向量分别转变为氨基酸序列中每个氨基酸位置上20种常见氨基酸的出现概率和每个氨基酸残基的CA原子坐标信息,并通过倒角距离和交叉熵损失函数计算梯段迭代更新模型参数,最终训练获得多模态蛋白质深度表征学习模型;所述蛋白质点云中的每个点由所述蛋白质分子中每个氨基酸残基的CA原子数据组成;所述CA原子数据包含每个氨基酸残基的CA原子的三维坐标、每个氨基酸残基所属氨基酸类型以及每个氨基酸残基在氨基酸序列中的位置信息。
全文数据:
权利要求:
百度查询: 中国人民解放军军事科学院军事医学研究院 基于序列和结构进行多模态蛋白质表征的计算机装置、方法及应用
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。