首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于语言模型的蛋白质复合物同源序列搜索方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江工业大学

摘要:一种基于语言模型的蛋白质复合物同源序列搜索方法,通过基于注意力机制的神经网络以及卷积将氨基酸信息融合起来,较好的表达了从氨基酸序列到三维结构的信息;将蛋白质序列输入,使得由自注意力网络构成的生成模型能充分地捕到从氨基酸序列到三维结构的信息;同时,构建了基于多种信息的蛋白质复合物同源序列配对算法,能够获得复合物的同源序列。相较于传统的搜索方法,本发明能够解决复合物序列数据库的困难,获得复合物的同源序列。

主权项:1.一种基于语言模型的蛋白质复合物同源序列搜索方法,其特征在于,所述方法包括以下步骤:1数据集的构建:从蛋白质二聚体数据库中拆分出蛋白质单体,将得到的单体蛋白进行数据集的划分,划分为设定比例的训练集、验证集和测试集,对数据集中的蛋白质单体运行TM-align工具,计算出两个复合物单体的TM-score,当做标签,计算TM-score公式如下: 其中LN是天然结构的长度,LT是对齐的残基到模板结构的长度,di是第i对对齐的残基之间的距离,d0是将匹配差异归一化的标度,“最大值”表示最佳空间叠加后的最大值。TM分数的值始终介于0,1之间;2对20种氨基酸进行编码:对20种氨基酸类型进行编码,分别表示为:丙氨酸A:1,半胱氨酸C:2,天冬氨酸D:3,谷氨酸E:4,苯丙氨酸F:5,甘氨酸G:6,组氨酸H:7,异亮氨酸I:8,赖氨酸K:9,亮氨酸L:10,甲硫氨酸M:11,天冬酰胺N:12,脯氨酸P:13,谷氨酰胺Q:14,精氨酸R:15,丝氨酸S:16,苏氨酸T:17,缬氨酸V:18,色氨酸W:19,酪氨酸Y:20;3蛋白质语言模型ESM-2,是一种从氨基酸序列能获得蛋白质结构接触的一种嵌入,以氨基酸序列作为输入,每一个氨基酸得到一个1280高维的嵌入向量,基于多层的注意力机制,回归出距离信息,公式如下: 如果氨基酸i、j接触为真,那么cij为真,每一个attention层有L层K个多头注意力,中的K为第K个注意力,L为第L层,为注意力图中的i,j的位置编码;4获取Blosum-62编码,公式如下所示。 qa,qb是两个不同氨基酸出现的概率,Pab是b就是由a演变而来的概率;5距离序列两端的归一化距离,这一个特征用来衡量当前的氨基酸位于整条序列的位置信息,相同的氨基酸在不同的位置会产生不同的效果;公式如下: i为一条序列中第i个氨基酸,L为序列长度;6Meiler特征,每个氨基酸都有7个特征属性,包括:氨基酸的理化特征,包含氨基酸的空间占据、分子极化程度、相对体积大小、亲水性或疏水性、以及氨基酸在蛋白质二级结构中形成α-螺旋结构和β-折叠结构的概率;7对网络中使用填充,因为每一条氨基酸的序列长度都不一样,序列长度不一样无法使用batch训练,导致训练速度下降,对每一个batch中的序列长度选择最长的那一个为填充的长度,其他每一条序列都填充到最长,用0进行填充;8构建基于注意力机制的网络来进行同源序列与查询序列之间的结构相似性;9构建基于物种信息,相互作用信息,多个数据库编码信息对单体的同源序列进行配对,构建成复合物的同源序列。

全文数据:

权利要求:

百度查询: 浙江工业大学 一种基于语言模型的蛋白质复合物同源序列搜索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。