首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于深度学习的蛋白质残基接触预测方法_浙江工业大学_202010709538.5 

申请/专利权人:浙江工业大学

申请日:2020-07-22

公开(公告)日:2024-06-21

公开(公告)号:CN112085247B

主分类号:G16B40/30

分类号:G16B40/30;G16B20/00;G16B15/00;G16B30/10;G06F18/214;G06F18/23213;G06N3/0464

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2021.01.01#实质审查的生效;2020.12.15#公开

摘要:一种基于深度学习的蛋白质残基接触预测方法,包括以下步骤:首先从PDB库中下载蛋白质氨基酸的序列和结构信息,构建残基对接触矩阵;使用HHblits对UniClust30数据库进行搜索,生成多序列比对文件;其次,对每个蛋白质序列通过多序列比对提取序列特征;再次,将序列特征互信息与协方差合并为一个442维L*L大小的输入特征,构建全卷积残差网络,并在所述输入特征和标签接触矩阵上进行训练。本发明提供了一种预测效率与准确性较高的基于深度学习的蛋白质残基接触预测方法。

主权项:1.一种基于深度学习的蛋白质残基接触预测方法,其特征在于,所述方法包括以下步骤:1首先从PDB库中下载蛋白质的序列和结构信息,然后根据蛋白质结构各残基的三维空间坐标计算出每个残基对之间的欧式距离,如果距离小于则表示为1,反之为0,并构建残基对接触矩阵;2每个蛋白质序列使用HHblits对UniClust30数据库进行搜索,生成多序列比对文件;3对每个蛋白质序列通过其MSA提取序列特征,过程如下:3.1计算A型氨基酸在第i列的出现频率fiA: 其中M为多序列比对中的序列个数,i∈{1,2,...,L},L为序列长度,A∈{A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y,-},表示为序列m的第i号残基是否为A型,是则为1,反之为0;3.2计算残基对i和j的类型分别为A和B的频率fijA,B: 其中M为多序列比对中的序列个数,L为序列长度,i,j∈{1,2,...,L},A,B∈{A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y,-},表示为序列m的第i号残基是否为A型,是则为1,反之为0,表示为序列m的第i号残基是否为B型,是则为1,反之为0;3.3计算第i列和j列的互信息MI,生成一个L*L大小的特征图,L为序列长度: 3.4计算协方差S,生成一个441维L*L大小的特征图,L为序列长度: 4将序列特征互信息与协方差合并为一个442维L*L大小的输入特征,构建全卷积残差网络,并在所述输入特征和标签接触矩阵上进行训练,全卷积残差网络构建过程如下:4.1全卷积残差网络由1个卷积层和10个残差块以及输出层组成,输出层由1个1×1滤波器的二维卷积层和一个sigmoid非线性函数组成,卷积层表示为ConvX,W,H,D,其中X为输入特征,W和H分别为卷积核的宽度和高度,D为卷积核的数量,该卷积层表示为ConvX,1,1,64,该层将输入维数从442降至64,残差块由两个卷积层堆叠而成,残差块表示为ResX=σConvσConvX,3,3,64,5,5,64+X,其中σ为ReLU激活函数;4.2网络权重使用Xavier均匀分布初始化,使用SGD方法对网络权值进行优化,初始学习率为0.01,使用二元交叉熵作为损失函数;5对于待预测的蛋白质,首先提取其序列特征,然后将序列特征输入到残差网络中,输出结果即为蛋白质中每个残基对的接触预测得分;6使用k-means聚类方法对输出结果进行聚类,将输出结果分为接触和不接触两类。

全文数据:

权利要求:

百度查询: 浙江工业大学 一种基于深度学习的蛋白质残基接触预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。