首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于深度残差神经网络的蛋白质残基接触预测方法_浙江工业大学_202010704130.9 

申请/专利权人:浙江工业大学

申请日:2020-07-21

公开(公告)日:2024-06-18

公开(公告)号:CN112085245B

主分类号:G16B40/00

分类号:G16B40/00;G16B15/00;G16B30/10;G06N3/0499

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2021.01.01#实质审查的生效;2020.12.15#公开

摘要:一种基于深度残差神经网络的蛋白质残基接触预测方法,首先,通过蛋白质数据库构建数据集;其次,利用HHblits构建所有序列的MSA,根据进化信息提取序列谱特征、香农熵特征、协方差特征,作为神经网络的输入,生成神经网络的标签文件;然后,将数据集输入到神经网络中训练神经网络;最后,将测试序列输入到神经网络中进行预测。本发明提供一种能够有效辅助蛋白质结构预测的蛋白质残基接触预测方法,能够提高蛋白质结构预测的精度。

主权项:1.一种基于深度残差神经网络的蛋白质残基接触预测方法,其特征在于:所述残基接触预测方法包括以下步骤:1构建数据集:从蛋白质数据库PDB中选择序列相似度低于20%、序列长度在40-500之间的4000个氨基酸序列,从中随机选择300个序列作为测试集,剩余的序列作为训练集;2氨基酸序列进化信息分析,操作如下:2.1利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索数据集中每条序列的多序列比对文件;2.2基于生成的多序列比对文件,计算多序列比对文件中第i号残基为A类型氨基酸的概率fiA,其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},i∈{1,2,...,L},L为多序列比对文件中单条序列的长度,fiA计算公式如下: 其中M表示多序列比对文件中序列的条数,m表示当前序列是多序列比对文件中的第几条,m∈{1,2,...,M},表示多序列比对中第m行第i列残基的类型,表示和A是否相等,相等则为1,不等则为0;2.3计算多序列比对文件中第i号残基为A,且第j号残基为B的概率fijA,B,其中A和B均∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},其中i和j均∈{1,2,....,L},L为多序列比对文件中单条序列的长度,fijA,B计算公式如下: 其中M表示多序列比对文件中序列的条数,m表示当前序列是多序列比对文件中的第几条,m∈{1,2,...,M},表示多序列比对中第m行第i列中的残基类型;表示多序列比对中第m行第j列残基的类型;表示和A是否相等,相等则为1,不等则为0;表示和B是否相等,相等则为1,不等则为0;2.4根据步骤2.2和2.3中得到的fiA和fijA,B计算香农熵Si,i表示多序列比对文件中的第i列,i∈{1,2,...,L},L为多序列比对文件中单条序列的长度,Si计算公式如下: 其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-};3构建神经网络输入特征及标签文件,过程如下:3.1计算协方差矩阵Q,协方差矩阵的每个特征计算公式如下: 其中表示第i号残基为A、第j号残基为B情况下的协方差,其中i和j均∈{1,2,...,L};3.2构建输入特征集:由fiA公式生成的序列谱特征的维度为L*21维,L为多序列比对文件中单条序列的长度,由Si公式生成的香农熵特征的维度为L*1维,通过条带化的方式将序列谱特征的维度转换为L*L*42维,将香农熵特征的维度转换为L*L*2维,然后和协方差矩阵的L*L*441维特征一起组成L*L*485维输入特征;3.3建立数据集样本标签:在PDB数据库中搜索每一个训练蛋白的结构文件,并计算每个结构内部两两残基间的欧式距离,以为阈值判断残基对是否接触,当距离小于表明该残基对接触,接触图相应位置置1,否则表明该残基对不接触,接触图相应位置置0;4神经网络训练:本发明采用的是残差网络,采用二进制交叉熵函数作为损失函数;采用Heinitialization初始化网络权重,Heinitialization是网络权重初始化方法;开发平台采用Pytorch,学习率设置为0.001,批处理大小为7个训练样本为一个批次;训练过程使用马修斯相关系数作为评价指标,记录马修斯相关系数的最大值,如果记录了最大值之后,连续10代的最大值都保持不变,则停止训练;5预测测试集序列接触图,利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索测试序列的多序列比对文件,然后根据3.1中序列特征生成步骤生成测试序列的序列特征,输入到神经网络中进行预测,最终生成一个contact文件,contact文件中包含神经网络生成的接触信息,然后根据contact文件中的置信度进行排序,用于辅助蛋白质结构预测。

全文数据:

权利要求:

百度查询: 浙江工业大学 一种基于深度残差神经网络的蛋白质残基接触预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。