首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于深度学习的关键蛋白质预测方法_吉林农业大学_202410391713.9 

申请/专利权人:吉林农业大学

申请日:2024-04-02

公开(公告)日:2024-06-18

公开(公告)号:CN117976047B

主分类号:G16B25/10

分类号:G16B25/10;G16B40/00

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2024.05.21#实质审查的生效;2024.05.03#公开

摘要:基于深度学习的关键蛋白质预测方法,属于生物信息学技术领域,尤其涉及基于深度学习网络的关键蛋白质预测方法;解决了现有关键蛋白预测方法中用于分类的蛋白质特征过于依赖专家知识和经验参数、无法自适应的学习特征的问题,以及现有方法忽略了蛋白质互作网络中蛋白间的相互作用、没有聚集邻居蛋白的信息的问题,以及现有蛋白质互作网络中存在过多无效蛋白质节点、现有方法没有提取有效蛋白质节点的问题;所述方法包括:将所述加权蛋白质互相作用网络作为所述关键蛋白质预测模型的输入,获得关键蛋白质预测结果。所述基于深度学习的关键蛋白质预测方法,适用于预测关键蛋白质。

主权项:1.基于深度学习的关键蛋白质预测方法,其特征在于,所述方法包括:S1、生成待识别蛋白质物的具有蛋白质节点编码和互作关系边编码的加权蛋白质互相作用网络;S2、获取关键蛋白质预测模型;所述关键蛋白质预测模型包括预训练网络、图神经网络以及分类层;S3、采用自然语言处理中的语言模型对待识别蛋白质物的蛋白质序列进行编码,获得待识别蛋白质物的序列特征;S4、将所述加权蛋白质互相作用网络作为所述预训练网络的输入,获得蛋白质节点特征;S5、在蛋白质节点特征中加入所述序列特征,获得蛋白预训练特征;S6、将所述蛋白预训练特征作为所述图神经网络的输入,获得蛋白质节点的深层表达;S7、将所述蛋白质节点的深层表达作为所述分类层的输入,对蛋白质节点进行分类,获得关键蛋白质预测结果;所述步骤S1包括:S1.1、获取待识别蛋白质物的原始蛋白质互相作用网络;所述原始蛋白质互相作用网络包括若干个蛋白质节点和边,其中蛋白质节点与其邻居蛋白质节点之间采用边进行连接;S1.2、对进行原始蛋白质互相作用网络加权,加权过程包括获取原始蛋白质互相作用网络中蛋白质节点的特征以及蛋白质节点与其邻居蛋白质节点边的特征;S1.3、采用基于改进遗传算法的特征选择算法对蛋白质节点的特征进行选择,获得代表性特征集合;根据代表性特征集合对蛋白质节点进行量化编码,获得蛋白质节点编码;S1.4、根据蛋白质节点与其邻居蛋白质节点边的特征,提取蛋白质节点和其邻居蛋白质节点对应的不同时期的基因表达数据,以获得蛋白质节点与其邻居蛋白质节点对应的基因的共表达模式和共表达水平;根据蛋白质节点与其邻居蛋白质节点的基因共表达模式和水平,对蛋白质节点与其邻居蛋白质节点的边进行量化编码,获得互作关系边编码;最终生成待识别蛋白质物的具有蛋白质节点编码和互作关系边编码的加权蛋白质互相作用网络;所述步骤S1.3中,采用基于改进遗传算法的特征选择算法对蛋白质节点的特征进行选择,获得代表性特征集合包括以下步骤:S1.3.1、基因编码操作:对蛋白质节点的特征进行二进制编码,获得与每一个蛋白质节点的特征对应的候选特征:设所有的蛋白质节点的特征为,则所有的候选特征为;其中,为第i个蛋白质节点的特征,为第i个候选特征,与一一对应;,当值为0时表示代表性特征集合中不选择,当值为1时表示代表性特征集合中选择;对惩罚参数C采用二进制编码,根据范围和精度计算所需要的二进制串长度为;对核参数采用二进制编码,根据范围和精度计算所需要的二进制串长度为;S1.3.2、种群初始化:随机生成m个初始候选特征;S1.3.3、选择操作:获取每个候选特征对应的适应值函数: ;其中:是一个对已有特征进行分类的算法;为SVM分类准确率的权重,设置为75-100%;为SVM的分类准确率;为选择特征和惩罚参数乘积和逆的权重,设置为100%;为第i个候选特征的损失;为1代表选择了第i个候选特征,为0代表没有选择第i个候选特征;按照适应值函数的值,从高到低对候选特征进行排序,将排在前20%的候选特征挑选出来直接作为下一代;S1.3.4、交叉操作:在被挑选出前20%的候选特征的当前候选特征挑选出排在前40%的候选特征两两交叉作为下一代;S1.3.5、变异操作:重新随机生成新的候选特征,使经过交叉操作后的当前候选特征的个数恢复到m个;S1.3.6、重复步骤1.3.3至1.3.5直到的改变小于1%为止,获得代表性特征集合;所述步骤S1.4中,提取蛋白质节点和其邻居蛋白质节点对应的不同时期的基因表达数据,以获得蛋白质节点与其邻居蛋白质节点对应的基因的共表达模式和共表达水平,具体如下:S1.4.1、设任意一个蛋白质节点所对应的基因为,所述任意一个蛋白质节点的邻居蛋白质节点所对应的基因为,则所述任意一个蛋白质节点和其邻居蛋白质节点对应的不同时期的基因表达数据为和在不同时期的表达谱,其中: 在不同时期的表达谱为,,,,; 在不同时期的表达谱为,,,,;S1.4.2、获取和在不同时期的表达谱的欧氏距离,作为和之间的共表达模式: ; ==;其中,表示对比函数;S1.4.3、获取和在不同时期的表达谱的皮尔森相关系数,作为和之间的共表达水平: ;其中,表示选择的时期个数。

全文数据:

权利要求:

百度查询: 吉林农业大学 基于深度学习的关键蛋白质预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。