首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于生成对抗网络驱动的蛋白质序列扩散生成方法_云南师范大学_202410432768.X 

申请/专利权人:云南师范大学

申请日:2024-04-11

公开(公告)日:2024-06-21

公开(公告)号:CN118038993B

主分类号:G16B30/20

分类号:G16B30/20;G06N3/045;G06N3/0475;G06N3/084;G16B40/00

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2024.05.31#实质审查的生效;2024.05.14#公开

摘要:本发明公开一种基于生成对抗网络驱动的蛋白质序列扩散生成方法,首先在扩散模型的管道中嵌入生成对抗网络,捕获序列全局特征,作为蛋白质序列空间的初始化表示。然后结合相似度较高的序列具有相似的空间结构和生物学功能,将序列的相似性与生成样本结果融合作为指标来评估奖励或者惩罚,侧重学习序列与功能之间的映射关系,增强对功能序列局部关键特征的学习。最后在扩散模型中聚合特征信息重建具有预定义功能的蛋白质序列。该方法采用生成对抗网络嵌入的驱动模型,建立具有蛋白质与功能映射的蛋白质序列空间,可以学习到相似序列的功能映射信息,然后融合功能序列局部关键特征,以优化蛋白质与功能的映射关系,提升模型的生成性能。

主权项:1.一种基于生成对抗网络驱动的蛋白质序列扩散生成方法,其特征在于:通过在扩散模型的管道中嵌入生成对抗网络,捕获序列全局特征,作为蛋白质序列空间的初始化表示;然后,结合相似度较高的序列具有相似的空间结构和生物学功能,将序列的相似性与生成样本结果融合作为指标来评估奖励或者惩罚,侧重学习序列与功能之间的映射关系,增强对功能序列局部关键特征的学习;最后,在扩散模型中聚合特征信息重建具有预定义功能的蛋白质序列;所述在扩散模型的管道中嵌入生成对抗网络,具体如下:Step1、整合蛋白质序列数据和基因本体GO知识,构建蛋白质序列与功能的映射关系;Step1.1、结合基因本体GO知识,对蛋白质序列数据进行过滤,过滤条件包括至少具有一个GO注释、为标准氨基酸以及限制最大长度为2048;将功能性标签总数限制在50,对每个标签添加5000个序列,设定每个标签的序列的最小阈值;Step1.2、在扩散模型的前向过程中,建立序列与功能标签的联系:设总的加噪步数为T,样本数据的初始分布为,每一时刻t向数据中加入均值和标准差为特定值的高斯噪声,得到一个新的含噪序列,其分布满足,最终经过T步之后,得到一个纯噪声序列; (1); (2);其中,为加噪至t时刻的数据;I为单位矩阵;为一个正态分布;为人为设定的t时刻时加噪的参数值,构成噪声时间表,且有,经计算可得: (3);其中,,定义变量和,由于模型基于马尔科夫假设,通过持续迭代,公式(3)得以演变为: (4);Step2、提取序列空间信息,嵌入生成对抗网络,重建蛋白质序列空间;Step2.1、根据Step1获得的序列标签映射关系,最终提取序列空间信息,即: (5);其中,基于初始样本数据,得到任意一步的数据;Step2.2、将生成对抗网络嵌入到扩散模型的前向扩散采样过程中,生成器以样本直接生成,使该样本分布接近于,生成对抗网络的判别器在的条件下与一起区分和;所述将序列的相似性与生成样本结果融合作为指标来评估奖励或者惩罚,具体如下:Step3、通过生成器奖励机制,学习功能序列的局部特征,以获取全局和局部特征,并采用特征聚合的方法进行综合;同时,引入相似性评估指标,通过比较生成样本与相似序列的特征,对生成结果进行奖励或惩罚;Step3.1、设定奖励生成器机制来指导蛋白质序列生成,具体激励生成器函数为: (6);其中,为单独的序列相似性比对模块,为混合系数,序列相似性比对模块将生成样本与具有预定义功能的序列进行多序列比对,每个比对结果赋予局部分数,通过加权平均得到最终分数;DY为生成对抗网络判别器,通过判别真实扩散序列与辨别序列是否一致而输出的概率分布;最终RY聚合序列分布与功能特征信息反馈到生成对抗网络的生成器中;Step4、通过扩散模型的后向过程,完成具有预定义功能的蛋白质序列生成任务;利用已学到的全局和局部特征信息,通过逆向传播算法迭代调整生成器和判别器的参数;Step4.1、将Step3激励生成器输出的序列信息输入到蛋白质的后向扩散中,采取构建由参数化的神经网络来近似其分布,假设是逆向过程的概率分布,且服从于高斯分布,其均值和方差均以和t作为输入参数,即: (7);其中,方差设定为不需要参与神经网络训练,且与时间相关的常数,根据t时刻过程值和初始值计算出后验条件概率: (8);并根据高斯分布性质和公式4得到: (9);其中,为神经网络训练均值,即: (10); (11);最终,生成具有预定义功能的蛋白质序列。

全文数据:

权利要求:

百度查询: 云南师范大学 一种基于生成对抗网络驱动的蛋白质序列扩散生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。