恭喜中国科学院基础医学与肿瘤研究所(筹)李晓林获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中国科学院基础医学与肿瘤研究所(筹)申请的专利一种基于泊松流条件生成模型的候选核酸适配体生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119108019B 。
龙图腾网通过国家知识产权局官网在2025-05-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411066717.6,技术领域涉及:G16B40/00;该发明授权一种基于泊松流条件生成模型的候选核酸适配体生成方法是由李晓林;刘子祺;王振;冯旭晗;冯翊祯;田清文;燕鹏举设计研发完成,并于2024-08-06向国家知识产权局提交的专利申请。
本一种基于泊松流条件生成模型的候选核酸适配体生成方法在说明书摘要公布了:本发明涉及一种基于泊松流条件生成模型的候选核酸适配体生成方法,包括以下步骤:步骤一:获得若干目标蛋白质的蛋白质数据P;步骤二:通过SELEX技术筛选出与所述目标蛋白质对应的候选适配体核苷酸序列数据X,得到训练数据集{X,P};步骤三:得到蛋白质数据P的特征向量∈p;步骤四:得到训练好的蛋白质‑配体对比预训练模型;步骤五:得到训练好的高维泊松流适配体条件生成模型;步骤六:生成需要生成适配体的蛋白质对应的适配体。本发明将蛋白质表征与对应的SELEX筛选出的适配体序列的表征进行匹配,相较于直接使用蛋白质表征作为条件,本发明对数据集中不包含的蛋白生成的适配体序列有更好的性质。
本发明授权一种基于泊松流条件生成模型的候选核酸适配体生成方法在权利要求书中公布了:1.一种基于泊松流条件生成模型的候选核酸适配体生成方法,其特征在于,包括如下步骤:步骤一:获得若干目标蛋白质的蛋白质数据P,所述蛋白质数据至少包括氨基酸序列数据和蛋白质结构数据中的一种;步骤二:通过SELEX技术筛选出与所述目标蛋白质对应的候选适配体核苷酸序列数据X,得到训练数据集{X,P};步骤三:通过蛋白预训练模型对蛋白质数据P进行特征提取,得到所述蛋白质数据P的特征向量∈p;步骤四:将目标蛋白质对应的适配体核苷酸序列X输入到用于提取适配体表征的预训练模型中,得到目标蛋白质对应的适配体在隐空间中的表示∈a,构建蛋白质-配体对比预训练模型,将特征向量∈p输入蛋白质-配体对比预训练模型得到目标蛋白质处于适配体所在隐空间的新的蛋白质表征训练蛋白质-配体对比预训练模型至损失函数loss最小或预设循环数,即得到训练好的蛋白质-配体对比预训练模型;所述损失函数loss如下: 其中,为蛋白质表征与适配体表征的余弦相似度,i表示第i个训练数据,||||表示范数,N表示训练数据的数量;ti为第i个适配体与所选目标蛋白质的对应关系,如果第i个适配体是由所选目标蛋白质经过SELEX筛选得到的,则ti=1,否则ti=0;步骤五:以蛋白质数据P的新的蛋白质表征作为条件,利用适配体核苷酸序列数据X训练降噪预测模型,得到训练好的降噪预测模型;步骤5.1:从训练集{X,P}中随机采样出一批数据其中B为采样数据的数量,Xi为第i个训练数据中的适配体序列,Pi为第i个训练数据中的蛋白质序列;步骤5.2:适配体中的核苷酸序列包含4种碱基:腺嘌呤A、胸腺嘧啶T、鸟嘌呤G、胞嘧啶C,将适配体Xi的碱基序列进行独热编码获得独热编码表示并将该表示通过以下方式转换到连续空间中,得到新的适配体表示zi: 其中为第i个适配体的独热编码表示,l为适配体序列的长度,u为服从均匀分布的随机变量,U表示均匀分布;步骤5.3:将zi进行标准化,得到标准化后的表征让每一个维度的取值均在-1,1内,公式如下: 步骤5.4:初始化高维泊松流适配体条件生成模型参数:首先从对数正态分布中采样标准偏差其中a,b为超参数,B为一批次中数据的数量,为高斯分布,σi表示针对第i个数据采样的服从指数高斯分布的随机变量,表示高斯分布;之后随机选取采样点ri:其中D为泊松流模型的增广维度;采样第i个训练数据对应的扰动半径其中Ddata为训练数据的维度,R1表示服从beta分布的随机变量,Beta表示beta分布,α,β为确定beta分布的两个参数;采样扰动角度其中I为单位矩阵;ui表示服从高斯分布的随机变量,vi表示第i个扰动角度;步骤5.5:将所述适配体序列数据扰动到增强空间中,得到扰动后的适配体的序列数据表示扰动后的适配体的序列数据;步骤5.6:将特征向量∈p输入蛋白质-配体对比预训练模型得到目标蛋白质处于适配体所在隐空间的新的蛋白质表征作为标签输入高维泊松流适配体条件生成模型;步骤5.7:利用所述扰动后的适配体的序列数据计算得到降噪预测模型fθ,降噪预测模型的损失函数为其中fθ为基于Transformer架构或U-Net架构的深度学习模型,λσi为损失权重,λσi=1coutσi2;其中Fθ为基于Transformer架构的深度学习模型,cinσi为控制输入权重的函数,为控制Fθ输出权重的函数,cskipσi为控制跳跃连接中权重的函数,cnoiseσi为控制噪声权重的函数,σdata为训练数据的标准差;步骤5.8:更新降噪预测模型参数,并循环进行步骤5.1-5.7至预设循环数或降噪预测模型参数收敛,得到训练好的降噪预测模型;步骤六:将需要生成适配体的蛋白质的蛋白质数据输入训练好的蛋白质-配体对比预训练模型得到对应的新的蛋白质表征,再将所述新的蛋白质表征输入训练好的降噪预测模型,生成对应的适配体。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院基础医学与肿瘤研究所(筹),其通讯地址为:310018 浙江省杭州市钱塘区福城路150号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。