首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于迭代优化预训练大模型采样的定向蛋白质改造方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江大学

摘要:本发明公开了一种基于迭代优化预训练大模型采样的定向蛋白质改造方法,包括:基于蛋白质预训练大模型对目标蛋白质关键突变位置进行预测,得到候选突变氨基酸的概率分布;根据概率分布采用最优传输距离采样候选突变氨基酸以得到目标突变蛋白质;利用高通量实验设备合成目标突变蛋白质并进行生化测试,得到湿实验标注结果;将带有湿实验标注结果的目标突变蛋白质对模型进行有监督训练,利用训练后的模型对目标蛋白质关键突变位置进行预测并降序排序;依据降序排序筛选多个突变蛋白质,并结合天然蛋白质对大模型做无监督微调;利用微调后的蛋白质预训练大模型,重复上述过程直至达到蛋白质改造预期目标。该方法蛋白质改造效率和准确度高。

主权项:1.一种基于迭代优化预训练大模型采样的定向蛋白质改造方法,其特征在于,包括以下步骤:步骤1,基于蛋白质预训练大模型对目标蛋白质关键突变位置进行预测,得到候选突变氨基酸的概率分布;步骤2,根据候选突变氨基酸的概率分布,采用最优传输距离对候选突变氨基酸进行采样,得到包含采样候选突变氨基酸的目标突变蛋白质,其中,采用最优传输距离对候选突变氨基酸进行采样,包括:从候选突变氨基酸集合中随机选择目标数量的候选突变氨基酸组成1个可能子集,所有可能子集组成子集集合,基于候选突变氨基酸的概率分布得到每个可能子集中候选氨基酸的概率分布;从蛋白质预训练大模型中获得每种候选突变氨基酸的表征,依据表征计算任意两种候选突变氨基酸之间的差异距离;针对每个可能子集,基于其中两种候选突变氨基酸之间的差异距离和候选氨基酸的概率分布,通过unbalancedsinkhorndistance计算每个可能子集的第一最优传输距离;首轮迭代中,将第一最优传输距离最小的可能子集作为采样结果,并对采样得到的突变蛋白质样本进行湿实验来进行功能性表征;非首轮迭代中,利用微调后的蛋白质预训练大模型对目标蛋白质关键突变位置进行预测,得到更新后的候选突变氨基酸的概率分布;同时根据已进行湿实验标注的突变蛋白质样本得到已标注氨基酸的概率分布;针对每个可能子集,基于其中两种候选突变氨基酸之间的差异距离和候选氨基酸与已标注氨基酸概率分布计算unbalancedsinkhorndistance,得到每个可能子集的第二最优传输距离;综合第二最优传输距离和第一最优传输距离确定最终采样的可能子集作为采样结果;步骤3,利用高通量实验设备合成目标突变蛋白质并进行生化测试,得到目标突变蛋白质的湿实验标注结果;步骤4,将带有湿实验标注结果的目标突变蛋白质作为样本对蛋白质预训练大模型进行有监督训练,利用训练后的蛋白质预训练大模型对目标蛋白质关键突变位置进行预测,并根据预测值降序排序;步骤5,依据降序排序筛选预测值最高的多个突变蛋白质,这些突变蛋白质结合天然蛋白质对蛋白质预训练大模型做无监督微调;步骤6,利用步骤5微调后的蛋白质预训练大模型,重复步骤1-5,直至达到蛋白质改造预期目标。

全文数据:

权利要求:

百度查询: 浙江大学 基于迭代优化预训练大模型采样的定向蛋白质改造方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。