首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于蛋白质结构域特征嵌入的肽与MHC I类蛋白亲和力预测方法_哈尔滨工业大学_202310878264.6 

申请/专利权人:哈尔滨工业大学

申请日:2023-07-18

公开(公告)日:2024-06-14

公开(公告)号:CN117037897B

主分类号:G16B15/30

分类号:G16B15/30;G16B40/00;G06F40/242;G06F40/284;G06N3/045;G06N3/048;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.06.14#授权;2023.11.28#实质审查的生效;2023.11.10#公开

摘要:本发明提出一种基于蛋白质结构域特征嵌入的肽与MHCI类蛋白亲和力预测方法。该基于蛋白质结构域特征嵌入的肽与MHCI类蛋白亲和力预测方法利用多头注意力学习肽键与氨基酸残基特征,进行肽与MHCI类蛋白亲和力预测,本发明提出的预测方法与现有其他方法相比较,预测结果准确,满足实际需求。

主权项:1.一种基于蛋白质结构域特征嵌入的肽与MHCI类蛋白亲和力预测方法,其特征在于:所述方法包括以下步骤:步骤1、构建蛋白质结构域词符词典;步骤2、将给定MHCI类蛋白唯一表示符ID,找到其对应的氨基酸序列;步骤3、获取肽序列及MHCI类蛋白结构域序列,并对其进行分词,在获得MHCI类蛋白的氨基酸序列后,对该序列进一步处理,通过hmmscan方法得到MHCI类蛋白所有结构域的起始和终止位置,通过已知的起始和终止位置提取结构域氨基酸序列并依据自主构建的蛋白质结构域词符词典,对这些结构域氨基酸序列分词;在步骤3中,对肽序列和MHCI类蛋白分子氨基酸序列进行分词,分词基于自主构建的分词词典进行;通过统计蛋白质结构域序列中出现频率最高的氨基酸序列对,组成氨基酸词符,取出前10000个氨基酸词符组成蛋白质结构域词符词典;当取10000个氨基酸词符时,蛋白质结构域词典的词符长度为3或4个氨基酸字母的长度;这些蛋白质结构域词符更能适应环境而被保留,能够携带蛋白的演化特征;分词后的序列分别表示为和其中氨基酸词符的上标1表示肽序列,上标2表示MHCI类蛋白氨基酸序列,下标表示氨基酸词符的数量,通过插入特殊词符将他们组合成一个序列: 其中[CLS]、[SEP]和[EOS]为特殊词符,分别表示类别符、分隔符和结束符;肽序列和MHCI类蛋白分子氨基酸序列组合后,将其最大组合长度规范为512;步骤4、构建氨基酸词符嵌入模型;在步骤4中,基于Bert模型构建基于蛋白质结构域特征嵌入的肽与MHCI类蛋白亲和力预测模型,该模型通过预训练深度表示Uniprot数据库中的蛋白质氨基酸序列,通过微调模型计算肽序列和MHCI类蛋白特征空间距离表示肽与MHCI类蛋白亲和力;模型采用LAMB优化器,设置优化器的超参数为默认值,即β1=0.9,β2=0.999,∈=1E-8,重量衰减率λ=0.01;步骤5、提取肽序列和MHCI类蛋白氨基酸词符嵌入特征,特征表示为肽和MHCI类蛋白结合嵌入矩阵;在步骤5中,利用多头注意力机制提取肽与MHCI类蛋白氨基酸序列嵌入特征;给定氨基酸词符向量输入列表X=x1,x2,…xn,每个氨基酸词符向量xi首先通过多头注意力机制计算,根据计算出的结果与xi上下氨基酸词符的相关性来识别和关注X中的某些位置;根据多头注意力机制,来自X中每个向量xi的前后氨基酸词符信息编码为输出向量yi,并根据其与xi的相关性进行加权;然后通过将初始向量xi添加到输出向量yi,合并的向量yi通过归一化后通过全连接前馈神经网络提取特征,全连接前馈神经网络使用GeLU函数作为激活函数;GeLU函数如下公式所示:GeLUx=xPX≤x其中X~Nμ,σ2,μ和σ都是验证实验的参数,赋值μ=0和σ=1;每个向量yi独立地通过相同的前馈神经网络生成输出向量zi;最后将向量yi加入到zi,zi归一化后,得到整个基于多头注意力的蛋白质特征嵌入方法的向量列表Z=z1,z2,…zn;其中的注意力机制公式如下:MultiheadQ,K,V=Concathead1,…,headnWO其中其中AttentionQ,K,V公式如下: 公式中的Q,K,V分别为氨基酸词符嵌入queries向量、氨基酸词符嵌入keys向量和氨基酸词符嵌入values向量组成的矩阵,queries、keys和values分别是氨基酸词符向量乘氨基酸词符转换矩阵WQ、WK、WV获得的,dk代表氨基酸词符嵌入向量key的维度;headi代表第i个氨基酸词符注意力头的注意力;该多头注意力机制通过计算氨基酸词符间的注意力数值,捕捉氨基酸词符间的关注关系,然后添加序列位置信息并编码获得最后嵌入特征,氨基酸序列嵌入特征表示为512×768维矩阵,通过多头注意力机制进行训练;步骤6、预测肽与MHCI类蛋白结合亲和力。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学 一种基于蛋白质结构域特征嵌入的肽与MHC I类蛋白亲和力预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。