【发明授权】一种基于蛋白质结构域特征嵌入的肽与MHC I类蛋白亲和力预测方法_哈尔滨工业大学_202310878264.6

申请/专利权人：哈尔滨工业大学

申请日：2023-07-18

公开（公告）日：2024-06-14

公开（公告）号：CN117037897B

主分类号：G16B15/30

分类号：G16B15/30;G16B40/00;G06F40/242;G06F40/284;G06N3/045;G06N3/048;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.06.14#授权;2023.11.28#实质审查的生效;2023.11.10#公开

摘要：本发明提出一种基于蛋白质结构域特征嵌入的肽与MHCI类蛋白亲和力预测方法。该基于蛋白质结构域特征嵌入的肽与MHCI类蛋白亲和力预测方法利用多头注意力学习肽键与氨基酸残基特征，进行肽与MHCI类蛋白亲和力预测，本发明提出的预测方法与现有其他方法相比较，预测结果准确，满足实际需求。

主权项：1.一种基于蛋白质结构域特征嵌入的肽与MHCI类蛋白亲和力预测方法，其特征在于：所述方法包括以下步骤：步骤1、构建蛋白质结构域词符词典；步骤2、将给定MHCI类蛋白唯一表示符ID，找到其对应的氨基酸序列；步骤3、获取肽序列及MHCI类蛋白结构域序列，并对其进行分词，在获得MHCI类蛋白的氨基酸序列后，对该序列进一步处理，通过hmmscan方法得到MHCI类蛋白所有结构域的起始和终止位置，通过已知的起始和终止位置提取结构域氨基酸序列并依据自主构建的蛋白质结构域词符词典，对这些结构域氨基酸序列分词；在步骤3中，对肽序列和MHCI类蛋白分子氨基酸序列进行分词，分词基于自主构建的分词词典进行；通过统计蛋白质结构域序列中出现频率最高的氨基酸序列对,组成氨基酸词符,取出前10000个氨基酸词符组成蛋白质结构域词符词典；当取10000个氨基酸词符时，蛋白质结构域词典的词符长度为3或4个氨基酸字母的长度；这些蛋白质结构域词符更能适应环境而被保留,能够携带蛋白的演化特征；分词后的序列分别表示为和其中氨基酸词符的上标1表示肽序列，上标2表示MHCI类蛋白氨基酸序列，下标表示氨基酸词符的数量，通过插入特殊词符将他们组合成一个序列：其中[CLS]、[SEP]和[EOS]为特殊词符，分别表示类别符、分隔符和结束符；肽序列和MHCI类蛋白分子氨基酸序列组合后，将其最大组合长度规范为512；步骤4、构建氨基酸词符嵌入模型；在步骤4中，基于Bert模型构建基于蛋白质结构域特征嵌入的肽与MHCI类蛋白亲和力预测模型，该模型通过预训练深度表示Uniprot数据库中的蛋白质氨基酸序列，通过微调模型计算肽序列和MHCI类蛋白特征空间距离表示肽与MHCI类蛋白亲和力；模型采用LAMB优化器，设置优化器的超参数为默认值，即β1＝0.9，β2＝0.999，∈＝1E-8，重量衰减率λ＝0.01；步骤5、提取肽序列和MHCI类蛋白氨基酸词符嵌入特征，特征表示为肽和MHCI类蛋白结合嵌入矩阵；在步骤5中，利用多头注意力机制提取肽与MHCI类蛋白氨基酸序列嵌入特征；给定氨基酸词符向量输入列表X＝x1,x2,…xn，每个氨基酸词符向量xi首先通过多头注意力机制计算，根据计算出的结果与xi上下氨基酸词符的相关性来识别和关注X中的某些位置；根据多头注意力机制，来自X中每个向量xi的前后氨基酸词符信息编码为输出向量yi,并根据其与xi的相关性进行加权；然后通过将初始向量xi添加到输出向量yi，合并的向量yi通过归一化后通过全连接前馈神经网络提取特征,全连接前馈神经网络使用GeLU函数作为激活函数；GeLU函数如下公式所示:GeLUx＝xPX≤x其中X～Nμ,σ2,μ和σ都是验证实验的参数，赋值μ＝0和σ＝1；每个向量yi独立地通过相同的前馈神经网络生成输出向量zi；最后将向量yi加入到zi，zi归一化后，得到整个基于多头注意力的蛋白质特征嵌入方法的向量列表Z＝z1,z2,…zn；其中的注意力机制公式如下：MultiheadQ,K,V＝Concathead1,…,headnWO其中其中AttentionQ,K,V公式如下：公式中的Q，K，V分别为氨基酸词符嵌入queries向量、氨基酸词符嵌入keys向量和氨基酸词符嵌入values向量组成的矩阵，queries、keys和values分别是氨基酸词符向量乘氨基酸词符转换矩阵WQ、WK、WV获得的，dk代表氨基酸词符嵌入向量key的维度；headi代表第i个氨基酸词符注意力头的注意力；该多头注意力机制通过计算氨基酸词符间的注意力数值，捕捉氨基酸词符间的关注关系，然后添加序列位置信息并编码获得最后嵌入特征，氨基酸序列嵌入特征表示为512×768维矩阵，通过多头注意力机制进行训练；步骤6、预测肽与MHCI类蛋白结合亲和力。

全文数据：

权利要求：

百度查询：哈尔滨工业大学一种基于蛋白质结构域特征嵌入的肽与MHC I类蛋白亲和力预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种车门密封条生产盘卷方法_建新赵氏科技股份有限公司_202210237785.9

下一篇：数据接收方法、装置、设备及存储介质_OPPO广东移动通信有限公司_202080077023.6

相关技术

一种车门密封条生产盘卷方法_建新赵氏科技股份有限公司_202210237785.9

数据接收方法、装置、设备及存储介质_OPPO广东移动通信有限公司_202080077023.6

耐甲苯蒸煮的无卤阻燃聚氨酯树脂及其制备方法、应用_太仓维龙化工有限公司_202210052548.5

通讯模组和终端设备_深圳市广和通无线股份有限公司_202111173277.0

路由选择策略更新方法、终端及网络侧设备_深圳市广和通无线股份有限公司_202111127102.6

一种含锂金属氧化物前驱体、其制备方法及锂电池正极材料_宁波容百新能源科技股份有限公司_202211438449.7

一种适用于太阳能建筑一体化的集热器_华春新能源股份有限公司_202111271524.0

一种基于多路铁氧体非线性传输线的高功率微波产生系统_西北核技术研究所_202211529099.5

一种长距离通信的电网无人机巡检系统及方法_国网山东省电力公司金乡县供电公司_202310722098.0

阀孔自动清洗装置_中国计量大学_202010367509.5

一种锂离子电池电极多相多尺度建模方法及系统_华中科技大学_202111433503.4

基于卷积神经网络的图像识别技术的结算方法和装置_图灵通诺(北京)科技有限公司_201711008973.X

嵌入相关技术

一种嵌入式活动桌板_河北幕维影视设备有限公司_202322925234.4

一种可调节的嵌入式风口_苏州星润环保科技有限公司_202322734739.2

一种墙体嵌入式旋转书架_海南森鹤实业有限公司_202322634005.7

一种嵌入式智能空气炸锅_广东顺德石力电器有限公司_202322559602.8

一种可逆数据嵌入方法及装置_澳门科技大学_202410461287.1

嵌入对讲机的收音及音响装置_刘重辰_202321900766.6

一种门框嵌入式白蚁诱杀装置_重庆清道夫环保服务有限公司_202322766568.1

一种嵌入耦合式自移超前支架_四川芙蓉集团宜宾嘉业机械制造有限责任公司_201910389613.1

嵌入式飞行数据采集终端_青岛九天国际飞行学院股份有限公司_202322992978.8

一种嵌入式岸电插座箱_中船黄埔文冲船舶有限公司_202111279982.9

I相关技术

一种肌钙蛋白I检测试剂盒及制备方法_广州瑞辉生物科技股份有限公司_202410650767.2

一种提取柚皮RG-I型果胶的制备方法_广东省农业科学院蚕业与农产品加工研究所_202410019446.2

基于动态I/O负载感知的并行任务调度方法_无锡九方科技有限公司_202410437359.9

I2C接口系统、数据写入方法以及数据读取方法_天津瑞发科半导体技术有限公司_202311037009.5

一种基于I²C通信的血指标检测系统_贵州拉雅科技有限公司_201910818013.2

基于插值小波与塔式分解的英文长元音i识别方法_电子科技大学_202410451147.6

具有上拉和下拉晶体管的动态全栅极升压的输入/输出（I/O）电路_高通股份有限公司_202280073895.4

一株源泉假单胞菌I4、微生物菌剂及其应用_广州大学_202410437974.X

一种林扎戈利中化合物I含量的测定分析方法_上海奥博生物医药股份有限公司_202211638813.4

一种具有D4i功能的双PUSH调光调色恒压多路输出电源_珠海市圣昌电子有限公司_202410635919.1

MHC相关技术

一种基于蛋白质结构域特征嵌入的肽与MHC I类蛋白亲和力预测方法_哈尔滨工业大学_202310878264.6

包含修饰的MHC II类DRα1结构域的重组多肽及其应用方法_俄勒冈健康科学大学_201980079085.8

用于抑制MHC-I和/或II信号通路的试剂在治疗胆道闭锁中的应用_广州市妇女儿童医疗中心_202111277642.2

Ii-Key/HPV16 E7/MHC杂交肽及应用_优峰(北京)生物科技有限公司_202211377780.2

包含基于MHC蛋白的异源二聚体的双特异性抗体_拜奥卡德联合股份公司_202280061075.3

一种MHC区域三维基因组结构的高通量长读长测序方法_中山大学中山眼科中心_202311566408.0

MHC分子和抗原表位亲和力确定方法、模型训练方法及装置_北京悦康科创医药科技股份有限公司_202410381542.1

MHC-II类与多肽结合预测方法_上海数因信科智能科技有限公司_202410162032.5

一种抑制大鲵MHC-Ⅱ基因表达的shRNA、慢病毒及构建方法和应用_陕西省动物研究所_202410061420.4

MHC I类表位递送多肽_分子模板公司_202010812476.0

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种基于蛋白质结构域特征嵌入的肽与MHC I类蛋白亲和力预测方法_哈尔滨工业大学_202310878264.6

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务