非编码RNA中小开放阅读窗编码多肽能力预测方法及系统

导航：龙图腾网> 最新专利技术> 非编码RNA中小开放阅读窗编码多肽能力预测方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：常州大学

摘要：本发明公开了非编码RNA中小开放阅读窗编码多肽能力预测方法及系统，涉及非编码RNA中sORF编码多肽能力预测技术领域，包括采集非编码RNA中小开放阅读窗sORF编码多肽和不编码多肽序列数据，进行数据预处理；构建sORF序列和sORF序列对应的多肽序列特征空间；通过多肽序列特征空间构建融合多空间视图的深度学习模型DeepNCsORF模型；验证和评估DeepNCsORF模型。本发明通过多种特征表征来描述序列，填补了单一数据来源的不足，实现多路径信息融合，提出三路交互式注意力机制来更好地合成三个子网络的输出，充分挖掘不同网络之间的关联性，提取重要信息，预测效果优于仅考虑单一特征的方法。

主权项：1.非编码RNA中小开放阅读窗编码多肽能力预测方法，其特征在于：包括，采集非编码RNA中小开放阅读窗sORF编码多肽和不编码多肽序列数据，进行数据预处理；构建sORF序列和sORF序列对应的多肽序列特征空间；通过多肽序列特征空间构建融合多空间视图的深度学习模型DeepNCsORF模型；验证和评估DeepNCsORF模型；所述多肽序列数据包括，获取TransLnc中的所有核苷酸和氨基酸序列，选择有1到4种实验证据支撑的序列数据作为正样本，将没有实验证据支撑的序列数据作为负样本，运用CD-HIT按80％的阈值将多肽序列数据集中的冗余数据去除，按1:1比例随机抽取数据正负样本，构建数据集；所述sORF序列对应的多肽序列特征空间包括基于图的核苷酸序列表征、基于进化信息的多肽序列表征、基于比对信息的多肽序列表征、基于生化特征的多肽序列表征和基于大模型预训练多肽序列表征；所述基于图的核苷酸序列表征包括，将核苷酸序列划分为3mer片段，将给定的核苷酸序列按照连续的三个核苷酸为一组进行划分，得到一系列的3mer片段，对于长度为N的核苷酸序列，得到N-2个3mer片段，然后构建3mer图的节点，将每个3mer片段作为3mer图的节点，每个节点代表一个唯一的3mer片段，构建3mer图的边，对于相邻的3mer片段，添加一条边表示相邻的3mer片段之间的连接，如果两个3mer片段在原始核苷酸序列中是连续的，则两个3mer片段之间存在一条边，将核苷酸序列转换为3mer图后，得到一个图结构，其中节点表示3mer片段，边表示3mer片段之间的连接，将图结构联合图卷积网络；所述基于进化信息的多肽序列表征包括，多肽序列的进化信息使用位置特异性评分矩阵表示，收集已有物种的蛋白质序列，使用多序列比对算法ClustalW，将多肽序列比对到收集到的蛋白质序列，根据比对结果，统计每个位置上氨基酸残基的频率和出现概率，得到初始的频率矩阵，频率矩阵的大小为m×n，其中，m为氨基酸的种类数目，n为比对序列的长度，对初始频率矩阵进行修正，修正方法为加权，得到修正后的矩阵，即为PSSM，PSSM矩阵的每一列代表一个氨基酸残基，每一行代表比对序列中的一个位置，矩阵中的每个元素表示位置上某个氨基酸残基的评分，若评分值高，则表示残基在位置上的保守性高，若评分值低，则表示残基在位置上的变异性高，对给定的长度为L的多肽序列，PSSM矩阵的大小为L*20，L为多肽序列的长度，20种氨基酸在每个位置出现的评分；所述基于比对信息的多肽序列表征包括，多肽序列的比对信息用多肽的接触图表示，使用AlphaFold2获取多肽的三维结构，从多肽的结构数据中提取出每个氨基酸残基的原子坐标，选择在蛋白质结构中稳定的Cα原子的坐标，对于每个氨基酸残基，使用欧氏距离计算氨基酸残基与其他残基之间的距离，并根据设定的阈值，判断是否存在接触，若两个氨基酸残基的距离小于阈值，则认为两个氨基酸残基之间存在接触，将对应的接触图元素设置为1，若两个氨基酸残基的距离大于阈值，则将对应的接触图元素设置为0，将所有氨基酸残基之间的接触情况记录在接触图中，形成一个对称的二维矩阵，矩阵的行和列对应于氨基酸的索引，得到的多肽序列的接触图；所述基于生化特征的多肽序列表征包括，多肽的序列的生化特征使用AAindex表示，其中AAindex1是AAindex数据库中的一个子集，通过AAindex1将序列中每个氨基酸转化为544维度的向量，对给定长度为L的多肽序列，得到L*544的矩阵；所述基于大模型预训练多肽序列表征包括，预训练模型通过大规模蛋白质数据学习多肽序列的高级表示，捕获语义和上下文信息，ProtT5通过自注意力机制捕获序列的全局依赖，将长度为L的序列编码为L*1024维矩阵，ESM-2采用自回归方式预测氨基酸，建模局部依赖关系，学习序列中的语义信息和上下文关联，通过编码器将序列编码为L*1280维矩阵。

全文数据：

权利要求：

百度查询：常州大学非编码RNA中小开放阅读窗编码多肽能力预测方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种空压机变频装置

下一篇：一种磨损小的滚珠轴承

相关技术

一种空压机变频装置

一种磨损小的滚珠轴承

一种多工位双面印刷装置

一种应用于水电站的桌面应急演练数字化系统

新型可聚合液晶

一种数据线加工用拉伸检测设备

一种常压硫酸储罐腐蚀检测装置

一种地板纵梁连接结构

一种施工环境采样检测装置

一种新型的料仓降尘降温、温湿度联动系统

一种按摩梳

悬挂式生物质往复炉排

编码相关技术

使用双向预测的图像编码和解码方法以及图像编码和解码设备_三星电子株式会社_201980075617.0

一种视频编码方法_湖南芒果融创科技有限公司_202410795587.3

考虑硬件设计的视频编码方法和编码设备，以及视频解码方法和解码设备_三星电子株式会社_201980069515.8

用于同时多面板UL传输的预编码指示_联想(北京)有限公司_202280092816.4

图像编码/解码方法和图像数据的发送方法_LX半导体科技有限公司_202410979222.6

一种帧内编码方法及装置_慧之安信息技术股份有限公司_202410694718.9

对数据总线上的字节信息进行编码_高通股份有限公司_202380022148.2

一种多层时空编码成像方法_上海交通大学_202410963997.4

一种基于视觉的色彩编码方法_常州耳语科技有限公司_202410799819.2

图像编码/解码方法及发送图像数据的方法_LG电子株式会社_202411023702.1

多肽相关技术

多肽偶联药物及其制备方法和应用_深圳威科森生物医药科技有限公司_202410680480.4

一种多肽快速高效折叠纯化的方法_中国医学科学院药物研究所_202310310612.X

一种多肽原料粉碎自清洁设备_江苏汉肽生物医药有限公司_202411200755.6

一种金钱龟辅助抗肿瘤的多肽的制备方法_广州市泽川生物科技有限公司_202411128295.0

来源于胎肾的抑制肿瘤活性的多肽成分及其制备方法、应用_西安交通大学医学院第一附属医院_202410985633.6

条件性活化的抗原结合多肽复合物及其使用方法_摩德斯医疗股份有限公司_202280089147.5

多肽CLE2在制备鲜花保鲜剂中的应用_中国农业科学院烟草研究所(中国烟草总公司青州烟草研究所)_202410751611.3

具有经修饰的AAV衣壳多肽的重组腺相关病毒_九天生物医药(上海)有限公司_202380022587.3

在多肽的重组生产期间防止二硫键还原_健泰科生物技术公司_202011172162.5

包含B7-H3结合多肽的组合物和方法_得克萨斯州大学系统董事会_202280079501.6

能力相关技术

一种带载能力增强辅助装置_广州市双泰电子科技有限公司_202322900844.9

检测预清洁腔室的还原能力的方法_上海积塔半导体有限公司_202410733485.9

一种建筑材料形变能力检测装置_赵鹏飞_202323491004.8

能力模块的自卸载方法、装置、设备、介质及程序产品_北京火山引擎科技有限公司_202410738056.0

一种智能手表电池蓄电能力检测设备_杭州卓洱生物科技有限公司_202410776980.8

一种基于模糊决策神经网络的科技创新能力评估方法_中国电子科技集团公司第五十四研究所_202410752989.5

调控水稻分蘖、单株产量或氮素吸收能力的基因及其应用_华南农业大学_202410761227.1

一种提高皱纹盘鲍抗病能力的养殖方法_中国海洋大学_202411027596.4

一种户外强防护能力的油浸式变压器_山东迪米特电气有限公司_202410893101.X

一种加筋复合地基抗拔承载能力计算方法及系统_中国电力科学研究院有限公司_202010690656.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

非编码RNA中小开放阅读窗编码多肽能力预测方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务