买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东大学
摘要:本公开属于数据处理技术领域,提供了一种跨多物种的启动子预测方法及系统。该方法包括,获取DNA序列,分别提取所述DNA序列的第一特征和第二特征;基于所述第一特征,采用随机森林模型,得到第一预测概率值;基于第二特征,采用卷积神经网络模型,得到第二预测概率值;分别假设随机森林模型的权重和卷积神经网络模型的权重,并基于第一预测概率值和第二预测概率值,构建损失函数;通过最小化损失函数确定随机森林模型和卷积神经网络模型的权重值;根据随机森林模型的权重值和卷积神经网络模型的权重值与其预测概率值的乘积的和,即为用于判断是否为启动子的概率值。
主权项:1.一种跨多物种的启动子预测方法,其特征在于,包括:获取DNA序列,分别提取所述DNA序列的第一特征和第二特征;所述第一特征包括:融合的反向互补k-mer、不匹配的k-mer、k-间隔核酸对组成、三核苷酸理化性质和伪三核苷酸组成;所述第二特征为词嵌入向量,所述词嵌入向量通过采用词嵌入模型提取DNA序列得到;基于所述第一特征,采用随机森林模型,得到第一预测概率值;基于第二特征,采用卷积神经网络模型,得到第二预测概率值;分别假设随机森林模型的权重和卷积神经网络模型的权重,并基于第一预测概率值和第二预测概率值,构建损失函数,所述损失函数为: 其中,是第i个模型的权重,是第i个模型的输出,所述权重的约束条件为: ;将原始训练集按照7:1的比例进一步划分为训练集和用于获取权重的权重集,即RF模型中训练集、权重集和测试集的比例为7:1:2,而CNN模型中训练集、权重集、验证集和测试集的比例为6:1:1:2,然后通过最小化损失函数确定随机森林模型和卷积神经网络模型的权重值;根据随机森林模型的权重值和卷积神经网络模型的权重值与其预测概率值的乘积的和,即为用于判断是否为启动子的概率值。
全文数据:
权利要求:
百度查询: 山东大学 一种跨多物种的启动子预测方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。