首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种逻辑回归与多示例学习相结合的BCR分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:哈尔滨工程大学

摘要:本发明属于基于机器学习的BCR相关疾病筛查技术领域,具体涉及一种逻辑回归与多示例学习相结合的BCR分类方法。本发明应用多示例学习的思想,将氨基酸序列相同的BCR序列“聚类”为包,将同时包含阳性与阴性的同序列包标记为阳性。本发明能够有效降低基于机器学习的BCR相关疾病筛查中的假阴性率,提高目前正处于试探性研究阶段的BCR相关疾病筛查的实际应用性。

主权项:1.一种逻辑回归与多示例学习相结合的BCR分类方法,其特征在于,包括以下步骤:步骤1:获取BCR数据集,按照生物信息国际标准格式,首先将productive项为F的无效数据删除,之后仅保留sequence_id与代表氨基酸序列的junction_aa数据,并记录数据集的初始标签,之后将序列相同的数据聚类到多示例学习的一个包Di,如果包中存在阳性个例则整个包的标签为阳性,只有包中所有个例均为阴性包的标签才为阴性;每个单个的数据是该包中的示例{L0,L1,...,LS}∈Di;步骤2:取阳性样本集{D0,D1,...,Di}和阴性样本集{Di+1,Di+2,...,Dn}组成训练集;步骤3:使用k-mer算法将训练集中氨基酸序列数据转化为等长的子序列,长度为L的氨基酸序列切割为长度为k的连续子序列,之后代表氨基酸的字符串序列就可以解析为L-k+1mers;根据排列组合计算可以得出总共有多少种mers,而每种mer的数量就是经过k-mer算法处理后的基因序列数据;其中k的的选取要通过初步试验获得,一般范围在3-8;步骤4:使用Atchley因子将子序列表中的字母转化为一组5个数据,代表其物理化学性质;Atchley因子是一组高度可解释的氨基酸变异数字模式,这些高维属性数据由反映极性、二级结构、分子体积、密码子多样性和静电电荷的五种属性共变的多维模式进行总结,是一个自然的基础度量来比较这些代表氨基酸的字母数据;步骤5:将经过步骤4处理后的训练集数据输入逻辑回归模型中进行训练,梯度下降的方法选用Adam优化器;步骤6:获取待分类的BCR数据,不予聚类,仅做k-mer算法与Atchley因子的复合处理后输入训练好的逻辑回归模型中,逻辑回归模型输出BCR数据属于阳性概率;若阳性概率大于0.5,则判定BCR数据属于阳性,否则为阴性。

全文数据:

权利要求:

百度查询: 哈尔滨工程大学 一种逻辑回归与多示例学习相结合的BCR分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。