首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于生成式对抗网络的基因序列插补方法 

申请/专利权人:湖南大学

申请日:2022-04-21

公开(公告)日:2024-06-28

公开(公告)号:CN114758722B

主分类号:G16B30/00

分类号:G16B30/00;G16B40/00;G06F18/2321;G06N3/045;G06N3/0475;G06N3/094

优先权:

专利状态码:有效-授权

法律状态:2024.06.28#授权;2022.08.02#实质审查的生效;2022.07.15#公开

摘要:本发明公开了一种基于生成式对抗网络的基因序列插补方法,通过无监督聚类算法将基因序列按照缺失片段的分布情况分为两类,两个生成器分别学习并构造相应的基因序列缺失分布模型;再分别构建两个生成式对抗网络,通过注入与原数据等量的随机噪声,生成缺失片段的插补结果,并根据对方缺失分布模型的预测结果,丢弃此完整数据的部分信息,最后判别与真实数据的差异性,根据反馈调整插补模型,进而得到高精度的插补结果。本发明可以在不同类型的数据集上进行插补,具有良好的鲁棒性;能模拟基因数据产生缺失的过程,又避免了插补片段与掩盖片段重叠,能够防止训练中产生无意义的迭代;提高了插补的精度和效率,能够运用于大规模数据集的处理。

主权项:1.一种基于生成式对抗网络的基因序列插补方法,其特征在于,包括以下步骤:S1、参数初始化,包括设置训练轮数epoch、参数学习率α、聚类簇数k、批量大小batch-size、交替训练的轮数阈值step和数据损失比λ;S2、随机选择设定数量序列样本作为聚类的初始中心,对于每个序列样本,根据缺失片段的分布情况求其到序列样本中心的距离,并归类到距离较小的一簇,并迭代n次,每次迭代后以簇的质心作为新的聚类中心,得到Xa,Xb两簇数据;S3、根据两簇数据Xa,Xb中数据的缺失情况,分别构建相应的基因序列缺失分布模型Gma,Gmb,其输出的张量的构成元素为整型标量m∈[0,1];S4、构建生成器Gxa和生成器Gxb插补原始数据,判断是否达到最大训练轮数epoch,若达到则停止训练;S5、根据步骤S3得到的基因序列缺失分布模型,掩盖已插补的数据的信息;S6、构建鉴别器Dx,输入步骤S5得到的序列,鉴别器Dx对每一条数据进行分析,根据先验概率判断其来自真实样本数据或由基因序列缺失分布模型生成的数据,给出评分score,其中score∈[0,1],代表数据来自真实基因序列的概率,判断本轮的训练对象,若为生成器Gxa,Gxb,则转至步骤S7,否则转至步骤S9;S7、将鉴别器Dx的评分结果score反馈给产生此条数据的生成器Gxi,i=a,b,生成器以为目标函数,沿梯度的负方向更新网络参数;其中,x为真实样本数据,为步骤S5得到的数据;S8、判断是否达到交替训练的轮数阈值step,若是则停止更新生成器Gxa,Gxb的网络参数,转至步骤S9,否则转至步骤S4;S9、鉴别器Dx根据评分结果score和数据的类别做出调整,以为目标函数,沿梯度的正方向更新网络参数;S10、判断是否达到交替训练的轮数阈值step,若是则停止更新生成器Dx的网络参数,转至步骤S7,否则转至步骤S4。

全文数据:

权利要求:

百度查询: 湖南大学 一种基于生成式对抗网络的基因序列插补方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。