首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于超图表征与狄利克雷分布的多组学关联表型预测方法_大连理工大学_202210544114.7 

申请/专利权人:大连理工大学

申请日:2022-05-19

公开(公告)日:2024-06-14

公开(公告)号:CN114927162B

主分类号:G16B20/00

分类号:G16B20/00;G16H50/30;G06F18/10;G06F18/2413;G06F18/23;G06F18/25;G06F18/213;G06N3/042;G06N3/0464;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.06.14#授权;2022.09.06#实质审查的生效;2022.08.19#公开

摘要:本发明公开一种基于超图表征与狄利克雷分布的多组学关联表型预测方法,包括:组学数据预处理模块实现原始组学数据清洗与特征预筛选功能,以去除可能影响关联挖掘性能的噪声、错误和冗余特征。组学数据超图表征模块完成各组学内的余弦相似度计算,并据此构建超图关联矩阵。特征提取模块搭建超图卷积神经网络进行各个组学数据的特征提取。多组学集成预测模块利用由每个特定超图卷积神经网络生成的初始结果来构建狄利克雷分布参数,并将其作为输入到多组学集成算法以进行最终标签预测。本发明基于多组学数据与相应表型标签挖掘各组学信息的潜在相关性,并且有效地集成每个组学的特征信息,实现精准的组学数据与人体表型的关联预测。

主权项:1.一种基于超图表征与狄利克雷分布的多组学关联表型预测方法,其特征在于,步骤如下:步骤1组学数据清洗与预处理各组学数据需要剔除原始数据中的冗余噪声,然后进行特征的预选择,预选择方法如下:首先,过滤掉数据集中方差小于阙值α的特征;其次,针对每种表型标签依次执行公式1的t假设检验同类标签的各样本组学数据间是否存在显着差异,t值大于阙值γ的样本做删除处理,其中为样本均值,μ代表样本期望,σx表示样本的标准差,n表示样本数; 最后,因为不同的组学数据类型具有不同的表达范围,通过线性变换将表达值进行缩放至[0,1],输出为预处理的特征矩阵X;步骤2构建组学数据的超图结构2.1一个超图定义为G=V,E,W,由顶点集V={v1,v2,…,vm}和超边集E={e1,e2,…,el}组成,W是超边的权矩阵,代表每条超边的重要程度;在超图中,每个顶点对应于一个样本,每个超边包含了V的任意子集;通过对步骤1输出的特征矩阵X进行余弦相似度运算来衡量组学内特征间关系;将不同样本视为不同向量,并使用公式3获得余弦相似度度量矩阵以向量间角度差异衡量其近似程度; 其中,xi代表特征矩阵X中第i例样本的具体特征向量;2.2根据得到的余弦相似度度量矩阵对样本进行KNN聚类;由于向量间的余弦值随着角度增大而减小,KNN聚类过程会返回相似度矩阵中每行最大的k个值的索引,这些索引构成该超图顶点的超边集合e,并将这k个索引在矩阵中置为1,其余索引则置为0;以此构造出矩阵H可以表示为超图G的关联矩阵,定义为: 以此延伸,顶点的度Dv定义为: 其中we为该超边在权矩阵中所占权重,超边的度De定义为: 步骤3搭建超图卷积神经网络进行单组学的特征提取:3.1首先根据拉普拉斯标准化公式构建超图关联矩阵的拉普拉斯矩阵,将超图内的抽象节点关系转化为能够作为神经网络输入的矩阵类型;步骤2所构成的超图结构的拉普拉斯矩阵定义为: 其中Dv为公式5得到的超图的顶点度矩阵,De为公式6得到的超边度矩阵,H为公式4得到的关联矩阵,对于没有给出特定权值矩阵W的数据集默认将其定义为单位阵I,即所有超边的权值相等;3.2将单种组学数据的超图拉普拉斯矩阵与预处理过的特征数据作为输入,输入到超图卷积神经网络以执行初始预测任务;每个超图卷积神经网络的训练目标是学习输入数据与对应标签的关联关系,具体来说,模型需要以下两个输入:其中一个输入是步骤1的结果即预处理的特征矩阵,X∈n×d,其中n是样本数量,d是组学特征的数量;另一个输入是超图结构的描述,即公式8得到的超图拉普拉斯矩阵Lh∈n×n;超图卷积神经网络HGCN模型结构通过堆叠3个卷积层与1个全连接层来构建,卷积层的维数根据特征矩阵X的维数设立,全连接层的输出维度为标签类别数;卷积层的具体定义为:HGConvl+1=fHGConvl,Lh=σLhHGConvlZl9式中HGCconvl为第l层的输出,Zl为第l层的权矩阵,当l=0时,HGConvl=X;σ·为卷积层的激活函数,设置为LeakyReLU函数,其中k为该激活函数的负斜率参数: 前两层卷积层后添加dropout机制,以降低模型过拟合的可能性;第三个卷积层后连接的全连接层实现特征整合;模型的输出Fo作为特征提取结果,Fo∈n×b,其中n是样本数,b为标签种类数量;同时,支持通过HGCN对单组学数据进行对应表型的预测,即通过单个HGCN的反向传播过程,利用交叉熵损失函数训练该网络: 其中LossCE·表示交叉熵损失函数,y为样本标签;根据损失值LossHGCN计算梯度,并更新网络权重Z完成反向传播过程,经过数次迭代训练过程后保存的模型可实现对单组学数据与表型的关联预测;步骤4基于狄利克雷分布的多组学集成算法:对每种组学数据分别使用步骤3构造对应的HGCN,针对每个神经网络输出的特征结果矩阵Fo∈n×b,结合公式12首先构造Fo的狄利克雷分布参数矩阵αo,αijo代表αo的每个元素;据此参数计算Fo中每个元素fijo的可信度pijo组成矩阵Po,以及该组学下预测结果的不确定性参数uio组成向量Uo: αo=Fo+112得到的单组学预测结果的可信分布矩阵Po与不确定性向量Uo进行多组学的融合预测;该过程采用经典D-S证据理论,即公式13的方式,实现组学间的两两信息融合: 式中,pi代表矩阵P的第i行;m设置为不小于0的值;具体来说,当m=0时,公式实现的是第一种组学预测结果P0、U0与第二种组学预测结果P1、U1的融合,得到P2、U2作为两种组学的融合结果;当m=1时,公式实现的是前两种组学融合结果P2、U2与第三种组学预测结果P3、U3的融合,得到P4、U4作为三种组学的融合结果;多组学融合方式以此类推,直到完成所有组学的融合得到P2m+2、U2m+2;待所有种类组学融合完成后,根据公式12反向推导出多组学融合条件下的狄利克雷分布参数α及融合预测结果F;最后进行多组学融合预测的训练学习,采用公式14计算融合损失:LossMOIA=Lossright+λepochLosswrong 其中,Lossright为正确标签损失函数,Losswrong为错误标签损失函数,LossMOIA为总损失函数;λepoch为根据当前已训练次数动态变化的损失权重,取值在0,1之间;k代表标签的某一具体种类的编号;yi代表样本标签的onehot编码中第i例样本的标签集合,yij代表onehot编码中第i例样本的第j种标签代表的元素;αi为第i个样本的狄利克雷分布参数集合,αij代表第i个样本的第j种分类结果的狄利克雷分布参数估计值;Γ·为伽马函数,式中t为定积分参数。

全文数据:

权利要求:

百度查询: 大连理工大学 基于超图表征与狄利克雷分布的多组学关联表型预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。