首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种针对高维数据的商业信息评估方法及系统_重庆邮电大学_202210347941.7 

申请/专利权人:重庆邮电大学

申请日:2022-04-01

公开(公告)日:2024-06-18

公开(公告)号:CN114782078B

主分类号:G06Q30/0201

分类号:G06Q30/0201;G06N3/0464;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2024.06.07#专利申请权的转移;2022.08.09#实质审查的生效;2022.07.22#公开

摘要:本发明涉及一种针对高维数据的商业信息评估方法及系统,属于大数据领域。该方法为:S1:对商业信息评估涉及的高维数据进行预处理。S2:建立基于ECA‑Net注意力机制和FFM的CatNN,和基于LightGBM作为提升树的GBDT2NN。S3:输入类别型稀疏特征到改进的CatNN,计算其输入和损失函数,得到基于类别型稀疏特征的评估结果。S4:输入数值型稠密特征到改进的GBDT2NN,得到基于数值型稠密特征的评估结果。S5:集成改进的CatNN和GBDT2NN,用于实现高维数据下的商业信息评估。该方法针对高维数据下商业信息评估中涉及的不同类型特征进行了专门的改进处理,且实现了评估模型的在线更新。

主权项:1.一种针对高维数据的商业信息评估方法,其特征在于:该方法包括以下步骤:S1:对商业信息评估涉及的高维数据进行预处理,分为类别型稀疏特征和数值型稠密特征;S2:针对类别型稀疏特征和数值型稠密特征,分别建立基于高效通道注意力机制ECA-Net和场感知因子分解机FFM的类别特征神经网络CatNN,和基于LightGBM作为提升树的梯度提升树转化的神经网络GBDT2NN;S3:输入类别型稀疏特征到改进的CatNN,计算其输入和损失函数,得到基于类别型稀疏特征的评估结果;S4:输入数值型稠密特征到改进的GBDT2NN,计算其输入和损失函数,得到基于数值型稠密特征的评估结果;S5:集成改进的CatNN和GBDT2NN,对集成模型进行训练和参数更新,最终实现高维数据下的商业信息评估;所述改进的CatNN具体包括以下步骤:S31:输入类别型稀疏特征xc到CatNN部分,CatNN部分是由多个属性特征向量组成的one-hot编码的向量,包含f个特征域;对于具体的输入,每个特征域是一个具体的特征属性;S32:对输入的特征向量进行嵌入embedding操作:vij为特征向量转化过程中和第j个域所对应的embedding权重向量,为第i个特征域下的特征向量;设:EMt=[et1,et2,......,etf]EMt表示第t个特征域经过embedding之后的embedding矩阵,etf为embedding之后的向量,表示第t个特征域下的特征与第f个特征域之间进行交互的embedding向量;f个域经过embedding之后的矩阵为:EM=[EM1,...,EMt,...,EMf]S33:参照残差神经网络Resnet的残差块,结合高效通道注意力模块ECANet以增加通道之间的信息交互,提高网络的准确率;在这个过程中,etf经过1×1的卷积操作,将每个向量压缩为一个一维的值,Utf表示对向量etf进行卷积操作的卷积权值:ztf=conv1dUtf,etf=ReluUtf,etf用DVt=[zt1,zt2,...ztf]表示经过1×1卷积之后的第t个特征域对应的向量;连接f个域的DV向量用D表示;D=concateDV1,DV2,...,DVt,...,DVfS34:在得到D之后,结合ECANet结构,对D进行卷积核大小为m,步长为1的一维卷积运算,m由以下公式确定: 其中,N表示D的维度,γ和b为超参数,用于计算卷积维度,|x|odd表示x的最接近奇数,在D的首尾添加m-12个0;S35:用S表示卷积的结果:S=σCov1DmDS的维度与D的维度一致;将S与EM相乘,完成在通道维度上对原始特征的重标定:AEMt=FscaleSt,EMt=[St1·et1,St2·et2,...,Stf·etf]用AEM表示重标定之后的EM矩阵:AEM=[AEM1,...,AEMt,...,AEMf]S36:在FeatureInteraction层,对向量两两进行交互,采用哈达玛积的交互方式; 两个向量的哈达玛积结果是一个向量,ai,j为k维向量;将两个向量进行连接: 将得到的值进行标准化处理使网络的输入更加稳定,然后将数据输入到深度神经网络中;S37:基于前馈的神经网络来负责高阶的特征交互,正向过程为:xl=σwlxl-1+bll为层的深度,σ为激活函数,xl为第l隐层的输出;S38:加上线性部分,整个CatNN部分的输出为: 所述改进的GBDT2NN具体包括以下步骤:S41:输入数值型稠密特征xg到GBDT2NN部分,首先是对LightGBM模型进行训练,在梯度提升树实现LightGBM模型中目标函数如下: 其中代表的是之前t-1棵树的输出,gi、hi分别代表的是损失函数的一阶导数与二阶导数,Ωft代表正则项;S42:对特征进行互斥特征捆绑EFB,将互斥的特征打包到一个单一的特征包;通过当前前t棵树的预测值与真实值做一个损失,得到每个样本的损失函数的值及损失函数的一阶导数gi和二阶导数hi;S43:首先对数据集进行单边梯度采样;然后从深度为0的树开始,对叶子结点进行分割,直到达到最大深度,通过最大化Lsprit; 来计算当前结点的最佳分割点,其中IL和IR是分割后左右树节点的实例空间,λ和γ为超参数;分割后相应的叶子结点j的权重为: S44:得到第t+1棵树,将这棵树添加到前t棵树的集合中Ft+1x;下次计算损失就是计算前t+1棵树的预测之和与真实值之间的误差: 其中Ft+1x为这t+1次迭代得到的总模型,重复以上操作直到模型收敛;S45:对梯度提升树中的多棵决策树进行分组,每组决策树用一个神经网络来拟合,设有k棵树,均分成m个树组;遍历单个树组Μ中每棵决策树,得到第i个样本对应的每棵树的叶子结点的索引向量,然后使用拼接操作||将其拼接起来;Lt,i表示决策树t中第i个样本的叶子结点的索引向量;S46:利用嵌入层来学习叶子结点的嵌入表示GΜ,i=H||t∈ΜLt,i;ωΤ,H表示将拼接起来的multi-hot向量||t∈TLt,i映射成嵌入embedding表示GΜ,i;使用wΤH||t∈ΜLt,i;ωΤ+w0去拟合第i个样本所在树组Μ中的决策树叶子结点的权重之和损失函数L″使用与LightGBM中相同的损失函数;学习多棵树的叶子结点嵌入的过程表示为: S47:进行输入特征的筛选,只使用样本xi梯度提升树中的分裂中所使用的特征IΜ作为输入的特征,设置输出的维度与GΜ,i的维度一致;S48:得到Nxi[IΜ];θΜ,Nxi[IΜ];θΜ用来拟合嵌入层得到的第i个样本的嵌入表示GΜ,i;N表示多层的神经网络的输出;通过神经网络的输出值和叶子节点的嵌入表示GΜ,i来计算树组Μ的嵌入损失Lembedding:Lembedding=LNxi[IΜ];θΜ,GΜ,iS49:利用之前使用嵌入表示来拟合多个叶子节点的权重之和时,学习到的权重wΤ与偏置w0,得到当前树组Μ转换的神经网络的输出yΜx,yΜx=wΤ×Nxi[IΜ];θΜ+w0将m个树组都转换成相应神经网络后,GBDT2NN部分的总输出为: 所述S5具体包括以下步骤:S51:得到CatNN和GBDT2NN两个部分的预测值之后进行加权相加的操作,从而获得模型总的输出值: 其中w1和w2为可训练参数,通过训练过程进行更新;S52:得到输出值之后计算出预测损失Lpredict,结合模型GBDT2NN部分的嵌入损失Lembedding,得到全局损失Lmodel;Lmodel=α×Lpredict+β×Lembedding其中的α和β为给定的超参数;S53:根据Lmodel计算w1和w2的梯度信息Δw,分别对两个参数w1和w2进行更新;S54:根据CatNN部分的输出值yCatNNx与Δw来计算CatNN部分神经网络最后一层,即第L层的梯度信息根据GBDT2NN部分的输出值yGBDT2NNx与Δw来计算GBDT2NN部分神经网络第L层的梯度信息S55:根据神经网络第L层的输出值OL以及之前得到的梯度信息来计算L-1层的梯度信息ΔL-1,并更新L-1层的参数信息;迭代此步骤,从第L-1层,到第L-2层,一直到第1层,依次计算每层的梯度信息,更新每层的参数,反向传播结束,以更新CatNN和GBDT2NN两部分的神经网络,当满足设置的迭代轮次或损失值小于特定值时,模型训练完成。

全文数据:

权利要求:

百度查询: 重庆邮电大学 一种针对高维数据的商业信息评估方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。