恭喜浙江大学张晨获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜浙江大学申请的专利一种基于SPUM数据的半监督多标签学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114358184B 。
龙图腾网通过国家知识产权局官网在2025-04-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210001338.3,技术领域涉及:G06F18/24;该发明授权一种基于SPUM数据的半监督多标签学习方法是由张晨;刘英设计研发完成,并于2022-01-04向国家知识产权局提交的专利申请。
本一种基于SPUM数据的半监督多标签学习方法在说明书摘要公布了:本发明公开了一种基于SPUM数据的半监督多标签学习方法。考虑在数据的多个标签中只有一个标签被明确标注为正,其余标签都为未标注状态的单正例无标注多标签(singlepositiveandunlabeledmulti‑labeldata,SPUM)数据,并在未标注数据和此种SPUM数据分散于不同数据节点时通过信息传递求取全局最优解。采用基于正类数量约束的即时标签预测损失函数,使得算法在仅有部分数据单个标签被标注为正例的场景下,也能通过对正类数量进行约束和交替优化标签预测和模型输出学习到大量的信息,大大减少了标注任务的成本。在通信带宽等资源受限的分布式网络中,采用了基于事件触发的迭代策略,使得梯度信息量在到达一定程度后才被允许传输,在保持性能的同时大大减轻了网络负担。
本发明授权一种基于SPUM数据的半监督多标签学习方法在权利要求书中公布了:1.一种基于SPUM数据的半监督多标签学习方法,其特征是,分布式场景下,通过由各节点的无标注数据和SPUM数据计算得到的损失函数,反向计算得到本节点梯度信息后在网络中通过分布式策略传递并最终使每个节点都获得全局最优的模型参数θ*;所述的分布式场景,基于一个有J个分布在不同地理位置的节点的分布式网络无向图G={J,B},其中J={1,2,...,J}表示节点集,B={Bj},j∈J表示各节点的邻居节点的编号集,ε={j,b},j∈J,b∈Bj表示节点j的与邻居节点的边集;各分布式节点各自存储多标签数据集记为Nj={1,2,...,Nj},其中每个数据xn,n∈Nj都有L个标签并将标签集记为L={1,2,...,L};在各节点的数据集Nj中,除了有部分已标注单个正例标签的SPUM数据集之外仍然存在相当比例的未进行任何标注的数据集在SPUM数据中,L维标签向量仅有一个标签被标注到,使用观测向量zn表示这种被不完全标注的标签向量,则SPUM数据xn,zn,n∈Nj被公式描述为: 其中为未知标签,即其可能为1或0,定义fθj|xn为模型输出,其中xn为单个数据,θj代表节点j的模型参数;为了算法表示的简洁性,使用fn代表fθj|xn;步骤如下:1获取各节点的数据,得到各节点的SPUM数据;2计算各节点的损失函数,对每个节点计算得到该节点的损失函数并提出全局优化问题;3分布式优化,通过分布式梯度计算方法,对步骤2中所提全局优化问题通过将每个结点的梯度传递给邻居节点并融合来求解;4事件触发,计算临时参数估计的变化率判断是否大于触发阈值,若大于触发阈值,梯度传递事件被触发,以此减少步骤3中节点间的传递频次以降低通信成本;5对上述步骤进行多次循环迭代获得全局最优模型参数;在步骤2中,所述的损失函数设计时首先采用正类数量约束,为算法预测输出的每一个样例的正标签数量设置一个期望值K并将这种对正标签数量的约束称为正类数量约束positivenumbersregularization,PNR,记为表示为: 其中表示算法输出正标签数量的统计期望,首先考虑已标注数据集使用logfni获取正向信息,同时辅以正类数量约束得到已标注数据部分的正类数量约束损失函数记为lPNRl,表示为: 其中单个节点的算法输出堆叠即观测向量堆叠即同时考虑半监督情况,即对于只有未观测标签可以使用的未标注数据集使用“假负”策略对未标注数据的所有标签加以负向损失log1-fni以得到大量负向信息并使用标签平滑减少“假负”策略产生的噪声,同时辅以正类数量约束得到未标注部分的正类数量约束损失函数记为lPNRul,并将其表示为: 其中ε设置为为最终综合考虑已标注部分和未标注部分,得到各节点的正类数量约束损失函数为: 尽管上述lPNR损失函数采用了作为正类数量约束实现了一定的对未观测标签输出的隐性假设,从而能从中获取一定信息,但这个隐性假设仅仅针对输出正标签的期望数量使其约束性较弱;为此使用直接针对输出标签值的预测值的隐性假设,即时标签预测real-timelabelestimation,RLE;在通过神经网络得到特征向量后使用两套参数θj和分别计算算法输出fθj|xn和一个标签预测输出并将二者同时送入损失函数进行后续梯度回传和优化;在此基础上将单个数据的标签预测向量记为gn,所有数据的标签预测矩阵记为有了强假设性的即时标签预测后,便可以使用全监督的交叉熵损失函数获得更多的信息,将基于标签预测的强假设与基于期望正标签数量的弱假设式5进行结合,并辅以流形约束得到初步的RLE损失函数即: 其中sg·是梯度中断函数,它将阻止梯度回传,使得gn仅作为即时的预测标签来使用; 最后一项流形约束用以优化算法输出fn;上述初步RLE损失函数可在正类数量约束的基础上促使算法输出fn去接近预测标签gn;而优化标签预测的参数需要将式6中的标签预测与算法输出的位置进行交换得到然后将和进行结合,便可得到最终的适用于SPUM学习的RLE损失函数,并提出网络上的全局优化问题为: 如此便可同时训练输出函数fθj|xn的参数θj和标签预测的参数并最终选取在测试集种表现最好的参数θj或作为算法输出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。