申请/专利权人:安徽大学
申请日:2024-04-03
公开(公告)日:2024-06-21
公开(公告)号:CN117992835B
主分类号:G06F18/24
分类号:G06F18/24;G06F18/10;G06F18/22;G06F18/214
优先权:
专利状态码:有效-授权
法律状态:2024.06.21#授权;2024.05.24#实质审查的生效;2024.05.07#公开
摘要:本发明是一种多策略标签消歧的偏多标签分类方法、设备及存储介质,所述方法步骤为:构建偏多标签数据集,包含样本特征数据集和候选标签数据集;使用嵌入网络生成的样本嵌入特征,用于计算标签原型;通过多策略标签消歧操作,排除候选标签集中的噪声标签并计算每个样本中的高置信度标签;使用消歧后的标签置信度重新计算并更新标签原型,并将更新后的标签原型与样本嵌入特征共同用于训练嵌入网络;通过度量嵌入网络生成的测试样本特征与各个标签原型之间的相似度来进行分类。本发明可减少噪声信息的影响,增强模型在未知数据上的泛化能力,从而提升偏多标签分类性能。
主权项:1.一种多策略标签消歧的偏多标签分类方法,其特征在于,所述方法包括以下步骤,S1、构建偏多标签数据集,包含样本特征数据集和候选标签数据集,候选标签数据集中包含相关标签和不相关的噪声标签;其中样本特征数据集和候选标签数据集都用于训练嵌入网络和计算标签原型;S2、使用嵌入网络生成的样本嵌入特征,用于计算标签原型;S3、通过多策略标签消歧操作,排除候选标签集中的噪声标签并计算每个样本中的高置信度标签;S4、使用消歧后的标签置信度重新计算并更新标签原型,并将更新后的标签原型与样本嵌入特征共同用于训练嵌入网络;S5、通过度量嵌入网络生成的测试样本特征与各个标签原型之间的相似度来进行分类;其中,所述步骤S3具体包括:多策略标签消歧是由标签原型消歧策略、特征-标签一致性消歧策略、标签相关性消歧策略组成;候选标签集在经过不同策略下的标签消歧操作后,获得较为可信的标签置信度,其中置信度标签矩阵,其中表示第i个样本的标签置信度向量,,表示为[,表示为第i个样本下的第j个标签的标签置信度;则具体步骤如下:S31、通过计算样本到相关标签原型和不相关标签原型的欧式距离来计算标签原型策略下的标签置信度,其计算公式为: 其中表示在标签原型策略下第i个样本下的第j个标签的标签置信度,表示当前迭代次数,表示计算两者之间的欧式距离;S32、通过计算特征相似度和标签语义相似度来更新特征-标签一致性策略下的标签置信度,其计算公式为: 其中表示第i个样本特征与第j个样本特征之间余弦相似度,表示第i个样本的标签置信度向量与第j个样本的标签置信度向量之间余弦相似度;S33、通过计算标签相关性消歧策略下的标签置信度,其计算公式为: 其中表示为在第j个标签存在的情况下第k个标签存在的概率,其中表示标签k和标签j同时出现的次数,表示标签j出现的次数,表示候选标签集中同时包含标签k和j的样本数量;S34、计算消歧后的置信度并对其进行归一化,其计算公式为: 。
全文数据:
权利要求:
百度查询: 安徽大学 多策略标签消歧的偏多标签分类方法、设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。