恭喜泉城省实验室周耐获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜泉城省实验室申请的专利一种基于多编码器生成对抗学习的半监督文本分类方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119475126B 。
龙图腾网通过国家知识产权局官网在2025-05-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411501231.0,技术领域涉及:G06F18/2431;该发明授权一种基于多编码器生成对抗学习的半监督文本分类方法及系统是由周耐;王宇亮;李宗鹏;李翔龙;胡楠楠设计研发完成,并于2024-10-25向国家知识产权局提交的专利申请。
本一种基于多编码器生成对抗学习的半监督文本分类方法及系统在说明书摘要公布了:本发明涉及一种基于多编码器生成对抗学习的半监督文本分类方法及系统,属于监督学习技术领域,引入多编码器结构,为同一个文本样本提供多个输出表示。生成器部分将从随机噪声中采样得到的向量转化为和编码器的输出具有相同维度的向量表示,同时为了实现半监督文本分类,在判别器上构建无监督和有监督损失结合模块,利用生成对抗学习,不断促进生成器生成近似真实的对抗样本,同时提升判别器鉴别真实文本样本和生成器生成的对抗样本的能力,以及类别分类的能力。此外,通过生成器和判别器的联合优化,进一步提升编码器的文本语义表征能力。
本发明授权一种基于多编码器生成对抗学习的半监督文本分类方法及系统在权利要求书中公布了:1.一种基于多编码器生成对抗学习的半监督文本分类方法,其特征在于,包括步骤如下:1构建多编码器结构构建基于多编码器的生成对抗学习架构,在多编码的构建方面,首先复制多个具有相同结构的BERT编码器,利用多个编码器获得同一个样本的多个输出表示;设定构建M个编码器,有标签数据和无标签数据分别经过多编码后得到各自的输出表示;针对有标签样本数据xi,yi,经多编码器后得到的输出表示为: 针对无标签样本数据xj,经多编码器后得到的输出表示为: 2构建生成对抗网络,包括生成器和判别器在构建生成器和判别器时,均采用一层的感知机为基础架构;其中,生成器的输入为从正太分布中随机采样得到的噪声向量,输出为和编码器具有相同维度的向量;判别器的输入为真实数据和生成数据的多维度表示向量,真实数据为步骤1中编码器的输出,生成数据为生成器的输出;判别器的输出为k+1维的logit表示,其中k为原有的类别个数,即文本分类任务中文本数据集所包含的类别数量,第k+1维为生成器生成样本的类别;针对生成器的输入,其公式表示如下: 上式中,表示为均值为0,方差为1的正太分布;接着,随机噪声noise经生成器后得到的输出表示为:PG=noise~G4上式中,G表示生成器;3对生成器和判别器进行训练在生成对抗学习的训练中,生成器和判别器交替更新迭代;对于有标签样本数据xi,yi,其经多编码器后的输出表示,然后经判别器后得到的logit表示为: 对于无标签样本数据xj,其经多编码器后的输出表示,然后经判别器后得到的logit表示为: 在模型中生成器的训练时,其损失的计算如以下公式所示: 其中,为生成器损失,θ表示模型的参数,表示期望计算;x为随机噪声经生成器后生成的样本,y为生成的样本标签,PG为数据样本经生成器后得到的表示,为经判别器得到的标签,p为类别概率表示;构建无监督和有监督损失结合模块,该模块中的有监督损失针对有标签的文本样本数据和生成器生成的样本数据,判别器需要将以上文本样本正确的分类,并计算交叉熵损失;在模型中判别器的训练时,一方面要对有标签的文本样本正确分类,即将每个文本样本分配到k类中的某一类,另一方面还要将生成样本识别为第k+1类;其损失的计算公式如下: PBERT为数据样本经编码器BERT后得到的表示;4对模型整体进行优化训练在生成器和判别器交替迭代训练的同时,对多编码器进行调整,即对多个BERT编码器的参数进行更新,在无监督和有监督损失结合模块,该模块中的无监督损失针对有标签样本数据和无标签样本数据,每个样本数据经多个编码器以及判别器后得到多个不同的输出表示,在此基础上计算相对熵,针对同一个样本的多个输出表示,利用双向Kullback-Leibler散度对多个输出表示进行约束,使这些输出趋于一致,其损失的计算公式如下: 其中,c和m表示M个BERT编码器中第c和第m个编码器,DKL[·||·]表示Kullback-Leibler散度的计算;为数据经第c个编码器以及判别器后得到表示,为数据经第m个编码器以及判别器后得到表示;在整体的训练时,计算和这三个损失,并对生成器、判别器以及多个编码器的参数进行迭代更新;5更新完成后,得到已训练好的判别器和多个编码器;将需要分类的数据输入到判别器中,经过判别器得到其多个类别概率表示,最后根据多数原则判断得到其类别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人泉城省实验室,其通讯地址为:250100 山东省济南市历城区经十东路国家超算济南中心科技园;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。