首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于领域对抗训练的情感分析方法_电子科技大学_202210529801.1 

申请/专利权人:电子科技大学

申请日:2022-05-16

公开(公告)日:2024-06-18

公开(公告)号:CN114997175B

主分类号:G06F40/30

分类号:G06F40/30;G06F16/35;G06N3/0475;G06N3/0442;G06N3/045;G06N3/047;G06N3/084;G06N3/0895;G06N3/09;G06N3/094;G06N3/096

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2022.09.20#实质审查的生效;2022.09.02#公开

摘要:本发明公开了一种基于领域对抗训练的情感分析方法,属于自然语言处理技术领域。本发明所述方法主要包括以下步骤:数据预处理与文本表示,构建对抗训练网络,设定对抗网络的初始参数并迭代更新,利用完成训练的网络对目标域数据中的所有输入文字序列进行序列标注。本发明所述方法利用领域对抗训练达到了模型跨域学习的目标,采用半监督的学习方式,通过为目标域无标记数据设置伪标签,使得教师网络与学生网络的学习能力趋于一致,从而提高模型对共享特征的提取能力。本发明所述方法利用语义距离动态加权和注意力机制相结合的方式,提高模型对领域特有特征的提取能力,最终使得模型在跨域场景下能达到良好的细粒度情感分类效果。

主权项:1.一种基于领域对抗训练的情感分析方法,其特征在于,包括以下步骤:S1:数据预处理与文本表示源域数据和目标域数据分别作为输入文字序列集合,将输入文字序列集合中的每个输入文字序列拆分为上文部分、方面词部分和下文部分,对每个部分执行分词操作和词嵌入操作,获取词向量表示;S2:构建对抗训练网络构建对抗训练网络,对抗训练网络包括教师网络、学生网络和领域分类器;教师网络和学生网络的结构相同,均为依次连接的特征提取器和序列标注器,分别对输入数据进行特征提取和序列标注;领域分类器对输入数据进行领域鉴别;S3:设定教师网络的初始参数和学生网络的初始参数令当前迭代次数Iter=1;S4:将源域数据及进行预处理后的词向量表示输入至学生网络的特征提取器,获取源域数据的特征;将源域数据的特征输入至学生网络的序列标注器,获取源域数据中各词对应的序列分类概率分布和标注符号;将源域数据的特征输入至领域分类器,获取源域数据的领域类别标签;将目标域数据及进行预处理后的词向量表示输入至学生网络的特征提取器,获取学生网络提取的目标域数据的特征,并输入至学生网络的序列标注器,获取学生网络预测的目标域数据中各词对应的序列分类概率分布和标注符号;将目标域数据的特征输入至领域分类器,获取目标域数据的领域类别标签;将目标域数据及进行预处理后的词向量表示输入至教师网络的特征提取器,获取教师网络提取的目标域数据的特征,并输入至教师网络的序列标注器,获取教师网络预测的目标域数据中各词对应的序列分类概率分布和标注符号,教师网络预测的目标域数据中各词对应的标注符号作为伪标签;S5:根据教师网络输出的序列分类概率分布设定掩码矩阵Mpq进行过滤;S6:计算学生网络的序列标注损失函数Llabel、领域分类器的交叉熵损失函数Ldom和基于伪标签修正的一致性损失函数Lmse;S7:通过优化Llabel和Lmse更新学生网络中序列标注器的参数,通过优化Ldom更新领域分类器的参数,通过最小化三者之和L更新学生网络中特征提取器的参数;更新后的学生网络参数为更新后学生网络中序列标注器的参数与更新后学生网络中特征提取器的参数的组合;S8:利用学生网络参数的指数移动均值更新教师网络参数S9:判断两次迭代之间的L值的差值是否小于设定精度阈值,若否,令当前迭代次数Iter=Iter+1,返回执行S4,若是,完成训练,记录当前教师网络参数;S10:利用完成训练的教师网络对目标域数据中的所有输入文字序列进行序列标注。

全文数据:

权利要求:

百度查询: 电子科技大学 一种基于领域对抗训练的情感分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。