买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杭州电子科技大学
摘要:本发明公开了一种基于条件融合的多模态反讽检测方法。本发明具体步骤:步骤1、对需要进行反讽检测的数据文本进行预训练;对数据文本对应的视频和音频进行编码,得到视频特征和音频特征;步骤2、将处理好的数据文本馈送到编码器TE中;将数据的视频特征和音频特征通过多头注意力机制获得与情感相关的语境信息;步骤3、将语境信息以增量参数的形式加入到编码器的层归一化的增益g和偏置b中,将视频、音频特征融合到文本特征中,获得融合后的语义编码;步骤4、将语义编码通过softmax层进行讽刺的极性分类;本发明方法具有更好的鲁棒性和检测能力,解决了评论文本中的反讽检测问题。
主权项:1.基于条件融合的多模态反讽检测方法,其特征在于包括如下步骤:步骤1、对需要进行反讽检测的数据文本进行预训练;对数据文本对应的视频和音频进行编码,得到视频特征和音频特征;步骤2、将处理好的数据文本发送到编码器TE中;将数据的视频特征和音频特征通过多头注意力机制获得与情感相关的语境信息;步骤3、将语境信息以增量参数的形式加入到编码器的层归一化的增益g和偏置b中,将视频、音频特征融合到文本特征中,获得融合后的语义编码;步骤4、将语义编码通过softmax层进行讽刺的极性分类;步骤1具体实现如下:1.1对于数据文本,每条训练数据都包含上下文对话Context和目标对话Target,将上下文对话和目标对话联合作为Transformer编码器的输入X,计算方式如下:X=Context+Target11.2使用Ekphrasis分词工具对输入X进行分词,然后预训练一个Word2vec模型来学习每个词的语义特征以获得词向量表示;1.3对于数据文本对应的音频,通过使用librosa库,提取音频的基础特征;每段音频被切成不重合的小窗,提出不同特征拼接后将每段小窗取平均,对于整段音频就能够得到一个283维的向量;1.4对于数据文本对应的视频,在抽帧后放入一个由ImageNet预训练好的Resnet-152网络进行提取,然后对视频抽帧取平均,获得一个2048维的向量;步骤2具体实现如下:2.1输入序列X发送到Transformer编码器,首先会先经过第一层的多头注意力机制,该多头注意力机制将Head数设置为12,从而生成12个不同的特征矩阵;由于最后的输出矩阵要与输入矩阵大小一致,因此,得到的特征矩阵会按第二个维度拼接起来;然后经过第二层全连接层后得到多头注意力机制层的输出矩阵Z;最后,将Z与X融合得到矩阵R1,用于后面层归一化的操作;其计算过程如下:Z=MultiHeadQ,K,V=[head1;...;headh]WO2 R1=Z+X5其中,分别是查询Q、键K、值V以及多头注意力机制输出矩阵的投影矩阵,h是多头注意力机制的头数,headi是第i个注意力的输出;2.2在每个Transformer编码器的子层中都使用两个关系记忆模块RM;RM的核心内容是使用了多头注意力机制,将来自层归一化的输入向量Rt作为查询Q,视频特征和音频特征联合成F={f1,f2,…,fn}作为键K和值V,通过Query和Key的相似度来获得关键的特征信息Ht,并将特征信息通过MLP变换为△gt和△bt,此△gt和△bt将作为条件融入到原始层归一化的g和b中;其次,将RM模块集成到Transformer编码器中,随着多个Transformer编码器的层层叠加,RM模块会不断地从上一层的交互信息中保存有效信息并进一步提取更深层次的抽象信息用于调节Transforme编码器中文本模态的语境信息提取;其计算过程如下:Ht=fmulti-headRt,F6△gt=fmlpHt7△bt=fmlpHt8其中,Rt为层归一化的输入向量,当t=1时,R1=Z+X;当t=0时,R0=X,即第一次的Query为输入序列X。
全文数据:
权利要求:
百度查询: 杭州电子科技大学 基于条件融合的多模态反讽检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。