Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种结合预训练模型与自注意力块的多模态情感分析方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广东工业大学

摘要:本发明提出了一种结合预训练模型与自注意力块的多模态情感分析方法,针对现有多模态数据间语义相关性弱和数据不对齐问题,本方法基于BERT、ResNet、COVAREP模型,分别对三个模型进行改进,最终构建了多模态模型BRCM,有效地提取并整合了文本、图像和音频的关键特征。具体来说,多模态模型BRCM融合了文本处理模块、图像处理模块以及音频处理模块中的特征表示,能够同时提取和表达三种模态的深层表征,结合自注意力机制优化特征的融合过程,增强模态间的交互与整合能力,实现更精准的情感判断。该系统在不同模态的情感识别精确度上分别提升了7.48%、6.92%、1.24%。此方法为政策决策提供了有效的支持工具。

主权项:1.一种结合预训练模型与自注意力块的多模态情感分析方法,其特征在于包含以下步骤:S1:本发明构建了多模态模型BRCM,其通过融合文本、图像和音频三种模态的特征,提升多模态数据的特征提取能力;该模型结合了文本处理、图像处理和音频处理模块,通过预处理层、特征提取层、注意力机制和全连接层,生成最终的多模态特征表示;文本处理模块基于BERT,结合双向GRU和多头注意力机制,提取深层语义特征;图像处理模块在ResNet的基础上,采用卷积神经网络、全局平均池化和多头注意力机制,提取高层次图像特征;音频处理模块基于COVAREP,结合卷积神经网络、LSTM和多头注意力机制,提取音频深层特征;最终,将文本、图像和音频的特征表示进行融合,生成多模态特征表示;通过这种融合,BRCM模型能够同时提取和表达三种模态的深层特征,实现更全面的多模态数据分析和处理;文本处理模块:为了增强文本特征的提取能力,在BERT的基础上进行改进,采用双向GRU和多头注意力机制相结合的方法;新架构结合了BERT的上下文理解能力、BiGRU的序列建模能力以及多头注意力机制的全局信息捕获能力,能够更好地提取文本的深层语义特征;输入嵌入层:对输入的文本进行嵌入表示,将每个词转换为对应的向量表示,这些向量可以捕捉词语的语义信息;假设输入文本为T=[t1,t2,…,tn],经过嵌入层后的表示为:Et=[e1,e2,…,en]其中,ei表示词ti的嵌入向量;预训练BERT层:将嵌入表示输入到预训练的BERT模型中,得到上下文敏感的词表示,这些向量能够捕捉词语在不同上下文中的意义:HBERT=BERTEt其中,BERT的输出为HBERT,HBERT=[h1,h2,…,hn],每个hi是BERT模型输出的上下文敏感词向量;双向GRU层:将BERT输出的上下文敏感词向量输入到双向GRU层中,以捕获序列中的双向依赖关系,分别处理词向量的前向和后向依赖关系,前向GRU层处理序列中的前向依赖,后向GRU层处理序列中的后向依赖;假设前向GRU的输出为后向GRU的输出为最终的GRU输出表示为: 其中,是双向GRU的输出;多头注意力层:将双向GRU的输出输入到多头注意力机制中,以捕获全局的上下文信息,多个注意力头并行处理信息,然后将这些信息综合,生成注意力机制的输出:HAttn=MultiHeadAttentionHGRU,HGRU,HGRU其中,是多头注意力机制的输出;全连接层:将多头注意力机制的输出进行平均池化,降低特征的维度,假设池化后的特征表示为Hpool: 将池化后的特征输入到全连接层,通过ReLU激活函数生成最终的文本特征表示:Hfinal=ReLUWf·Hpool+bf其中,Wf和bf是全连接层的权重和偏置参数,Hfinal是最终的文本特征表示;图像处理模块:为了增强图像特征提取能力,在ResNet的基础上进行改进,采用更深层次的卷积神经网络结构,并结合全局平均池化和注意力机制来提高特征表达的准确性;新架构将包括以下几个主要部分:预处理层、ResNet层、全局平均池化层、多头注意力层和全连接层;预处理层:对输入图像进行标准化处理,包括调整图像大小、归一化等;假设输入图像为I,经过预处理后的图像表示为I',其公式为:I′=NormalizeResizeI其中,Resize表示调整图像大小,Normalize表示归一化处理;ResNet层:将预处理后的图像输入到预训练的ResNet模型中,提取高层次的图像特征;基于使用ResNet-50模型,ResNet的公式表达为:HResNet=ResNetI′其中,HResNet表示ResNet输出的特征图;全局平均池化层:对ResNet输出的特征图进行全局平均池化,将高维特征图压缩成固定大小的特征向量,其公式为:HGAP=GlobalAveragePoolingHResNet其中,HGAP是全局平均池化后的特征向量;多头注意力层:将全局平均池化后的特征向量输入到多头注意力机制中,以捕获全局的上下文信息:HAttn=MultiHeadAttentionHGAP,HGAP,HGAP其中,HAttn是多头注意力机制的输出特征表示;全连接层:将多头注意力层的输出通过全连接层进行降维,得到最终的图像特征表示:Hfinal=ReLUWf·HAttn+bf其中,Wf和bf是全连接层的权重和偏置参数,Hfinal是最终的图像特征表示;音频处理模块:为了增强音频特征提取能力,在COVAREP的基础上进行改进,采用更复杂的卷积神经网络CNN结构和长短期记忆网络LSTM结合的方法,并利用多头注意力机制来提升特征表达的准确性;新架构将包括以下几个主要部分:预处理层、COVAREP特征提取层、卷积层、LSTM层、多头注意力层和全连接层;预处理层:对输入音频信号进行标准化处理,包括降噪和归一化等;假设输入音频为A,经过预处理后的音频表示为A':A′=NormalizeDenoiseA其中,Denoise表示降噪处理,Normalize表示归一化处理;COVAREP特征提取层:将预处理后的音频信号输入到COVAREP模型中,提取音频的基础特征:HCOVAREP=COVAREPA′其中,HCOVAREP表示COVAREP输出的音频特征;卷积层:将COVAREP输出的特征输入到卷积层中,以提取更高层次的特征表示:HConv=Conv1DHCOVAREP其中,HConv是卷积层输出的特征表示;LSTM层:将卷积层的输出输入到LSTM层中,以捕获时间序列中的长短期依赖关系:HLSTM=LSTMHConv其中,HLSTM表示LSTM输出的特征表示;多头注意力层:将LSTM的输出输入到多头注意力机制中,以捕获全局的上下文信息:HAttn=MultiHeadAttentionHLSTM,HLSTM,HLSTM其中,HAttn是多头注意力机制的输出特征表示;全连接层:将多头注意力层的输出通过全连接层进行降维,得到最终的音频特征表示:Hfinal=ReLUWf·HAttn+bf其中,Wf和bf是全连接层的权重和偏置参数,Hfinal是最终的音频特征表示;构建BRCM模型:模型BRCM通过融合文本、图像和音频三种不同模态的特征,提升多模态数据的特征提取能力;该模型结合了文本处理、图像处理和音频处理模块,通过预处理层、特征提取层、注意力机制和全连接层,将上述三种不同模态的特征表示进行融合,生成最终的多模态特征表示;假设文本、图像和音频的特征表示分别为最终的多模态特征表示为HBRCM,表示为: 其中,Concat表示特征的拼接操作;通过这种融合,模型BRCM能够同时提取和表达文本、图像和音频的深层特征,实现更全面的多模态数据分析和处理;最终构建了多模态模型BRCM;S2:本发明提出了一种结合注意力机制和门控机制有效融合多模态信息,多模态情感分析利用来自同一视频剪辑的文本、视觉和声学信息,通过整合这些信息生成文本驱动的多模态表征,用以准确预测情感;文本特征通过BERT模型提取,视觉特征通过ResNet模型提取,声学特征通过COVAREP模型提取,并通过一维卷积网络处理这些特征以捕捉时间特性,并将它们投影到固定维度;为增强特征处理能力,引入了文本定向交叉注意力模块,包括一个交叉注意力块和一个自注意力块,两者之间通过门控机制进行信息融合与冗余过滤;自注意力机制允许模型根据输入数据动态地分配注意力权重,在处理不同的文本、图像和音频输入时,模型能够自动地调整对每种模态的关注度,以适应不同情境下的情感分析需求;通过自注意力机制,模型可以更深入地挖掘文本和图像中的情感信息;自注意力机制还有助于模型捕捉多模态数据中的上下文信息;通过计算不同位置上的注意力权重,模型可以理解文本和图像中元素之间的关系,从而更好地理解整体的情感表达;特征通过层归一化后送入前馈网络中进行处理,形成残差连接以保留重要的原始信息;模块的输出通过连接各层的输出来形成最终的特征表示,进一步输入到多层感知器中以预测情感标签;为深入理解各模态的情感语义,引入了单模态联合学习模块,使用共享权重的编码器处理单模态特征,并通过多层感知器进行预测;优化目标基于L1损失,将多模态预测的损失与单模态预测的损失结合,通过调整超参数λ来平衡这两种损失,以提高模型的预测精度和泛化能力;S3:本发明提出了一种适用于情感分析的多模态方法,适合处理包含视觉、文本及音频模态的视频内容,即便在音频模态缺失的情况下亦能有效运作;该方法通过基于Transformer的编码器将视觉和文本模态转换为模态特定的特征;在音频特征缺失的情况下,利用视觉和文本信号,通过一种知识迁移网络重建音频特征,这一网络包括多个Transformer模块,确保重建的音频特征能够准确代表原始音频信息;为了验证重建音频的质量,采用了一致性损失函数,该函数通过最小化重建音频特征与真实音频特征之间的欧几里得距离来优化模型;结合了视觉与文本重建的音频特征,并通过另一组Transformer模块进一步进行编码,以增强音频信息的表达效力;通过交叉模态注意力机制,处理不同模态特征间的相互作用,该机制通过权重矩阵来映射和计算不同模态间的关系,并通过潜在空间的查询、键和值进行有效的信息整合;通过残差连接,将通过交叉模态注意力计算后得到的特征与原始目标特征结合,从而形成最终的特征表示,这种表示不仅保留了关键的原始信息,还增强了特征的表达能力;这些特征随后被用于情感分析预测任务,其中解码过程由一组自注意力Transformer完成,确保了各模态信息的充分解码和整合;模型损失函数结合了标准的交叉熵损失和视觉及文本模态的一致性损失,旨在优化整体模型表现,并确保重建音频的高度一致性;这种设计不仅提高了模型的准确性,也增强了其在缺少某一模态数据时的鲁棒性。

全文数据:

权利要求:

百度查询: 广东工业大学 一种结合预训练模型与自注意力块的多模态情感分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。