恭喜南京信息工程大学徐一豪获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜南京信息工程大学申请的专利一种基于解缠表示学习的多模态情感分析方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119622280B 。
龙图腾网通过国家知识产权局官网在2025-05-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510158857.4,技术领域涉及:G06F18/20;该发明授权一种基于解缠表示学习的多模态情感分析方法是由徐一豪;宦海;陈银娣;马豪;何燚;王梦昀;朱仝设计研发完成,并于2025-02-13向国家知识产权局提交的专利申请。
本一种基于解缠表示学习的多模态情感分析方法在说明书摘要公布了:本发明提供了一种基于解缠表示学习的多模态情感分析方法,包括:获取多模态情感分析数据集,并提取文本、音频和视频的特征;构建表征学习网络,提取私有特征和共享特征,并通过对抗学习优化及时间平滑度约束进行处理;在不同语言尺度的引导下,融合音频和视频的私有特征;通过跨模态注意力和门控机制进一步融合文本、音频和视频特征;最后将融合特征输入至情感分析模块,结合情感分类或回归任务,生成情感预测结果。本发明不仅考虑音频与视频特征在连续时间上的一致性,有效减少冗余信息并保证时间维度一致性,还在文本引导下实现音频和视频特征的深度融合,显著提升了跨模态融合的效果。
本发明授权一种基于解缠表示学习的多模态情感分析方法在权利要求书中公布了:1.一种基于解缠表示学习的多模态情感分析方法,其特征在于,包括以下步骤:步骤1,数据收集:收集用于多模态情感分析的数据集,所选数据集应具备良好的代表性和多样性,涵盖音频、视频和文本多种模态,并且能够支持后续的训练、评估和测试过程;所述多模态包括文本模态、音频模态和视频模态;步骤2,提取多模态特征:针对输入的视频数据,分别提取文本、音频和视频模态特征;利用Bert模型提取文本模型特征Ut,采用Librosa工具提取音频模型特征Ua,利用OpenFace提取面部特征,得到视频模型特征Uv,对于提取的模态特征Um,通过线性映射变换至相同的特征维度,得到对齐的模态特征Im;m∈{t,a,v};步骤3,构建解缠表示学习网络,包括:生成模态私有特征:将模态特征Im输入至模态私有编码器,分别生成对应的模态私有特征Pt、Pa、Pv;生成模态共享特征:将模态特征Im同时输入共享编码器,生成模态共享特征Ct、Ca、Cv;对模态共享特征Ct、Ca、Cv进行全连接处理得到全局共享特征Fc;步骤4,模态解缠与对抗优化:将模态私有特征Pt、Pa、Pv和模态共享特征Ct、Ca、Cv输入模态鉴别器,优化模态鉴别器、私有编码器和共享编码器的参数;步骤5,时间平滑约束:对音频模态私有特征Pa、音频模态共享特征Ca和视频模态私有特征Pv、视频模态共享特征Cv应用时间平滑度约束,减少连续时间段内音频与视频特征中的冗余与噪声;步骤6,特征融合:通过文本引导机制实现音频和视频模态特征的深度融合,最终生成情感分析的融合特征Y;步骤6包括:初始化一个可学习的参数张量S1,然后把低尺度的文本特征音频模态私有特征Pa、视频模态私有特征Pv和S1共同输入到文本引导模块中,所述文本引导模块包括跨模态注意力机制,对于音频特征,文本模态特征被用作查询向量Q,音频模态私有特征Pa分别作为键向量K和值向量V,得到和Pa的相似度矩阵γ: 其中,和是可学习的参数矩阵,dk表示每个注意力头的维度;计算文本特征和视频特征Pv的相似度矩阵β: 其中和是可学习的参数矩阵;然后生成新的融合特征S2: 其中S2,和为可学习的参数矩阵;将输入到第一个Transformer层中,通过深度建模,生成中尺度文本特征其中,E1表示第一个Transformer层,是第一个Transformer层的参数;接着将新的融合特征S2和中尺度文本特征输入到下一个文本引导模块中,得到融合特征S3: 其中和是可学习的参数矩阵;然后把中尺度文本特征输入到第二个Transformer层中提取高尺度文本特征接着和S3被输入到最后一个文本引导模块中,得到音频特征和视频特征最终的融合特征S4: 其中,E2表示第二个Transformer层,是第二个Transformer层的参数,是可学习的参数矩阵;通过前馈网络FFN进一步建模,得到最终的融合特征: 其中,x∈{1,2,3},是可学习的参数矩阵,是经过跨模态自注意力机制计算后的输出,是进行归一化后的输出,表示不同尺度的文本特征;x=1时,是低尺度文本特征与融合特征S4在跨模态注意力机制中的可学习的参数矩阵,是与S4经过跨模态自注意力机制计算后的输出,是进行归一化后的输出;x=2时,是中尺度文本特征与融合特征S4在跨模态注意力机制中的可学习的参数矩阵,是与S4经过跨模态自注意力机制计算后的输出,是进行归一化后的输出;x=3时,是高尺度文本特征与融合特征S4在跨模态注意力机制中的可学习的参数矩阵,是与S4经过跨模态自注意力机制计算后的输出,是进行归一化后的输出;LayerNorm表示归一化,FFN表示前馈网络;F1、F2、F3分别代表了在低、中、高尺度下生成的多模态融合特征;将不同尺度下的融合特征Fx和共享模态特征Fc通过门控机制进行加权融合:Gj=Wj·Fj, 其中,j∈{1,2,3,c},即Fj∈{F1,F2,F3,Fc},Wj、和是可学习的权重矩阵,Gj是Fj经过权重矩阵Wj变换后的结果,SumPool指求和池化,k为池化窗口的大小,是Gj经过求和池化后的结果,表示进行L2归一化后的结果,表示的二范数;当j=1时,W1是F1的可学习的权重矩阵,G1是F1经过权重矩阵W1变换后的结果,是G1经过求和池化后的结果,表示进行L2归一化后的结果;把输入的Fj与权重矩阵逐元素相乘,然后对经过逐元素相乘的矩阵进行求和池化,得到然后通过L2归一化确保尺度相同,最后,进行线性映射加权求和,得到最终的融合特征Y;步骤7,模型优化与输出:将融合特征Y输入情感分析模块,结合情感分类或回归任务,生成情感预测结果;同时,通过训练阶段的损失函数优化情感分析模块。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京信息工程大学,其通讯地址为:211806 江苏省南京市浦口区双峰路29号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。