首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多模态融合的多维心理状态评估方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:合肥工业大学

摘要:本发明公开了一种基于多模态融合的多维心理状态评估方法,属于文本及音频数据处理技术领域。包括:S100:利用时间膨胀卷积网络作为基础构建多维心理状态评估模型并封装成软件,其中,所述多维心理状态评估模型包括:音频‑视觉特征提取模块、文本特征提取模块以及多模态融合模块;S200:获取待测数据,利用带有多维心理状态评估模型的封装软件进行心理状态评估。本发明对于心理健康专业人员和公共卫生系统来说,将是一个重要的辅助工具。

主权项:1.一种基于多模态融合的多维心理状态评估方法,其特征在于,包括以下步骤:S100:利用时间膨胀卷积网络作为基础构建多维心理状态评估模型并封装成软件,其中,所述多维心理状态评估模型包括:音频-视觉特征提取模块、文本特征提取模块以及文本引导的多模态融合模块,具体为:获取访谈视频、音频数据,并根据所述音频-视觉特征提取模块对所述访谈视频、所述音频数据进行处理得到音视觉特征;获取访谈文本数据,基于访谈文本数据对所述文本特征提取模块进行训练,根据训练好的所述文本特征提取模块得到文本特征;利用所述文本引导的多模态融合模块将文本特征与音视觉特征进行语义对齐,得到多维心理状态评估模型,将多维心理状态评估模型封装成软件;S200:获取待测数据,利用带有所述多维心理状态评估模型的封装软件进行心理状态评估;其中,所述音频-视觉特征提取模块基于TDCN结构的自编码结构构建,包括:四个编码器和四个解码器;其中,四个编码器从原始输入提取出四个特征的低维数据,并分别对应输入到四个解码器;计算每个解码器的输出与相应的原始输入的特征之间的差异;将所述差异进行加权并作为所述音频-视觉特征提取模块的总体损失;所述计算每个解码器的输出与相应的原始输入特征之间的差异,包括:使用均方误差MSE损失,表达式为: 其中,Hm为四个特征的低维表示,表示编码器,表示解码器,Xm表示原始输入,X′m表示解码器输出,lm为各特征的编解码损失,其中,m∈{1,2,3,4}表示四种手工特征,T时间维度,D表示特征维度,t表示当前点在特征矩阵中时间维度上的坐标,d表示当前点在特征矩阵中特征维度上的坐标;将所述差异进行加权并作为所述音频-视觉特征提取模块的总体损失,表达式为: 其中,lauto表示总体损失,λm表示不同特征自编码损失的权重;所述音频-视觉特征提取模块还包括特征融合部分,利用特征关注FWA沿着特征的维度进行融合,表达式为:A=σW1·ReLUW2·avgpoolH;其中,A是注意力图,σ是Sigmoid函数,W1和W2是可学习的权重参数,avgpool表示沿时间维度的平均池化操作;注意力图A被应用于输入特征图元素,表达式为:Hatt=A⊙H;其中,⊙表示逐元素乘法,H为四个特征低维表示拼接成的自编码输出,Hatt表示乘以注意力权重之后的自编码输出;将融合结果转换为一维向量,作为音频-视觉特征提取模块的输出;所述文本特征提取模块的构建还包括:获取EDAIC数据集,所述文本特征提取模块与一个全连接层相连,并基于所述EDAIC数据集利用对比学习进行抑郁状态识别、亚阈值检测以及PHQ分数预测的训练;所述对比学习包括:将所述文本特征提取模块的对比损失与回归任务或分类任务损失结合,形成联合损失函数,公式为:lt=ltask-text+wCL-textlCL-text;其中,ltask-text表示分类任务损失,lCL-text表示对比损失,WCL-text是对比学习部分损失的权重;所述回归任务使用亚阈值人群检测的三类标签进行对比学习,公式为: 其中,lCL表示对比损失函数,I代表一批训练中的索引对集合,Ai表示训练对集合,Pi代表正训练对集合,τ为可调节参数,z代表批次中样本的嵌入,i表示所有样本序号,p表示正类样本序号,a表示负类样本序号;所述文本引导的多模态融合模块包括:所述音频-视觉特征提取模块通过所述全连接层使音视觉特征与文本特征形状相同,使用MSE损失计算音频-视觉特征提取模块与文本特征提取模块间的差距,并在迭代过程中不断缩小差距,表达式为: 其中,lgap表示音频-视觉特征与文本特征间的差异,N表示这两个一维嵌入的总元素数,xt表示文本特征嵌入,xav表示音视觉特征嵌入,n表示当前元素在一维嵌入中的坐标位置;联合损失定义为主任务损失ltask、自编码器损失lauto、对比损失lCL-av和新定义的跨模态对比损失lgap的加权和,表达式为:l=wtaskltask+wautolauto+wgaplgap+wCL-avlCL-av;其中,wtask表示为主任务损失权重,wauto表示为自编码器损失权重,wgap表示为跨模态对比损失权重,wCL-av表示为对比损失权重。

全文数据:

权利要求:

百度查询: 合肥工业大学 一种基于多模态融合的多维心理状态评估方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。