恭喜北京科技大学王荣全获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京科技大学申请的专利融合CLIP和自适应图变换网络的人格预测方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119068393B 。
龙图腾网通过国家知识产权局官网在2025-04-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411145652.4,技术领域涉及:G06V20/40;该发明授权融合CLIP和自适应图变换网络的人格预测方法及装置是由王荣全;马惠敏设计研发完成,并于2024-08-20向国家知识产权局提交的专利申请。
本融合CLIP和自适应图变换网络的人格预测方法及装置在说明书摘要公布了:本发明涉及情感计算技术领域,特别是指一种融合CLIP和自适应图变换网络的人格预测方法及装置。所述方法包括:获取待进行人格预测的视频数据;根据视频数据以及Wav2CLIP‑graph方法,得到音频‑场景关联特征;根据视频数据以及CLIP方法,得到场景‑人格描述词关联特征;根据视频数据以及VGGishCNN‑RNN方法,得到音频表示特征;将音频‑场景关联特征、场景‑人格描述词关联特征以及音频表示特征输入到多模态通道注意力残差融合模块,得到融合多模态特征,进而得到人格特质预测结果。本发明提出了一个新颖的多模态特征学习框架,用于从短视频中分析人格特质。
本发明授权融合CLIP和自适应图变换网络的人格预测方法及装置在权利要求书中公布了:1.一种融合CLIP和自适应图变换网络的人格预测方法,其特征在于,所述方法包括:S1、获取待进行人格预测的视频数据;S2、根据所述视频数据以及Wav2CLIP-graph方法,得到音频-场景关联特征;S3、根据所述视频数据以及CLIP方法,得到场景-人格描述词关联特征;S4、根据所述视频数据以及VGGishCNN-RNN方法,得到音频表示特征;S5、将所述音频-场景关联特征、场景-人格描述词关联特征以及音频表示特征输入到多模态通道注意力残差融合模块,得到融合多模态特征,进而得到人格特质预测结果;所述S2中的根据所述视频数据以及Wav2CLIP-graph方法,得到音频-场景关联特征,包括:S21、针对所述视频数据,通过预训练的Wav2CLIP进行特征提取,得到视频数据的每帧图像的音频图像特征矩阵和场景图像特征矩阵;S22、根据所述音频图像特征矩阵构建音频子块关系图,根据所述场景图像特征矩阵构建场景关系图;S23、根据所述音频子块关系图、场景关系图以及自适应图转换网络,得到音频子块关系图聚合特征以及场景关系图聚合特征;S24、对所述音频子块关系图聚合特征以及场景关系图聚合特征进行相似度分数计算,得到音频-场景关联特征;所述S22中的根据所述场景图像特征矩阵构建场景关系图,包括:S221、使用正弦函数和余弦函数为场景图像特征矩阵中的每个图像特征生成位置编码向量,并将所述位置编码向量添加到对应的场景图像特征矩阵中,得到新的场景图像特征矩阵;S222、将所述新的场景图像特征矩阵作为节点,将不同节点之间的余弦相似度作为边,构建场景关系图;所述S23中的自适应图转换网络,如下式1所示: fMA=LNfGCN+MultiHeadfGCNfgraph=LNfMA+σfMAW1+b1W2+b21式中,fGCN表示生成图表示向量,σ表示激活函数RELU,X表示输入的特征矩阵,BN表示批归一化层,表示A的度矩阵,A表示输入的邻接矩阵,表示包含自环的邻接矩阵,W表示图卷积的权重项,b表示图卷积的偏置项,fMA表示融合生成图表示向量和带多头自注意力模块的和,LN表示层归一化层,MultiHead表示Transformer的多头自注意模块,用fgraph表示,W1表示第一全连接层的权重项,b1表示第一全连接层的偏置项,W2表示第二全连接层的权重项,b2表示第二全连接层的偏置项。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京科技大学,其通讯地址为:100083 北京市海淀区学院路30号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。