首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于CLIP的视频文本嵌入融合分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京工业大学

摘要:本发明涉及视频动作识别领域,是一种基于CLIP的视频文本嵌入融合分类方法。该方法通过预训练模型CLIP的文本编码器和视觉编码器分别提取文本特征和视频帧级别视觉特征;对视频帧级别视觉特征分别进行多尺度自适应特征融合操作和无参最值特征融合操作并对生成的视频级别嵌入向量进行多层级跨模态关注融合操作最终生成全局视频级别嵌入向量;对全局视频级别嵌入向量和文本嵌入向量计算最大余弦相似度。本发明在保证自动聚焦视频帧中的关键信息的同时减少了训练和推理的计算成本,具有广阔的应用前景。

主权项:1.一种基于CLIP的视频文本嵌入融合分类方法,采用分类模型对视频进行处理,输出预测值,其特征在于,所述分类模型是基于CLIP的视频文本嵌入融合分类模型;分类模型的构建以及处理步骤包括:步骤S1,搭建基于预训练的模型CLIP的文本编码器和视觉编码器分别用于独立提取标签的文本特征和视频帧级别的视觉特征;步骤S2,使用文本编码器将类别标签Y进行独立编码,并且将其包装在提示模板中,最终生成文本嵌入向量t;步骤S3,使用视觉编码器将具有T帧的视频样本Vi独立编码为一批图像,并生成一批视频帧级别的嵌入向量表示Xi;步骤S4,对步骤S3获得的嵌入向量Xi分别进行如下操作:多尺度自适应特征融合操作生成视频级别嵌入向量A1,无参最大值特征融合操作生成视频级别嵌入向量A2,无参最小值特征融合操作生成视频级别嵌入向量A3;步骤S5,将步骤S4生成的视频级别嵌入向量A1、A2和A3进行多层级跨模态关注融合操作,最终生成全局视频级别嵌入向量Vglobal;步骤S6,计算步骤S5生成的全局视频级别嵌入向量Vglobal和文本嵌入向量t之间的最大余弦相似度;并通过交叉熵损失函数微调模型CLIP的文本编码器和视觉编码器。

全文数据:

权利要求:

百度查询: 南京工业大学 一种基于CLIP的视频文本嵌入融合分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。