Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多模型混合的文本视频一致性评估方法和装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:之江实验室

摘要:本发明公开了一种基于多模型混合的文本视频一致性评估方法和装置,属于文本视频一致性评估技术领域,包括:从文本标注中获取视频问答对,从视频数据中获取目标运动轨迹,将视频问答对、目标运动轨迹和视频数据输入微调多模态大模型,得到预测回答,根据预测回答和视频问答对得到第一得分;将视频数据通过基于强化学习的图像字幕提取模型得到预测文本,根据预测文本与文本标注计算第二得分;对第一得分和第二得分加权融合,得到最终得分,根据最终得分所在质量等级与人工评估所在质量等级的相符情况实现对文本视频一致性的评估。本发明通过融合两个模型在语义特征空间和视觉特征空间的文本视频一致性得分,提高了文本视频一致性评估的准确率。

主权项:1.一种基于多模型混合的文本视频一致性评估方法,其特征在于,包括以下步骤:步骤1:从视频-文本集的文本标注中获取文本关键词,输入问答大模型得到视频问答对,从视频-文本集的视频数据中获取目标运动轨迹,将视频问答对、目标运动轨迹和视频数据联合输入微调多模态大模型,得到预测回答,根据预测回答和视频问答对得到文本视频一致性的第一得分;步骤2:将预构建的微调视频-文本集输入图像字幕提取模型获取微调预测文本,以视觉语言模型提供的图像-文本匹配度算法计算奖励值,采用强化学习微调图像字幕提取模型,将视频数据通过微调后的图像字幕提取模型得到预测文本,根据预测文本与文本标注计算文本视频一致性的第二得分;步骤3:对第一得分和第二得分加权融合,得到最终得分,根据最终得分所在质量等级与人工评估所在质量等级的相符情况实现对文本视频一致性的评估。

全文数据:

权利要求:

百度查询: 之江实验室 一种基于多模型混合的文本视频一致性评估方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。