当前位置 : 首页 > 专利喜报 > 中国人民解放军网络空间部队信息工程大学李邵梅获国家专利权

中国人民解放军网络空间部队信息工程大学李邵梅获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉中国人民解放军网络空间部队信息工程大学申请的专利一种基于预训练多模态模型的伪造视频检测方法及系统获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN114782858B 。

龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202210308992.9，技术领域涉及：G06V20/40；该发明授权一种基于预训练多模态模型的伪造视频检测方法及系统是由李邵梅;吉立新;黄瑞阳;宋旭晖;高超;张建朋;汪浣沙设计研发完成，并于2022-03-28向国家知识产权局提交的专利申请。

本一种基于预训练多模态模型的伪造视频检测方法及系统在说明书摘要公布了：本发明公开一种基于预训练多模态模型的伪造视频检测方法及系统，该方法包括：步骤1、将待检测视频中声音信息转换成文本，并完成字幕和和视频帧的对齐；步骤2、筛选出含字幕的视频帧集合；步骤3、基于预训练的多模态模型逐帧判断含字幕的视频帧集合中每个视频帧的真伪；步骤4、综合含字幕的视频帧集合中所有视频帧的真伪判断结果得出待检测视频的真伪。本发明利用事先训练好的多模态模型同时提取视频中的画面和声音信息，实现视觉和听觉信息的融合，提高对伪造视频检测的精度。

本发明授权一种基于预训练多模态模型的伪造视频检测方法及系统在权利要求书中公布了：1.一种基于预训练多模态模型的伪造视频检测方法，其特征在于，包括：步骤1：将待检测视频中声音信息转换成文本，并完成字幕和和视频帧的对齐；步骤2：筛选出含字幕的视频帧集合；步骤3：基于预训练的多模态模型逐帧判断含字幕的视频帧集合中每个视频帧的真伪；包括：将带字幕的视频帧中的文本元素和视觉元素共同转换成序列，进行编码嵌入后送入到预训练的VL-BERT模型中提取多模态统一特征；对输入序列进行嵌入，输入序列的嵌入由四类信息组成，第一类信息是位置嵌入，第二类信息是片段嵌入，第三类信息是视觉特征嵌入，第四类信息是Token嵌入；对于每个视频帧，转换成输入序列后，得到上述四类信息的嵌入，叠加后得到输入序列的原始信息嵌入；将上述原始信息嵌入输入到训练好的VL-BERT模型中，得到融合视觉和语言信息的统一表征；将该统一表征输入到多层感知机中进行判决，该感知机的隐藏层有2个节点，第一个节点的输出值作为该视频帧是真实视频帧的概率，输出的结果如果大于0.5，则该视频帧判为真实，否则判为伪造；所述视觉特征由视觉几何特征和视觉外观特征组成；每个视觉元素的视觉几何嵌入用一个四维向量表示其中xLT,yLT和xRB,yRB分别表示左上角和右下角的坐标，W、H表示输入视频帧的宽度和高度；输入序列中的视觉元素的视觉外观特征由AlexNet检测器进行提取；所述VL-BERT模型由多个双向Transformer编码器组成，每个Transformer由自注意力层和全连接层构成；该模型事先在ConceptualCaptions数据集上进行预训练；步骤4：综合含字幕的视频帧集合中所有视频帧的真伪判断结果得出待检测视频的真伪。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人中国人民解放军网络空间部队信息工程大学，其通讯地址为：450000 河南省郑州市高新区科学大道62号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

中国人民解放军网络空间部队信息工程大学李邵梅获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务