首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于视觉语言模型的人物交互检测方法_北京工业大学_202410337863.1 

申请/专利权人:北京工业大学

申请日:2024-03-24

公开(公告)日:2024-06-18

公开(公告)号:CN118212399A

主分类号:G06V10/25

分类号:G06V10/25;G06V10/764;G06V10/80;G06F16/35;G06N3/045;G06N3/0455;G06N3/0464;G06V10/82

优先权:

专利状态码:在审-公开

法律状态:2024.06.18#公开

摘要:本发明公开了一种基于视觉语言模型的人物交互检测方法分为人物对构建、双分支知识增强、基于双分支结构的两级融合三个阶段。通过提出独立的语义挖掘的解码器来从视觉语言模型中检索动作相关的语义知识,以此来丰富交互特征表示。基于语义挖掘的解码器和空间引导的解码器形成的双分支网络,采用两级融合策略,将经过空间知识增强的人物对查询和视觉语言知识增强的人物对查询进行特征级融合,以此产生了信息量丰富的交互特征用于分类。同时,利用视觉语言模型中的文本先验来产生基于文本嵌入的分类器,以此进行额外的分类。对两种分类结果进行决策级融合,以此开发了视觉语言模型用于人物交互检测的潜力。

主权项:1.一种基于视觉语言模型的人物交互检测方法,其特征在于,该方法包括如下步骤,步骤1:人物对构建阶段,使用现有的目标检测器DETR检测出图像中存在的人和物体,根据目标检测结果将人和物进行配对,并通过阈值筛选来产生符合条件的人物对,并通过将目标检测的空间特征和内容特征融合来产生人物对查询;步骤2:双分支知识增强阶段,在空间引导的解码器中,人物对查询先进行自注意力的计算来进行特征细化,接着再与人物对的空间特征进行拼接以赋予空间感知特性,最终与补充图像位置信息的图像特征进行交叉自注意力的计算来产生空间知识增强的人物对查询;在语义挖掘的解码器中,人物对查询首先经过自注意力,接着再与经过视觉语言模型进行编码的图像特征进行交叉注意力的计算,以此生成了经过视觉语言知识增强的人物对查询;步骤3:基于双分支结构的两级融合阶段,利用交叉注意力机制对两种不同知识增强的查询在特征级别进行融合以实现产生信息量丰富的交互特征,接着通过交互特征对交互动作进行分类;同时对视觉语言知识增强的查询再进行额外的分类,来利用视觉语言模型中的零样本检测能力;采用自适应相加融合的方式实现决策级别的融合以此产生了最终的交互逻辑值,最后通过sigmoid函数得到了每个人物对的不同交互动作概率。

全文数据:

权利要求:

百度查询: 北京工业大学 一种基于视觉语言模型的人物交互检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。