【发明公布】一种基于视觉语言模型的人物交互检测方法_北京工业大学_202410337863.1

导航：龙图腾网> 最新专利技术> 一种基于视觉语言模型的人物交互检测方法_北京工业大学_202410337863.1

申请/专利权人：北京工业大学

申请日：2024-03-24

公开（公告）日：2024-06-18

公开（公告）号：CN118212399A

主分类号：G06V10/25

分类号：G06V10/25;G06V10/764;G06V10/80;G06F16/35;G06N3/045;G06N3/0455;G06N3/0464;G06V10/82

优先权：

专利状态码：在审-公开

法律状态：2024.06.18#公开

摘要：本发明公开了一种基于视觉语言模型的人物交互检测方法分为人物对构建、双分支知识增强、基于双分支结构的两级融合三个阶段。通过提出独立的语义挖掘的解码器来从视觉语言模型中检索动作相关的语义知识，以此来丰富交互特征表示。基于语义挖掘的解码器和空间引导的解码器形成的双分支网络，采用两级融合策略，将经过空间知识增强的人物对查询和视觉语言知识增强的人物对查询进行特征级融合，以此产生了信息量丰富的交互特征用于分类。同时，利用视觉语言模型中的文本先验来产生基于文本嵌入的分类器，以此进行额外的分类。对两种分类结果进行决策级融合，以此开发了视觉语言模型用于人物交互检测的潜力。

主权项：1.一种基于视觉语言模型的人物交互检测方法，其特征在于，该方法包括如下步骤，步骤1：人物对构建阶段，使用现有的目标检测器DETR检测出图像中存在的人和物体，根据目标检测结果将人和物进行配对，并通过阈值筛选来产生符合条件的人物对，并通过将目标检测的空间特征和内容特征融合来产生人物对查询；步骤2：双分支知识增强阶段，在空间引导的解码器中，人物对查询先进行自注意力的计算来进行特征细化，接着再与人物对的空间特征进行拼接以赋予空间感知特性，最终与补充图像位置信息的图像特征进行交叉自注意力的计算来产生空间知识增强的人物对查询；在语义挖掘的解码器中，人物对查询首先经过自注意力，接着再与经过视觉语言模型进行编码的图像特征进行交叉注意力的计算，以此生成了经过视觉语言知识增强的人物对查询；步骤3：基于双分支结构的两级融合阶段，利用交叉注意力机制对两种不同知识增强的查询在特征级别进行融合以实现产生信息量丰富的交互特征，接着通过交互特征对交互动作进行分类；同时对视觉语言知识增强的查询再进行额外的分类，来利用视觉语言模型中的零样本检测能力；采用自适应相加融合的方式实现决策级别的融合以此产生了最终的交互逻辑值，最后通过sigmoid函数得到了每个人物对的不同交互动作概率。

全文数据：

权利要求：

百度查询：北京工业大学一种基于视觉语言模型的人物交互检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于元学习的小样本开集增量学习的射频指纹识别方法和装置_浙江工业大学_202410334573.1

下一篇：一种基于直流充电机功率模块辅源的风扇控制系统及方法_安徽念业电子科技有限公司_202410541296.1

相关技术

一种基于元学习的小样本开集增量学习的射频指纹识别方法和装置_浙江工业大学_202410334573.1

一种基于直流充电机功率模块辅源的风扇控制系统及方法_安徽念业电子科技有限公司_202410541296.1

基于批量打开多项式承诺的可验证秘密分享方法及系统_山东大学_202410493240.3

一种增压缸液力驱动多缸双作用变量隔膜泵_上海大张拓普装备技术有限公司_202410395236.3

显示面板和显示装置_京东方科技集团股份有限公司_202410536376.8

一种硅料清洗方法_湖州飞鹿新能源科技有限公司_202410342854.1

燃料电池的电堆活化方法_未势能源科技有限公司_202410379342.2

触控显示面板、触控显示面板的制备方法和触控显示装置_京东方科技集团股份有限公司_202410338338.1

一种云基础设施下的分布式金融数据管理方法及系统_深圳市今古科技有限公司_202410658501.2

一种哑铃形Janus固体碱催化剂及其制备方法和应用_浙江工业大学_202410358903.0

一种含四重氢键的聚氨酯抗冲击材料及其制备方法和应用_北京理工大学_202410480824.7

日志查询方法、装置、电子设备、存储介质及程序产品_百度在线网络技术(北京)有限公司_202410446018.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】一种基于视觉语言模型的人物交互检测方法_北京工业大学_202410337863.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务