【发明授权】一种3D开放词汇检测与密集字幕生成统一的建模方法_四川大学;中国科学院光电技术研究所;中国电子科技集团公司第十研究所_202311358367.6

申请/专利权人：四川大学;中国科学院光电技术研究所;中国电子科技集团公司第十研究所

申请日：2023-10-19

公开（公告）日：2024-06-14

公开（公告）号：CN117370498B

主分类号：G06F16/33

分类号：G06F16/33;G06F16/38;G06V10/42;G06V10/44;G06V10/764;G06V10/774

优先权：

专利状态码：有效-授权

法律状态：2024.06.14#授权;2024.01.26#实质审查的生效;2024.01.09#公开

摘要：本发明公开了一种3D开放词汇检测与密集字幕生成统一的建模方法，涉及计算机视觉与自然语言处理交叉领域。本发明的方法首先为了实现密集字幕数据和检测数据构建了统一的数据格式。随着数据的统一，模型架构在密集字幕数据和检测数据上采用统一的预训练范式。对于开发词汇的目标检测任务，利用CLIP多模态大模型的图像文本语义关联实现3D场景的跨模态表征学习，从而使得3D模型骨干网络能够具备开发词汇的目标检测能力，并为密集字幕生成提供基础。本发明既能检测和识别给定类别列表中的概念，又能为新概念或罕见类别的对象生成相应的自然语言描述。

主权项：1.一种3D开放词汇检测与密集字幕生成统一的建模方法，其特征在于，包括以下步骤：根据3D场景数据集获取文本特征和点云数据，并剪切3D场景数据集的图像；分别提取剪切后的完整图像和局部图像的全部特征和全局特征；对点云数据编码和解码分别获取编码特征和候选特征；将全部特征和编码特征对齐，计算第一对比损失，将全局特征和候选特征对齐，计算第二对比损失；提取候选特征对应的文本特征，将候选特征与文本特征计算第三对比损失；利用第一对比损失，第二对比损失以及第三对比损失对3D模型骨干网络进行预训练；以点云场景输入至预训练完成后的3D模型骨干网络中，计算检测损失；利用检测损失和交叉熵损失函数对3D模型骨干网络训练，得到OpenCap模型；对点云数据编码和解码的具体过程为：对于输入的点云数据V∈RN×3+F，其中，R为维度空间标识，N表示点云的点数量，3表示点云的XYZ坐标特征，F表示为每个输入点添加的额外特征数量，经过3DETR的TransformerEncoder生成N′个场景编码特征向量，将对应点云坐标和特征表示为[pe；me]∈RN′×3+d′，其中，pe∈RN′×3表示N'个点的XYZ坐标，d'表示生成的特征向量的维度，me∈RN'×d'表示生成的N'个点的特征；3DETR解码器将N′个点云特征和一组查询嵌入作为输入，产生一组候选特征，并用于预测3D边界框；第一对比损失的计算公式如下：其中，2D代表图像，3D代表点云，cos·表示特征之间的余弦距离，τ是温度超参数，B表示对应的像素-点云数据对的集合，是来自图像特征h的第i个像素特征，是对应于的来自特征m3D中的第j个点云特征，i，j对应关系根据像素-点云数据对应关系确定；公式中的p、q表示累加和运算的变量符号，表示特征的第p个特征分量，∑·,p·表示为表示图像特征的第q个特征分量，∑q,··表示为

全文数据：

权利要求：

百度查询：四川大学;中国科学院光电技术研究所;中国电子科技集团公司第十研究所一种3D开放词汇检测与密集字幕生成统一的建模方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：长叶轮模具_株洲凯丰实业股份有限公司_202111628814.6

下一篇：一种多种传感器智能小车控制电路_华南理工大学广州学院_201911114816.6

相关技术

长叶轮模具_株洲凯丰实业股份有限公司_202111628814.6

一种多种传感器智能小车控制电路_华南理工大学广州学院_201911114816.6

阀孔自动清洗装置_中国计量大学_202010367509.5

一种适用于中、大粒径不规则种籽的排种器_石河子大学_201910333130.X

一种基于模板匹配和InfoGAN的SAR图像扩容方法_北京观微科技有限公司_202310880024.X

一种节水洗衣机的水开关装置及其洗衣机_宁国聚隆减速器有限公司_201610534249.X

一种双重响应的聚乙二醇前药及其制备方法和应用_浙江科技学院_202210429347.2

流程节点控制方法、装置、计算机设备_北京索为系统技术股份有限公司_202210102538.8

通讯模组和终端设备_深圳市广和通无线股份有限公司_202111173277.0

一种锰锌铁氧体磁芯的高清洁度成型装置_天长市中德电子有限公司_202210205946.6

地质灾害防治监测取样方法_恩施自治州鄂西南地质工程有限公司_202111391185.X

数据接收方法、装置、设备及存储介质_OPPO广东移动通信有限公司_202080077023.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种3D开放词汇检测与密集字幕生成统一的建模方法_四川大学;中国科学院光电技术研究所;中国电子科技集团公司第十研究所_202311358367.6

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务