首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种3D开放词汇检测与密集字幕生成统一的建模方法_四川大学;中国科学院光电技术研究所;中国电子科技集团公司第十研究所_202311358367.6 

申请/专利权人:四川大学;中国科学院光电技术研究所;中国电子科技集团公司第十研究所

申请日:2023-10-19

公开(公告)日:2024-06-14

公开(公告)号:CN117370498B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/38;G06V10/42;G06V10/44;G06V10/764;G06V10/774

优先权:

专利状态码:有效-授权

法律状态:2024.06.14#授权;2024.01.26#实质审查的生效;2024.01.09#公开

摘要:本发明公开了一种3D开放词汇检测与密集字幕生成统一的建模方法,涉及计算机视觉与自然语言处理交叉领域。本发明的方法首先为了实现密集字幕数据和检测数据构建了统一的数据格式。随着数据的统一,模型架构在密集字幕数据和检测数据上采用统一的预训练范式。对于开发词汇的目标检测任务,利用CLIP多模态大模型的图像文本语义关联实现3D场景的跨模态表征学习,从而使得3D模型骨干网络能够具备开发词汇的目标检测能力,并为密集字幕生成提供基础。本发明既能检测和识别给定类别列表中的概念,又能为新概念或罕见类别的对象生成相应的自然语言描述。

主权项:1.一种3D开放词汇检测与密集字幕生成统一的建模方法,其特征在于,包括以下步骤:根据3D场景数据集获取文本特征和点云数据,并剪切3D场景数据集的图像;分别提取剪切后的完整图像和局部图像的全部特征和全局特征;对点云数据编码和解码分别获取编码特征和候选特征;将全部特征和编码特征对齐,计算第一对比损失,将全局特征和候选特征对齐,计算第二对比损失;提取候选特征对应的文本特征,将候选特征与文本特征计算第三对比损失;利用第一对比损失,第二对比损失以及第三对比损失对3D模型骨干网络进行预训练;以点云场景输入至预训练完成后的3D模型骨干网络中,计算检测损失;利用检测损失和交叉熵损失函数对3D模型骨干网络训练,得到OpenCap模型;对点云数据编码和解码的具体过程为:对于输入的点云数据V∈RN×3+F,其中,R为维度空间标识,N表示点云的点数量,3表示点云的XYZ坐标特征,F表示为每个输入点添加的额外特征数量,经过3DETR的TransformerEncoder生成N′个场景编码特征向量,将对应点云坐标和特征表示为[pe;me]∈RN′×3+d′,其中,pe∈RN′×3表示N'个点的XYZ坐标,d'表示生成的特征向量的维度,me∈RN'×d'表示生成的N'个点的特征;3DETR解码器将N′个点云特征和一组查询嵌入作为输入,产生一组候选特征,并用于预测3D边界框;第一对比损失的计算公式如下: 其中,2D代表图像,3D代表点云,cos·表示特征之间的余弦距离,τ是温度超参数,B表示对应的像素-点云数据对的集合,是来自图像特征h的第i个像素特征,是对应于的来自特征m3D中的第j个点云特征,i,j对应关系根据像素-点云数据对应关系确定;公式中的p、q表示累加和运算的变量符号,表示特征的第p个特征分量,∑·,p·表示为表示图像特征的第q个特征分量,∑q,··表示为

全文数据:

权利要求:

百度查询: 四川大学;中国科学院光电技术研究所;中国电子科技集团公司第十研究所 一种3D开放词汇检测与密集字幕生成统一的建模方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。