首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种3D场景理解方法、系统、电子设备及存储介质 

申请/专利权人:上海人工智能创新中心

申请日:2022-12-26

公开(公告)日:2024-06-25

公开(公告)号:CN115937661B

主分类号:G06V20/00

分类号:G06V20/00;G06V20/70;G06V10/26;G06V10/80;G06V10/82;G06N3/0455;G06N3/042;G06N3/048;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.06.25#授权;2023.04.25#实质审查的生效;2023.04.07#公开

摘要:本申请实施例涉及3D场景理解技术领域,特别涉及一种3D场景理解方法、系统、电子设备及存储介质,该方法包括:分别提取文本嵌入、图像像素特征和点特征,并构建正样本和负样本;对点特征和与其对应的文本嵌入进行语义一致性正则化处理;对时间相干点特征和与其对应的图像像素特征进行时空一致性正则化处理;其中,对点特征和与其对应的文本嵌入进行语义一致性正则化处理,包括:生成密集的像素文本对;将像素文本对转化为点文本对;基于文本语义信息以及所述正样本、负样本,进行对比学习。本申请实施例提供的3D场景理解方法,无需任何标记数据进行训练,现无注释3D语义分割。

主权项:1.一种3D场景理解方法,其特征在于,包括:分别提取文本嵌入、图像像素特征和点特征,并构建正样本和负样本;对所述点特征和与其对应的文本嵌入进行语义一致性正则化处理;对时间相干点特征和与其对应的图像像素特征进行时空一致性正则化处理;其中,所述对所述点特征和与其对应的文本嵌入进行语义一致性正则化处理,包括:生成密集的像素文本对;将像素文本对转化为点文本对;基于文本语义信息以及所述正样本、负样本,进行对比学习;所述文本语义信息为采用视觉语言对比预训练对输入文本进行提取得到的文本语义特征,所述文本语义信息采用文本嵌入表示;采用第一目标函数进行对比学习,所述第一目标函数如下所示: 其中,Dti,pi为内积操作,为温度系数,c为类别的变量,C为类别数,ti和tj分别表示属于不同的类别的文本语义特征,ti∈c表示ti为属于第c个类别名的文本语义特征,表示tj不属于第c个类别名的文本语义特征,pi为第i个点特征,pj为第j个点特征;对时间相干点特征和与其对应的图像像素特征进行时空一致性正则化处理,包括:获取所有像素点文本对的拼接点云;将所述拼接点云划分为规则网格,所述时间相干点位于同一网格中;在所述规则网格内,通过第二目标函数对时间相干点特征和与其对应的图像像素特征进行时空一致性约束;所述第二目标函数如下式所示: 其中,D.为内积操作,gn为第n个网格,sigmoid.为sigmoid激活函数,为第i个点云在第k帧的特征,N为网格数,fn表示多模态融合特征权重系数,表示注意力权重系数,fn如下所示: 其中,为第i个像素点在第k帧的特征,为第i个点在第1帧的文本语义特征,λ为温度系数。

全文数据:

权利要求:

百度查询: 上海人工智能创新中心 一种3D场景理解方法、系统、电子设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。