首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

利用视觉语言模型的实例级场景识别 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:谷歌有限责任公司

摘要:用于图像理解的系统和方法可以包括一个或多个对象识别系统和一个或多个视觉语言模型以生成增强语言输出,增强语言输出既可以是场景感知的又可以是对象感知的。系统和方法可以用对象识别模型处理输入图像以生成描述输入图像中所描绘的对象的标识细节的对象识别输出。系统和方法可以包括用视觉语言模型处理输入图像以生成描述预测场景描述的语言输出。然后,可以利用对象识别输出来增强语言输出以生成增强语言输出,增强语言输出包括具有对象识别输出的特异度的语言输出的场景理解。

主权项:1.一种计算机实现的方法,所述方法包括:由包括一个或多个处理器的计算系统获得图像数据,其中所述图像数据包括输入图像;由所述计算系统用对象识别模型处理所述输入图像以生成细粒度对象识别输出,其中所述细粒度对象识别输出描述所述输入图像中所描绘的对象的标识细节;由所述计算系统用视觉语言模型处理所述输入图像以生成语言输出,其中所述语言输出包括被预测为描述所述输入图像的一组预测词,其中所述一组预测词包括描述所述输入图像中所描绘的所述对象的预测标识的粗粒度词项;以及由所述计算系统处理所述细粒度对象识别输出和所述语言输出以生成增强语言输出,其中所述增强语言输出包括用所述细粒度对象识别输出替换了所述粗粒度词项的所述一组预测词。

全文数据:

权利要求:

百度查询: 谷歌有限责任公司 利用视觉语言模型的实例级场景识别

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。