申请/专利权人:微软技术许可有限责任公司
申请日:2022-09-15
公开(公告)日:2024-06-21
公开(公告)号:CN118235173A
主分类号:G06V20/70
分类号:G06V20/70;G06V10/82;G06N3/09
优先权:["20211121 US 63/264,369","20220823 US 17/821,596"]
专利状态码:在审-公开
法律状态:2024.06.21#公开
摘要:提供了用于对计算机视觉基础模型进行预训练的示例。一种代表性方法包括根据弱标记数据来整理图像‑文本对的预训练数据库。对来自图像‑文本对的文本描述的语言进行编码。使用具有移位窗口和卷积嵌入的分层视觉变换器对图像‑文本对的图像进行编码。经由统一图像‑文本对比学习、基于编码后的图像和编码后的语言来对计算机视觉基础模型进行预训练。
主权项:1.一种用于对计算机视觉基础模型进行预训练的方法,包括:根据弱标记数据来整理图像-文本对的预训练数据库;对来自所述图像-文本对的文本描述的语言进行编码;使用具有移位窗口和卷积嵌入的分层视觉变换器对所述图像-文本对的图像进行编码;以及经由统一图像-文本对比学习模块、基于编码后的所述图像和编码后的所述语言来对所述计算机视觉基础模型进行预训练。
全文数据:
权利要求:
百度查询: 微软技术许可有限责任公司 计算机视觉基础模型的预训练
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。