Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜电子科技大学郭峰获国家专利权

恭喜电子科技大学郭峰获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜电子科技大学申请的专利一种基于去偏变分推断提示调优的图像识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119418137B

龙图腾网通过国家知识产权局官网在2025-03-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510012396.X,技术领域涉及:G06V10/764;该发明授权一种基于去偏变分推断提示调优的图像识别方法是由郭峰;左琳;郑志坤;彭浩然;陈中舒;陈彪设计研发完成,并于2025-01-06向国家知识产权局提交的专利申请。

一种基于去偏变分推断提示调优的图像识别方法在说明书摘要公布了:本发明公开了一种基于去偏变分推断提示调优的图像识别方法,属于人工智能和计算机视觉领域。本发明将CLIP作为基准框架,该基准框架包括一个图像分支、一个文本分支;本发明基于图像分支,设计一种基于风格扰动的图像编码器,获得去偏的视觉特征;基于去偏的视觉特征和文本分支,设计一种基于去偏变分推断的文本编码器,获得去偏的文本特征;并通过设计的一种基于变分推断的损失函数,将训练集数据通过基于变分推断的损失函数最小化优化模型参数,得到参数最优的模型;将测试图像数据输入参数最优的模型得到图像识别结果。本发明为数据稀缺或受限场景提供了一种通用的小样本图像识别方法,在有限数据下仍能保持较高的识别准确率和泛化性能。

本发明授权一种基于去偏变分推断提示调优的图像识别方法在权利要求书中公布了:1.一种基于去偏变分推断提示调优的图像识别方法,其特征在于,包括以下步骤:步骤S1:将配对的图像-文本FGVC-Aircraft数据集分为训练集和测试集,其中训练集是从每个类别随机选取个配对的图像-文本标签构成的,将剩余配对的图像-文本标签作为测试集;步骤S2:将对比语言—图像预训练模型作为基准框架,该基准框架包括一个图像分支、一个文本分支,图像分支包含图像块编码模块、图像编码器、ImageProj函数;文本分支包括文本词嵌入模块、文本编码器、TextProj函数;步骤S3:基于基准框架的图像分支,设计一个基于风格扰动的图像编码器,选取步骤S1训练集中的2张图像数据,之后输入所述基于风格扰动的图像编码器,其中1张图像数据作为训练图像数据,另外1张图像数据作为辅助图像数据,得到去偏的视觉特征;步骤S4:基于基准框架的文本分支,设计一个基于去偏变分推断的文本编码器;选取训练集中与步骤S3选取的训练图像数据配对的文本标签,将步骤S3得到的去偏的视觉特征和所述配对的文本标签输入基于去偏变分推断的文本编码器,得到去偏的文本特征;步骤S5:在训练集中随机选择个类别的训练集数据,每个类别选择1个对应的图像和文本标签,执行步骤S3及步骤S4得组配对的去偏视觉特征及去偏文本特征;设计基于变分推断的损失函数,选取正样本对及负样本对输入基于变分推断的损失函数完成网络参数的更新;直到步骤S1构建的训练集中所有样本参与网络参数更新后,输出最优的模型参数和每个类别去偏的文本特征,得到参数最优的模型;步骤S6:将测试集图像数据输入步骤S5优化后参数最优的模型,通过基于风格扰动的图像编码器得到去偏的视觉特征,通过计算去偏的视觉特征和所有类别去偏的文本特征间最高的余弦相似度获得图像识别结果;步骤S3包括如下步骤:步骤S31:将训练图像数据压缩至长为、宽为的压缩图像数据,随后将压缩图像数据裁剪为个尺寸为的图像块,,并将个图像块输入图像块编码模块,得到训练图像数据第0层视觉令牌,;其中,视觉令牌共有个视觉子令牌,表示每个视觉子令牌维度数,,表示每个图像块的通道数;同理,对辅助图像数据进行压缩、裁剪操作,得到辅助图像数据第0层视觉令牌,;步骤S32:对训练图像数据第0层视觉令牌引入一个可学的类别词令牌,得到训练图像数据第0层带有类别名的视觉令牌;步骤S33:将训练图像数据第0层带有类别名的视觉令牌输入图像编码器的第1层Transformer网络层,输出训练图像数据第1层带有类别名的视觉令牌,表示为;为第1层类别词令牌,为训练图像数据第1层视觉令牌;;将辅助图像数据第0层视觉令牌输入图像编码器的第1层Transformer网络层,输出辅助图像数据第1层视觉令牌;步骤S34:对图像编码器的前个Transformer网络层每层输出的带有类别名的视觉令牌中的训练图像数据视觉令牌均实施风格扰动操作,得到训练图像数据扰动后的视觉令牌;步骤S35:对图像编码器的到第层Transformer网络层每层输出的训练图像数据带有类别名视觉令牌直接输入下一Transformer网络层,得到下一层训练图像数据带有类别名视觉令牌;最终得到训练图像数据第层带有类别名视觉令牌;步骤S36,将训练图像数据第层带有类别名视觉令牌中类别词令牌输入步骤S2基准框架中ImageProj函数,得到去偏视觉特征,表示去偏的视觉特征的维度大小;风格扰动操作包括如下步骤:步骤S341:将图像编码器第个Transformer网络层输出的训练图像数据第层视觉令牌,展平为训练图像数据第层展平视觉令牌,;步骤S342:计算训练图像数据第层展平视觉令牌的风格特征,所述风格特征包括训练图像数据均值和训练图像数据方差;步骤S343:将辅助图像数据第层视觉令牌经过与训练图像数据相同展平、风格特征计算操作,得到辅助图像数据均值和辅助图像数据方差;步骤S344:将训练图像数据均值、训练图像数据方差、辅助图像数据均值和辅助图像数据方差进行随机凸权重组合计算,获得风格扰动后混合均值和风格扰动后混合方差;步骤S345:利用风格变换公式获得扰动后的展平视觉令牌,;步骤S346:将扰动后的展平视觉令牌维度进行重置,得到训练图像数据第层扰动后的视觉令牌;其中,;步骤S347:对训练图像数据第层扰动后的视觉令牌与第层类别词令牌组合,得到训练图像数据第层带有类别名的视觉令牌;步骤S348:将训练图像数据第层带有类别名的视觉令牌输入图像编码器的第层Transformer网络层,输出训练图像数据第层带有类别名视觉令牌;为训练图像数据第层视觉令牌,为第层的类别词令牌,表示图像编码器的第层Transformer网络层;将辅助图像数据第层视觉令牌输入图像编码器的第层Transformer网络层,得到辅助图像数据第层视觉令牌,表示为;步骤S4包括如下步骤:步骤S41:选取训练集中与步骤S3选取的训练图像数据配对的文本标签,将所述文本标签输入文本词嵌入模块,得到第0层文本令牌;步骤S42:将步骤S3得到的去偏视觉特征输入元学习网络,得到去偏视觉提示令牌和概率分布令牌;步骤S43:基于去偏视觉提示令牌和概率分布令牌利用重参数化技巧生成隐变量;步骤S44:将步骤S41得到的第0层文本令牌和步骤S43得到的隐变量融合得到引入概率分布的文本令牌;步骤S45:将步骤S44得到的引入概率分布的文本令牌输入文本编码器,得到最终的文本表征;将文本表征中的最后一个子文本表征输入基准框架文本分支中的TextProj函数得到去偏文本特征。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。