恭喜哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)漆舒汉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)申请的专利一种基于多模态的对比解码幻觉减轻方法、装置及终端获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118966387B 。
龙图腾网通过国家知识产权局官网在2025-03-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411463649.7,技术领域涉及:G06N20/00;该发明授权一种基于多模态的对比解码幻觉减轻方法、装置及终端是由漆舒汉;蒋遇;王强;张加佳;王轩设计研发完成,并于2024-10-21向国家知识产权局提交的专利申请。
本一种基于多模态的对比解码幻觉减轻方法、装置及终端在说明书摘要公布了:本发明公开了一种基于多模态的对比解码幻觉减轻方法、装置及终端,方法包括:获取目标初始数据,对所述目标初始数据进行多模态扰动处理,得到目标扰动数据,所述目标初始数据包括目标高清图像及其对应的目标文本提示词;将所述目标初始数据和所述目标扰动数据输入至目标模型,得到初始输出和幻觉输出,所述目标模型为大型视觉语言模型;对所述初始输出和所述幻觉输出进行对比解码,得到目标输出。本发明通过添加多模态的噪声,并将其与初始输出进行对比,从而校准模型的预测,减少生产错误信息的可能性。
本发明授权一种基于多模态的对比解码幻觉减轻方法、装置及终端在权利要求书中公布了:1.一种基于多模态的对比解码幻觉减轻方法,其特征在于,所述基于多模态的对比解码幻觉减轻方法包括:获取目标初始数据,对所述目标初始数据进行多模态扰动处理,得到目标扰动数据,所述目标初始数据包括目标高清图像及其对应的目标文本提示词;将所述目标初始数据和所述目标扰动数据输入至目标模型,得到初始输出和幻觉输出,所述目标模型为大型视觉语言模型;对所述初始输出和所述幻觉输出进行对比解码,得到目标输出;所述对所述目标初始数据进行多模态扰动处理,得到目标扰动数据,包括:对所述目标初始数据的图像部分进行视觉扰动,得到目标视觉扰动数据;对所述目标初始数据的文本部分进行语言扰动,得到目标语言扰动数据;基于所述目标视觉扰动数据和所述目标语言扰动数据得到所述目标扰动数据;所述将所述目标初始数据和所述目标扰动数据输入至目标模型,得到初始输出和幻觉输出,包括:所述目标模型中的视觉编码器分别基于所述目标初始数据、所述目标视觉扰动数据和所述目标语言扰动数据中的图像提取高层次的视觉特征,得到初始视觉向量、视觉扰动视觉向量和语言扰动视觉向量;将所述初始视觉向量、视觉扰动视觉向量和语言扰动视觉向量分别输入所述目标模型中的语言模型,得到所述初始输出、视觉幻觉输出和语言幻觉输出;基于所述视觉幻觉输出和所述语言幻觉输出得到所述幻觉输出;所述对所述初始输出和所述幻觉输出进行对比解码,包括:获取第一超参数和第二超参数,所述第一超参数为所述视觉幻觉输出对应的权重,所述第二超参数为所述语言幻觉输出对应的权重;基于所述第一超参数和所述第二超参数对所述初始输出和所述幻觉输出进行对比解码;所述基于所述第一超参数和所述第二超参数对所述初始输出和所述幻觉输出进行对比解码,包括:基于目标公式对所述初始输出和所述幻觉输出进行对比解码,所述目标公式为: ;其中,为所述目标输出、X为所述初始输出、为所述视觉幻觉输出、为所述语言幻觉输出、和为超参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),其通讯地址为:518055 广东省深圳市南山区西丽平山一路6号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。