【发明授权】基于纯文本数据训练的图像理解方法、系统、设备及介质_中国科学技术大学_202410375523.8

申请/专利权人：中国科学技术大学

申请日：2024-03-29

公开（公告）日：2024-06-18

公开（公告）号：CN117972141B

主分类号：G06F16/78

分类号：G06F16/78;G06F16/75;G06F16/783;G06V10/44;G06V10/764;G06V10/82;G06N3/0455;G06N3/08;G06N5/04

优先权：

专利状态码：有效-授权

法律状态：2024.06.18#授权;2024.05.21#实质审查的生效;2024.05.03#公开

摘要：本发明公开了一种基于纯文本数据训练的图像理解方法、系统、设备及介质，它们是一一对应的方案，方案中：利用纯文本数据进行训练，极大的节省了复杂的图文数据收集和标注流程，并且通过实验表明，采用本发明训练后的图像理解模型具有较高的理解精确度；而且，相比于传统方案在训练和推理阶段使用复杂的文本编码器，本发明在推理阶段仅输入图像，无需额外的文本编码器，从而大大加速了推理速度，对实际应用有积极深远的影响。

主权项：1.一种基于纯文本数据训练的图像理解方法，其特征在于，包括：收集文本数据集；构建图像理解模型并进行训练；所述图像理解模型包括：特征变换单元与任务特定映射单元；训练阶段：将文本数据集中的文本数据输入图像理解模型，通过特征变换单元提取文本数据的文本特征，并通过分布对齐获得模拟的图像特征；任务特定映射单元利用所述模拟的图像特征输出任务结果，其中任务是指图像理解任务；结合任务结果构建损失函数对所述图像理解模型进行训练；推理阶段，将图像输入至训练后的图像理解模型中，通过特征变换单元提取图像特征，并通过分布对齐获得对齐后的真实图像特征，再经任务特定映射单元输出任务结果，完成图像理解任务；所述特征变换单元包括：预训练的视觉语言模型以及分布对齐模块；其中：所述预训练的视觉语言模型包括：文本编码器与视觉编码器；所述文本编码器应用于训练阶段，视觉编码器应用于推理阶段；训练阶段中，通过文本编码器提取文本数据的文本特征，并经分布对齐模块获得模拟的图像特征；推理阶段通过视觉编码器提取图像特征，经分布对齐模块获得对齐后的真实图像特征；训练阶段，分布对齐模块执行分布移动与随机游走操作；文本特征记为，经分布移动操作获得文本特征，表示为：；其中，表示求解均值；再经随机游走操作，获得模拟的图像特征，表示为：；；；其中，与均为噪声向量；噪声向量服从均值为0，方差为的高斯分布；噪声向量服从均匀分布，与为均匀分布的两个端点；推理阶段，分布对齐模块执行分布移动操作；视觉编码器提取的图像特征记为，经分布移动操作获得图像特征即为对齐后的真实图像特征，表示为：；所述任务特定映射单元包括：语义嵌入线性层与生成式语言模型；当图像理解任务为判别式任务时，语义嵌入线性层根据输入的图像特征，输出分类结果，该分类结果即为任务结果；其中，在训练阶段，所述输入的图像特征为模拟的图像特征，在推理阶段，所述输入的图像特征为对齐后的真实图像特征；当图像理解任务为生成式任务时，语义嵌入线性层输出的分类结果经过生成式语言模型转换为文本结果，该文本结果即为任务结果；训练阶段中，当图像理解任务为判别式任务时，利用预先收集的上下文模板对所述语义嵌入线性层进行初始化，即：结合文本数据集中的类别形成一系列句子，将所有句子经过文本编码器得到文本特征，该文本特征用于赋值语义嵌入线性层的参数；如果所述上下文模板的数目为多个，则对所有上下文模板的文本特征取平均后用于赋值语义嵌入线性层的参数；训练阶段中，当图像理解任务为生成式任务时，通过下述方式对所述语义嵌入线性层进行初始化：将语义嵌入线性层的参数表示为，生成式语言模型的嵌入层输出特征表示为，模拟的图像特征表示为；利用语义嵌入线性层的参数对模拟的图像特征进行转换，表示为：；其中，为转换后的图像特征，T为转置符号；求解语义嵌入线性层的参数的近似解，表示为：；其中，为二范数；上述近似解最小二乘法的解表示为：；利用最小二乘法的解初始化语义嵌入线性层的参数。

全文数据：

权利要求：

百度查询：中国科学技术大学基于纯文本数据训练的图像理解方法、系统、设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：基于IPSO-CHRFA模型的海洋哺乳动物叫声分类方法_青岛科技大学_202410508360.6

下一篇：一种流量监测装置_成都锦城学院_202410425182.0

相关技术

基于IPSO-CHRFA模型的海洋哺乳动物叫声分类方法_青岛科技大学_202410508360.6

一种流量监测装置_成都锦城学院_202410425182.0

利拉鲁肽的合成_拜康有限公司_201780086325.8

制造时基于裕量退化的可靠性验收的半导体抽样测试方法_北京航空航天大学_202410458839.3

一种大型铜套离心铸造方法及铸造设备_扬州市雪龙铜制品有限公司_202210381652.9

一种基于草料的饲料制造用粉碎方法_张向红_202210570360.X

AGV磁寻迹偏移量计算方法、存储介质及AGV_广东嘉腾机器人自动化有限公司_202111406161.7

一种固态电解质包覆的钴酸锂正极材料及其制备方法_英德市科恒新能源科技有限公司_202410408908.X

用于铝基复合材料焊接的超声波预热激光焊接设备_恒超源洗净科技(深圳)有限公司_202410448442.6

一种间隔条浇灌胶质的装置_河南金拇指防水工程有限公司_202210302950.4

一种用于化纤在线取丝饼自动暂存的中转机器人_安歌科技(集团)股份有限公司_202210543752.7

一种防治猪繁殖与呼吸道综合征的复方中药可溶性粉的制备方法和应用_广东海大集团股份有限公司_202211577992.5

理解相关技术

对话理解方法、装置、可读介质及电子设备_北京有竹居网络技术有限公司_202011227571.0

基于特征点法视觉SLAM的场景理解导航方法及系统_常熟理工学院_202410317058.2

一种基于自动构建提示工程的自然语言理解方法及系统_佛山科学技术学院_202410170010.3

一种病理解剖用的切片观察台_中国人民解放军新疆军区总医院_202322527794.4

一种基于结构化场景理解的目标导航方法及装置_北京科技大学_202410181460.2

自然语言理解种子的分析方法及装置_及云香港科技有限公司_202310511271.2

一种阅读理解答案生成方法及装置_中国人民银行清算总中心_202111433842.2

基于纯文本数据训练的图像理解方法、系统、设备及介质_中国科学技术大学_202410375523.8

用于自然语言理解处理的共享编码器_亚马逊科技公司_202380014016.5

基于语义理解的电力行业标准条文搜索方法及系统_西安热工研究院有限公司_202410450051.8

图像相关技术

图像处理方法及图像处理设备_东软医疗系统股份有限公司_202410410737.4

图像处理装置和图像处理方法_爱思开海力士有限公司_202311055069.X

图像处理装置和图像处理方法_爱思开海力士有限公司_202310957003.3

图像处理装置、图像处理方法及图像处理系统_爱思开海力士有限公司_202311159508.1

图像转换装置及包含图像转换装置的图像系统_英特尔公司_202322563332.8

图像处理设备、图像处理方法和存储介质_佳能株式会社_202311751946.7

图像处理装置、摄像装置和图像处理方法_日本株式会社皆爱公司_202280075041.X

图像形成装置及图像形成装置的控制方法_东芝泰格有限公司_201910989416.3

图像处理装置、图像处理方法和存储介质_佳能株式会社_202210683616.8

显影装置、图像形成单元以及图像形成装置_东芝泰格有限公司_202010093524.5

训练相关技术

下肢辅助训练器_荆丽杰_202322232049.7

一种基于训练阶段感知策略的联邦学习训练方法_南京大学_202111013367.3

确定训练样本的方法和自动驾驶模型的训练方法、装置_阿波罗智能技术(北京)有限公司_202111035596.5

模型预训练方法、模型训练方法、对象处理方法及装置_北京百度网讯科技有限公司_202310701200.9

一种专注力强化训练方法和辅助训练装置_毛玉柱_202311139333.8

一种网球训练器_哈尔滨体育学院_202322612350.0

一种康复用训练扶梯_山东思奥尔医疗科技有限公司_202323113960.2

用于数据训练的存储装置_三星电子株式会社_202311762581.8

一种模拟爆炸训练装置_江苏警官学院_202010063907.8

引体辅助训练器_舒华体育股份有限公司_202010326248.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】基于纯文本数据训练的图像理解方法、系统、设备及介质_中国科学技术大学_202410375523.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务