首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】融合集束搜索的图像描述生成方法、系统、介质及设备_江苏科技大学_202111388863.7 

申请/专利权人:江苏科技大学

申请日:2021-11-22

公开(公告)日:2024-06-21

公开(公告)号:CN114049501B

主分类号:G06V10/44

分类号:G06V10/44;G06V10/774;G06V10/82;G06N3/0442;G06N3/08;G06F40/211;G06F40/216;G06F40/289

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2022.03.04#实质审查的生效;2022.02.15#公开

摘要:本发明公开了基于神经网络的图像描述生成方法,包括:获取图像标注的数据集并得到训练集、验证集和测试集;根据图像描述的句子生成词汇表与词嵌入矩阵;采用神经网络来提取图像的特征并编码为矩阵;创建长短时记忆网络;在图像特征提取网络和长短时记忆网络之间添加全连接层做特征映射;将提取的图像特征与获取的词嵌入矩阵输入到长短时记忆网络中进行训练;以序列生成的方式作为测试集中图像描述生成的方法;在序列生成中添加集束搜索算法寻找最佳的句子表达方式。本发明方法融合了神经网络和集束搜索算法,提高了图像特征提取的精确度和语义信息表达的流畅度。

主权项:1.一种融合集束搜索的图像描述生成方法,其特征在于,包括如下步骤:步骤1:获取图像描述生成所需要的图像标注数据集,并对图像标注数据集进行预处理,并将预处理后的图像标注数据集分为训练集和测试集;步骤2:获取每个图像所标注的描述文本,根据获取的文本构建词汇表以及词表的词嵌入矩阵;步骤3:创建编码器模块中的神经网络VGG16,通过神经网络VGG16对输入该编码器的图像进行处理和特征提取,具体步骤如下:步骤31:对输入的图像进行预处理,从每个像素中减去在训练集上计算的平均RGB值;步骤32:将预处理后的图像输入到卷积层中,对图像进行零填充处理,在图像的周围用0进行相应的填充,使得原始图像扩大;输出图像特征尺寸可以按照公式1-4来求得:OutputSize=W2×H2×D21 D2=K4其中,K为卷积核的数量,W为卷积操作输入图像的尺寸,F为卷积核的尺寸,S为操作步长,P为零填充数量;步骤33:对填充后的图像使用3*3大小的卷积核捕获图像左右、上下以及中心的特征,滤波器通过与上一层输出的图像进行点积运算,形成新的特征图像,完成特征提取;步骤4:创建长短期记忆网络的解码器模块,在编码器模块的卷积神经网络输入端和解码器模块的循环神经网络输入端之间添加一层全连接层;步骤5:将所述步骤3中所提取的图像特征和所述步骤2中所获得的图像描述文本的词嵌入矩阵输入到长短期记忆网络中,将图像特征和所对应的图像描述文本在长短期记忆网络中进行训练;步骤6:在长短期记忆网络的解码器模块中,从预设起始标志开始对每个语句进行预测生成单词,从预设起标志开始对每个语句进行预测生成单词,选取每个时间步长中概率最大的单词作为最佳候选单词集;步骤7:利用beamsearch算法,在最佳候选单词集中选择最大概率分布的单词构成句子,作为描述文本,具体为:在第一个时间步长,选取当前条件概率最大的k个词,将k个词作为候选输出序列,之后每个时间步长,基于上个步长的输出序列,挑选出所有序列中条件概率最大的k个,最后从k个候选中挑选出最优的,组合成为最终的图像描述文本,其中,通过如下公式逐步获取单词的条件概率:Py2,y1|x=Py2|y1,xPy1|x其中,y2为第二个单词的条件概率输出;y1为当前单词;x为上一个时间。

全文数据:

权利要求:

百度查询: 江苏科技大学 融合集束搜索的图像描述生成方法、系统、介质及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。