首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种融合多粒度多模态的艺术品图像描述生成方法 

申请/专利权人:湖南大学

申请日:2022-07-18

公开(公告)日:2024-06-28

公开(公告)号:CN115082693B

主分类号:G06V10/42

分类号:G06V10/42;G06N3/0455;G06N3/0464;G06N3/048;G06N3/08;G06F40/279;G06V10/20;G06V10/80;G06V10/82

优先权:

专利状态码:有效-授权

法律状态:2024.06.28#授权;2022.10.11#实质审查的生效;2022.09.20#公开

摘要:本申请涉及人工智能技术领域的一种融合多粒度多模态的艺术品图像描述生成方法。该方法包括:对待描述艺术品的多模态数据进行预处理,得到预处理的艺术品图像和文本;采用多粒度视觉特征编码器获取预处理图像的全局视觉编码与隐喻视觉编码;根据预处理文本和全局视觉编码、预处理文本和隐喻视觉编码,采用对应粒度文本特征编码器,得到粗粒度文本编码和细粒度文本编码;分别对全局视觉编码与粗粒度文本编码、隐喻视觉编码与细粒度文本编码分别进行解码,得到粗粒度文本描述和细粒度文本描述;将粗粒度文本描述和细粒度文本描述融合,得到含有隐喻的多粒度艺术品描述。采用本方法可以在保证高准确率的情况下高效地生成含有隐喻的艺术品图像描述。

主权项:1.一种融合多粒度多模态的艺术品图像描述生成方法,其特征在于,所述方法包括:获取待描述的艺术品的多模态数据,并对所述多模态数据进行预处理,得到预处理数据,所述预处理数据包括预处理的艺术品图像和预处理的文本数据;采用基于卷积神经网络的多粒度视觉特征编码器对预处理的艺术品图像的全局视觉表示与隐喻视觉表示进行提取和编码,得到全局视觉编码与隐喻视觉编码;根据所述预处理的文本数据和所述全局视觉编码,采用基于LSTM网络的粗粒度文本特征编码器提取浅层语言特征,并进行编码,得到粗粒度文本特征编码;根据所述全局视觉编码与所述粗粒度文本特征编码,采用粗粒度融合特征解码器进行解码,生成艺术品的粗粒度文本描述;根据所述预处理的文本数据和所述隐喻视觉编码,采用基于LSTM网络的细粒度文本特征编码器提取深层语言特征,并进行编码,得到细粒度文本特征编码;根据所述隐喻视觉编码与所述细粒度文本特征编码,采用细粒度融合特征解码器进行解码,得到艺术品的细粒度文本描述;将所述粗粒度文本描述和所述细粒度文本描述进行融合,得到含有隐喻的多粒度艺术品描述。

全文数据:

权利要求:

百度查询: 湖南大学 一种融合多粒度多模态的艺术品图像描述生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。