首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于视觉语言模型提示学习的人脸表情识别方法_中国科学技术大学_202410422834.5 

申请/专利权人:中国科学技术大学

申请日:2024-04-09

公开(公告)日:2024-06-21

公开(公告)号:CN118230389A

主分类号:G06V40/16

分类号:G06V40/16;G06V20/70;G06V10/764;G06V10/74;G06N20/00

优先权:

专利状态码:在审-公开

法律状态:2024.06.21#公开

摘要:本发明涉及表情识别技术领域,公开了一种基于视觉语言模型提示学习的人脸表情识别方法,将表情图像输入到完成训练的表情识别模型,输出表情图像所属的超类;表情识别模型的训练过程包括以下步骤:设置文本提示,包括固定部分和可学习部分;将文本提示输入到文本编码器,得到超类的子类的文本编码;将表情图像x输入图像编码器,得到图像编码;文本提示和表情图像分别经过文本编码器和图像编码器后,被编码至对齐的编码空间;进行两阶段训练,第一阶段训练时冻结文本编码器和图像编码器的参数,第二阶段训练:利用第一阶段学习到文本提示,微调图像编码器,通过设置多个子类的方式降低类内差异,从而提升表情识别性能。

主权项:1.一种基于视觉语言模型提示学习的人脸表情识别方法,将表情图像x0输入到完成训练的表情识别模型,输出表情图像x0所属的超类;表情识别模型的训练过程包括以下步骤:步骤一,设置文本提示:第i个超类的第k个子类的文本提示其中[prefix]表示人工设置的固定文本前缀,表示第i个超类的第k个子类中第m个可学习的文本提示符;M是每个子类的文本提示中的文本提示符的长度,K是每个超类中的子类的数量;步骤二,将文本提示输入到文本编码器得到第i个超类的第k个子类的文本编码将表情图像x输入图像编码器得到图像编码V:文本提示和表情图像分别经过文本编码器和图像编码器后,被编码至对齐的编码空间;步骤三,第一阶段训练:冻结文本编码器和图像编码器的参数,通过细粒度损失和超类边际损失来学习子类的文本提示中的文本提示符;细粒度损失用于最大化图像编码和目标超类的最接近子类的文本编码之间的余弦相似性,同时最小化图像嵌入和来自其他非目标超类所有子类的文本编码之间的相似性;超类边际损失用于扩大表情超类之间的边际差异;步骤四,第二阶段训练:利用第一阶段学习到的N×K个文本提示,调整图像编码器,完成表情识别模型的训练;其中N表示超类的总数。

全文数据:

权利要求:

百度查询: 中国科学技术大学 一种基于视觉语言模型提示学习的人脸表情识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。