首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于ViT和双眼特征融合网络的视线估计方法_上海大学;上海大学温州研究院_202410302192.5 

申请/专利权人:上海大学;上海大学温州研究院

申请日:2024-03-18

公开(公告)日:2024-05-14

公开(公告)号:CN118038529A

主分类号:G06V40/16

分类号:G06V40/16;G06V40/18;G06V10/80;G06V10/82;G06N3/0464;G06N3/08;G06V10/26

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.31#实质审查的生效;2024.05.14#公开

摘要:本发明涉及图像技术领域,且公开了一种基于ViT和双眼特征融合网络的视线估计方法,包括以下步骤:步骤S1,首先,获取目标人员图像,目标人员以一定角度凝视屏幕,进行提取特征;步骤S2将图像分割为面部图像、左眼图像、右眼图像和面部边界框位置信息;步骤S3将其输送至视线估计网络中,利用基于卷积神经网络的双眼特征融合模块和基于ViT的面部特征提取模块提取眼脸特征;步骤S4,进行特征拼接,最终实现2D视线估计。该发明能够降低视线估计对于硬件设备的要求,在不依赖眼动设备的前提下实现精准的视线估计。

主权项:1.一种基于ViT和双眼特征融合网络的视线估计方法,其特征在于,包括以下步骤:步骤S1,首先,获取目标人员图像,目标人员以一定角度凝视屏幕,进行提取特征,并将图像分割为面部图像、左眼图像、右眼图像和面部边界框位置信息;步骤S2,其次,获取目标人员的图像面部特征,且提取网络为VisionTransformer,该模块通过向每个中间层添加平均池化操作,实现额外的空间交互功能,使网络更多地提取全局信息,而不是错误局部的纹理信息;步骤S2.1,其中,VisionTransformer简述为ViT,将图像分割成N个“patches”,其中,本文所使用的CB-TransformerEncoder,其中Attention计算方式如公式为 步骤S2.2,增强模型对复杂视觉模式的理解,特别是在捕捉头部姿态的微妙变化方面,在每个多层感知器MLP层中引入了一种创新的上下文广播ContextBroadcasting模块,计算过程如公式所示: 步骤S3,眼部位置信息提取,获取目标人员的图像眼睛特征提取网络,采用卷积神经网络CNNs通过一层一层卷积逐步扩大卷积视窗的信息,这样的网络结构能获得更加细致的纹理信息;步骤S3.1,其中,眼睛注视电脑屏幕的实际位置为x,y,模型预测的注视点位置为xpre,ypre,单位均为厘米,训练过程中输入神经网络的样本数为m。步骤S4,特征拼接,将眼睛特征、面部特征以及面部位置信息特征进行拼接,其中眼睛特征信息的维度为1×128,面部特征信息的维度为1×64,面部位置信息的维度为1×64,将其拼接为一个1×256的特征信息,送入全连接层FC,最终得到视线在二维平面的落点x,y;该神经网络训练过程中使用的损失函数为均方差损失,其计算过程如下:

全文数据:

权利要求:

百度查询: 上海大学;上海大学温州研究院 一种基于ViT和双眼特征融合网络的视线估计方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。