首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于显著性检测和超分辨率重建的AR会议系统及构建方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东北大学

摘要:本发明提供一种基于显著性检测和超分辨率重建的AR会议系统及构建方法,所述系统包括投影区域识别模块、文字处理模块、增强展示模块;在骨干网络ResNet18中添加注意力模块,通过通道和空间两个维度,推断注意力图,然后将注意力图与输入特征图相乘以进行自适应特征优化,从而提高检测效果;使用灰度图进行训练,减少颜色对检测的影响;并且提出了一种基于元上采样的超分辨率重建模型,该模型选取性能优秀的RDN模块进行特征提取,利用元上采样能够以任意比例进行放缩图片。在HoloLens端实现AR会议系统,该系统能在不同角度完成对投影区域识别和重建,并且能够以AR的方式叠加三维模型展示给与会者。

主权项:1.一种基于显著性检测和超分辨率重建的AR会议系统,包括投影区域识别模块、文字处理模块、增强展示模块;所述投影区域识别模块用于对采集到的投影区域图像进行分割、矫正、重建处理;所述文字处理模块用于对采集到的投影区域图像中的高亮文字进行识别和文字翻译;所述增强展示模块用于对投影区域内容、百科Web展示和三维模型进行增强展示;所述投影区域识别模块包括投影区域检测模块、投影区域矫正模块以及投影区域重建模块;所述投影区域检测模块用于识别与会者所拍摄图片当中投影区域;所述投影区域矫正模块用于在与会者在视角不佳情况下,对所拍摄投影区域为平行四边形或四边形的图片进行矫正,使投影区域在分割后变为矩形,以达到正面观看效果;所述投影区域重建模块用于在进行投影区域矫正操作之后,根据其尺寸大小自动进行超分辨率重建;所述文字处理模块包括高亮文字识别模块以及翻译模块;所述文字处理模块用于完成投影区域的处理后,将预置好的高亮词语以列表形式呈现给与会者,为增强展示模块提供基础;所述翻译模块用于将投影区域文字部分按照用户需求进行翻译,翻译部分能够将投影区域文字部分翻译为与会者母语;所述增强展示模块包括投影区域展示模块、百科Web展示模块以及三维模型展示模块;所述投影区域展示模块用于对经过投影区域模块处理之后的图形进行展示;所述百科Web展示模块用于对将所识别的高亮词语进行百科解释;所述三维模型展示模块用于进行模型平移、模型缩放以及模型旋转操作;所述一种基于显著性检测和超分辨率重建的AR会议系统的构建方法,包括:对采集到的投影区域图像进行分割、矫正、重建处理;对采集到的投影区域图像中的高亮文字进行识别和文字翻译;对投影区域内容、百科Web展示和三维模型进行增强展示;所述对采集到的投影区域图像进行分割、矫正、重建处理,包括:步骤1:构建基于边缘信息的投影区域检测模型,对投影区域进行分割操作;步骤2:利用透射变换实验对特征图进行矫正操作;步骤3:构建基于元上采样的超分辨率重建模型对投影区域进行重建操作;所述步骤1包括:步骤1.1:采集投影区域图像制作样本数据集,并划分为训练集和测试集;步骤1.2:对样本数据集中的图像数据进行预处理;步骤1.3:构建基于边缘信息的投影区域检测模型;所述步骤1.2包括:步骤1.2.1:采用水平镜像翻转操作和中心旋转操作进行数据增强处理;步骤1.2.2:采用平均值法进行灰度处理操作;所述步骤1.3包括:步骤1.3.1:构建基于边缘信息的投影区域检测模型的预测模块,输入为数据集图片,输出为显著性检测精度最高的预测图;具体表述为:步骤1.3.1.1:使用resnet18作为预测层的骨干网络,并在预测网络第一层与最后一层添加注意力模块;步骤1.3.1.2:在输入层中保留编码器的最后一层,并且由深度学习边缘检测网络HED边缘检测来监督;步骤1.3.1.3:删除编码器-解码器网络结构中的桥接阶段,减少深层特征对浅层特征的抑制;步骤1.3.2:构建投影区域检测模型的注意力机制模块CBAM;具体表述为:步骤1.3.2.1:在预测模块中引入注意力机制,在第一个卷积层和预测模块最后一层后分别增加通道注意力模块和空间注意力模块;步骤1.3.2.2:将输入的特征图分别经过基于宽度和深度的全局最大池化和全局平均池化操作,然后分别再经过多层感知机MLP;步骤1.3.2.3:将MLP输出的特征进行像素级的加和操作,再经过sigmoid激活操作,生成最终的通道注意力特征;步骤1.3.2.4:将该通道注意力特征和输入特征做像素级乘法操作;步骤1.3.2.5:对步骤1.3.2.4中所得特征图进行基于通道的全局最大池化和全局平均池化操作,并基于通道进行融合合并操作;步骤1.3.2.6:将步骤1.3.2.5中的输出经过一个卷积操作,降维为1个通道;步骤1.3.2.7:将步骤1.3.2.6中的输出经过sigmoid激活操作生成空间注意力特征;步骤1.3.2.8:将空间注意力特征和空间注意力模块的输入特征做乘法,得到最终生成的特征;步骤1.3.3:构建投影区域检测模型的精细化模块,对预测模块的输出进行精细化处理得到特征图,所述精细化模块包括输入层、编码器、桥阶层、解码器和输出层;所述步骤2包括:步骤2.1:将投影区域检测模型所得二值图片作为输入,进行透射变换实验;步骤2.2:对步骤2.1中的二值化图片进行膨胀操作,将细小的黑色区域消除掉以减少噪声的干扰,得到进行膨胀操作后的图片;步骤2.3:对进行步骤2.2操作后的图片进行腐蚀操作,从而减少由膨胀操作引起的误差;步骤2.4:查找经腐蚀操作后得到图片的最大轮廓;步骤2.5:拟合投影区域轮廓,通过拟合的投影区域轮廓确定投影区域四个顶点坐标;所述步骤3包括:步骤3.1:构建残差密集网络模型RDN对投影区域的特征进行提取,使用基于边缘的卷积模块替换前两层卷积层;步骤3.2:构建元上采样模块,用于对投影区域进行任意比例放大;所述元上采样模块包括位置投影、权重预测与特征映射;所述对采集到的投影区域图像中的高亮文字进行识别和文字翻译,包括:步骤S1:使用AR眼镜的摄像机获取到画面图片;步骤S2:将步骤S1中获取到的图片进行处理得到投影区域图片,并作为文字处理模块的输入;步骤S3:对输入的投影区域图片进行图像处理获取文字高亮区域,对预置的高亮词语进行识别;步骤S3.1:根据步骤S3中获取的文字高亮区域进行初始掩膜mask的制作;步骤S3.2:对掩膜进行降噪处理;步骤S3.3:使用处理后的掩膜截取高亮区域;步骤S3.4:使用文字接口OCR对高亮区域的文字进行识别;所述对投影区域内容、百科Web展示和三维模型进行增强展示,包括:步骤C1:从服务器中获取到高亮词语列表;步骤C2:获取与会者在高亮词语列表中选择的内容;步骤C2.1:查看步骤C2中获取的高亮词语的百科解释;步骤C2.1.1:访问百科web服务,并且调用百度百科API,获取到高亮词语的百科解释;步骤C2.1.2:将步骤C2.1.1中获得百科解释内容,在微软AR眼镜窗口中展示在与会者视野中;步骤C3:进行AR模型的叠加,增强展示高亮词组对应的3D模型,通过在3D模型绑定应用栏与边界控制组件实现用户对模型的平移、旋转以及缩放;步骤C4:对投影区域和3D模型进行展示。

全文数据:

权利要求:

百度查询: 东北大学 基于显著性检测和超分辨率重建的AR会议系统及构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。