恭喜南京信息工程大学胡政获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜南京信息工程大学申请的专利基于VMamba框架和通道-空间注意力机制的场景文本检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119418345B 。
龙图腾网通过国家知识产权局官网在2025-04-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510025440.0,技术领域涉及:G06V30/148;该发明授权基于VMamba框架和通道-空间注意力机制的场景文本检测方法是由胡政;赵英男;丁方琪;张德文;杨祖国;江结林设计研发完成,并于2025-01-08向国家知识产权局提交的专利申请。
本基于VMamba框架和通道-空间注意力机制的场景文本检测方法在说明书摘要公布了:本申请涉及一种基于VMamba框架和通道‑空间注意力机制的场景文本检测方法、装置和计算机设备。该方法包括:获取包含文本的场景图像参考样本数据集和增强样本数据集;基于VMamba框架采用可变形卷积构建可变形VMamba特征编码器,获得各场景图像分别对应的多尺度文本实例特征图;采用插值和最大池化方法获得平衡特征图;基于通道‑空间注意力机制构建GASM模块,得到逐像素增强后的文本实例特征;构建傅里叶特征解码器,获得重构的文本实例轮廓;采用损失函数训练以增强样本数据集为输入、文本实例轮廓为输出的场景文本检测模型。采用本方法能够实现拥有全局感受野、快速收敛和精准定位的场景文本检测。
本发明授权基于VMamba框架和通道-空间注意力机制的场景文本检测方法在权利要求书中公布了:1.一种基于VMamba框架和通道-空间注意力机制的场景文本检测方法,其特征在于,所述方法用于对场景中的文本进行检测,包括:步骤S1,获取包含文本的场景图像参考样本数据集,对参考样本数据集应用数据增强策略,生成增强样本数据集;步骤S2,基于VMamba框架采用可变形卷积构建可变形VMamba特征编码器,应用可变形VMamba特征编码器对增强样本数据集中各场景图像进行处理,获得各场景图像分别对应的多尺度文本实例特征图;其中,步骤S2包括:步骤S201,采用Stem模块将输入可变形VMamba特征编码器中的增强样本数据集中各场景图像划分为指定尺寸的图像补丁;步骤S202,将图像补丁顺序输入至可变形VMamba特征编码器的第一Stage、第二Stage、第三Stage、第四Stage中,其中第一Stage提取输出第一尺寸特征图,第二Stage提取输出第二尺寸特征图,第三Stage提取输出第三尺寸特征图,第四Stage提取输出第四尺寸特征图;步骤S203,将第二尺寸特征图、第三尺寸特征图、第四尺寸特征图输入目标可变形卷积中,输出多尺度文本实例特征图;其中,步骤S203包括:将第二尺寸特征图、第三尺寸特征图、第四尺寸特征图输入卷积核大小为3×3的可变形卷积中,分别得到可变形VMamba特征编码器输出的对应尺度的文本实例特征图,其中可变形卷积如下式所示: 其中,xp表示输入的特征图在p位置的特征,yp表示输入特征图对应的输出特征图在p位置的特征,wk表示第K个采样位置的权重,pk表示第K个采样位置的预设偏移量,Δpk表示第K个采样位置的可学习偏移量,Δmk表示第K个采样位置的可学习调制标量;步骤S3,采用插值和最大池化方法,根据多尺度文本实例特征图获得平衡特征图;基于通道-空间注意力机制构建GASM模块,用于对平衡特征图进行通道-空间注意力计算和通道洗牌,得到逐像素增强后的文本实例特征;步骤S4,构建傅里叶特征解码器,用于根据文本实例特征获得逐像素的文本区域掩模图和傅里叶特征向量,并使用离散傅里叶逆变换获得重构的文本实例轮廓;自输入到输出方向,可变形VMamba特征编码器、GASM模块和傅里叶特征解码器构成待训练网络结构,采用损失函数对待训练网络结构进行训练,生成以增强样本数据集为输入、文本实例轮廓为输出的场景文本检测模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京信息工程大学,其通讯地址为:210044 江苏省南京市宁六路219号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。