买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西安交通大学
摘要:本发明公开了基于组合学习视频平台logo检测方法及系统及设备。1构建视频平台logo数据集;2训练图标检测模型;3进行图标检测;4利用文字检测识别OCR模型进行文本识别;5利用组合学习算法对3和4的检测结果进行合并,得到最终的检测结果。本发明所公开的基于组合学习的视频平台logo检测方法,同现存的logo检测方法相比,通过组合检测的方法,在更复杂的视频平台logo检测上效果更好,这使得本发明在该场景下有更好的应用。同时,本发明几乎适用于所有包含图标和文本信息的目标检测任务,这些类似的任务都可以用到组合检测算法,使得该发明具有更好的应用广泛性。
主权项:1.基于组合学习的视频平台logo检测方法,其特征在于,包括以下步骤:步骤1,以社交媒体数据为对象,获取其中包含视频平台logo的图片和视频,构建视频平台logo数据集,并对所获取的视频抽帧,标注每张图片视频帧中logo对应的图标位置和类别,得到视频平台logo的数据集;步骤2,图标检测模型建立:对于视频平台logo数据集中的训练数据,采用目标检测算法作为图标检测模型,记训练好的模型为Det;步骤3,图标检测:利用训练好的图标检测模型Det,输入图片或者视频帧I,输出图标的位置、类别及置信度分数信息;步骤4,文本识别:采用光学字符识别技术作为文字检测模型,记为Text,输入图片或视频帧I,输出文本的位置和内容信息;步骤5,视频平台logo检测:利用组合学习检测算法对步骤3和步骤4的结果进行合并,将图标检测模型和OCR模型得到的结果进行合并,得到完整视频平台logo检测结果,最终的输出结果集合记为H;步骤5中,合并时,过滤掉不可靠的图标检测结果并回收低置信分数的结果;步骤5视频平台logo检测,具体的步骤为:1对于每一个图标检测结果bi,ci,si,基于图标范围bi扩展文本搜索范围Q,利用ci查找该类别需要匹配的文本集合T*;其中:bi=x,y,w,hQ=x,y,kw,khT*=MapciMap为字典结构,是每个类别对应的文本集合;k用来控制扩展的区域大小;2在搜索范围Q里寻找合适的文本ti;在P,T中逐个搜索,对于每一个pi,ti,当其同时满足pi落在Q范围内,且ti∈T*时,认定bi,ci,si的图标检测结果是可靠的,反之为不可靠的图标检测结果;3将bi,pi的框进行合并,得到整个视频平台logo的区域,合并结果记为ri:bi=x1,y1,w1,h1pi=x2,y2,w2,h2ri=minx1,x2,miny1,y2,w1+w2-|x1-x2|,h1+h2-|y1-y2|将ri和ci组成为最终的结果,分别代表视频平台logo的位置和类别,将其加入最终的集合H中,对于每一个hi∈H,hi=ri,ci。
全文数据:
权利要求:
百度查询: 西安交通大学 基于组合学习的视频平台logo检测方法及系统及设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。