首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多维信息融合的在线听课行为检测与识别技术 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:首都师范大学

摘要:本发明涉及视觉识别技术领域,且公开了一种基于多维信息融合的在线听课行为检测与识别技术,包括以下步骤:S1、数据采集;S2、数据预处理;S3、图像特征提取;S4、多维信息融合;S5、模型验证。该基于多维信息融合的在线听课行为检测与识别技术,实现了模型的轻量化,所以本发明中提出的Yolov8n‑BiFPN‑C3Ghost模型在线上听课行为数据集上,对于不同尺度的评价指标mAP50、mAP50‑95下的识别精度分别达到了98.6%和92.6%,而在检测精度和模型计算量两个指标下相较于Yolov3‑tiny、Yolov5n、Yolov6n等课堂行为识别基准模型均有提高,实现了准确性和计算量的良好平衡,非常适宜部署在算力资源不足的边缘计算设备上,对学校的使用环境较为友好,且通过多维信息融合的在线听课行为检测与识别开辟了一条崭新道路。

主权项:1.一种基于多维信息融合的在线听课行为检测与识别技术,其特征在于,包括以下步骤:S1、数据采集:录制了首都师范大学管理学院20级信管专业在真实课堂教学环节下的上课视频,对采集后的视频进行了以下处理:1筛选:通过分析学生的在线课堂行为特点,归纳出6种具有代表性的学生课堂行为即喝水、听讲、看手机、睡觉、发言、写字,学习行为中的写字、发言、听讲表示学生上课的积极行为,而喝水、看手机、睡觉表示学生上课的消极行为,以比较全面地反映学生在课堂中的学习状态,在筛选过程中删除了易出现歧义、重复度过高的行为特征;2裁剪分割:选取视频中包含六种课堂行为的时间段,将其裁剪分割为单个640X360的短视频数据;3数据标注:分割短视频数据生成JPG格式的帧图像,使用LabelImg图像标注工具按照六种类别进行标注,标注框为矩形框,能够记录学生所在的空间信息,矩形的左上角标注为该学生的行为类别,将导出的数据标签文件保存为txt格式,数据标签文件由图像文件信息、标注框坐标信息和所对应的标签组成;4分割数据集:按照7:2:1的比例将数据集分割为训练集、测试集和验证集;S2、数据预处理:图像尺寸调整:将原始图像调整为固定的大小,通常是网络模型定义的输入尺寸,常见的尺寸选择是640x640像素;图像归一化:将图像的像素值进行归一化处理,使其数值范围在0到1之间,可以通过将每个像素值除以255来实现,也可以使用其他归一化方法;数据增强:为了增加模型的泛化能力和鲁棒性,可以对图像进行一系列的数据增强操作,例如随机裁剪、随机旋转、随机平移、随机缩放等;边界框标注转换:对于每个目标对象,在图像中用边界框进行标注,通常表示为x,y,w,h形式;边界框编码:将边界框的坐标信息编码为适合于训练模型的形式,一种常用的编码方式是将边界框的坐标相对于图像尺寸进行归一化;类别标签编码:将类别标签映射为模型期望的形式,通常使用独热编码One-HotEncoding将类别标签转换为向量形式;S3、图像特征提取:C3Ghost模块是C3模块在GhostNet轻量级网络基础上的变体,GhostNet网络能够在保持原有卷积输出特征图的尺寸和通道大小的前提下,大幅降低网络的计算量和参数量,其实现原理是将传统的卷积分成普通卷积和简易线性计算两步进行,首先利用较少的卷积核生成一部分特征图,接着对这部分特征图进行通道卷积生成更多特征图,最后拼接两组特征图生成GhostNet特征图;S4、多维信息融合:Yolov8n原本的结构为PAN路径聚合结构,这种特征提取方式虽然包含了自上而下以及自上而下的特征传递,但是仅能实现两个层次的特征融合,但是BiFPN双向特征金字塔结构使用了类似U-Net的上下采样结构,能够快速地将特征融合到各个层次中,该结构既可以通过多层次来提高特征融合效果,并使用上下采样结构来减少参数计算量,实现不同尺度的图像检测;S5、模型验证1不同组合模型的效果对比:基于Yolov8n主干网络,分别使用不同的算法结构与Yolov8n模型进行组合,展示不同组合模型对于准确性和计算量的影响结果,结果表明,slimneck、bifpn-C3Ghost两种方法均可以降低模型计算量,而slimneck算法使用了GSConv轻量化卷积方法,虽然降低了模型计算量,但同时精度也有所下滑,而使用的bifpn-C3Ghost方法不仅可以降低模型约20%的计算量,且改进后模型的检测精度略有上升;2不同特征融合方法的效果对比:基于Yolov8n网络,在Head端分别使用不同的特征融合,展示不同特征融合方法对于准确性和计算量的影响结果,结果表明,bifpn融合方法无论从准确度还是计算量上均优于concat和adaptive方法,虽然在指标mAP50上weight方法的准确率略比bifpn方法高0.2%,但是在计算量上却比bifpn高出了4.2%,因此bifpn方法从综合性能上要高于其他融合方法;3不同特征提取模块的效果对比:基于Yolov8n网络和BiFPN融合方法,在Head端分别使用不同的特征提取方法,展示不同特征提取方法对于准确性和计算量的影响结果,结果表明,C3、C3Ghost、VoVGSCS特征提取方法均可以在mAP50指标下提升模型的准确度并降低计算量,但是在mAP50-95指标下只有C3Ghost算法有所提升,因此C3Ghost算法可以在保证准确度提高的同时降低模型的计算量;4消融实验:Ghost网络擅长提高模型的准确性,而C3模块和bifpn方法均擅长降低模型的计算量,当C3和Ghost组合使用时,计算量比基准模型Yolov8n降低12.2%,当Ghost和BiFPN组合使用时,计算量比基准模型降低19.5%,当三者同时组合使用时,不仅计算量较基准模型降低19.5%,同时mAP50指标略有提升,mAP50-95指标与基准模型持平,综合结果,C3、Chost、BiFPN三者组合的模型不仅可以有效降低模型计算量,还可以保证模型计算的准确率;5不同课堂行为识别模型的效果对比:为了更好地突出本文模型在课堂行为识别任务上的优势,引入了在课堂行为识别任务中常用的模型进行对比,展示不同模型对于准确性和计算量的影响结果,结果表明,Yolov8n在mAP50和mAP50-95上的表现均优于基准模型,但是在计算量上Yolov5的表现更佳,而本模型可以在保持Yolov8n模型高准确度的基础上,大幅度降低了模型的计算量,实现了模型的轻量化,无论在准确度还是计算量均优于基准模型,实现了模型准确性和复杂度的平衡,模型训练的loss结果。

全文数据:

权利要求:

百度查询: 首都师范大学 一种基于多维信息融合的在线听课行为检测与识别技术

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。