首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于大数据的学生学业表现预测方法 

申请/专利权人:山东理工职业学院

申请日:2024-04-26

公开(公告)日:2024-06-25

公开(公告)号:CN118114083B

主分类号:G06F18/23211

分类号:G06F18/23211;G06F18/15;G06F18/214;G06Q10/0639;G06Q50/20;G06F18/2413

优先权:

专利状态码:有效-授权

法律状态:2024.06.25#授权;2024.06.18#实质审查的生效;2024.05.31#公开

摘要:本发明公开了基于大数据的学生学业表现预测方法,方法包括数据采集、数据预处理、定义边界样本处理、聚类处理和学业表现预测。本发明属于数据处理技术领域,具体是指基于大数据的学生学业表现预测方法,本方案基于Cauchy核密度和相对Cauchy核密度对样本数据密度评估,通过构建边界检测图来标记边界样本,通过计算潜在边界样本的K个最近邻并检查它们是否属于同一个聚类,判断潜在边界样本是否为噪声数据;基于拉格朗日乘子最小化目标函数得到模糊隶属度、特征权值、可能性隶属度和聚类中心;基于平均类内距离评估聚类紧密度,设置惩罚因子,基于切断阈值修正可能性隶属度,自适应调节优化聚类结果;最终基于聚类结果实现学业表现预测。

主权项:1.基于大数据的学生学业表现预测方法,其特征在于:该方法包括以下步骤:步骤S1:数据采集;步骤S2:数据预处理;步骤S3:定义边界样本处理,基于Cauchy核密度和相对Cauchy核密度对样本数据密度评估,通过构建边界检测图来标记边界样本,通过计算潜在边界样本的K个最近邻并检查它们是否属于同一个聚类,判断潜在边界样本是否为噪声数据;步骤S4:聚类处理,基于拉格朗日乘子最小化目标函数得到模糊隶属度、特征权值、可能性隶属度和聚类中心,设置惩罚因子,基于切断阈值修正可能性隶属度从而完成聚类;步骤S5:学业表现预测;在步骤S1中,所述数据采集是采集历史数据和实时数据;所述历史数据和实时数据都包括学生个人信息、学习成绩数据、学习行为数据、学生课程信息和学生主观态度;历史数据还包括学生学业表现结果;将学生学业表现结果作为数据标签,不参与聚类运算,仅作为检验实时数据的学生学业表现结果用;所述学习成绩数据包括学生的历次考试成绩、期末总评成绩和作业成绩;所述学习行为数据包括学生在课堂上的参与程度、课堂出勤率、作业提交情况和学习时间分布;所述学生课程信息包括学生所学课程的类型、课程难度和课程评价;所述学生主观态度包括学生自我评价、学习目标、学习动机和家庭教育背景;在步骤S3中,所述定义边界样本处理具体包括以下步骤:步骤S31:计算样本数据的Cauchy核密度和相对Cauchy核密度;预先设有密度阈值和相对密度阈值,将Cauchy核密度低于密度阈值或者相对Cauchy核密度低于相对密度阈值的样本数据作为潜在边界样本;步骤S32:通过构建边界检测图来标记边界样本;边界检测图是一个图形表示,其中样本作为节点,边表示样本之间的距离;预先设有距离阈值;如果边的距离大于设定的距离阈值,则将连接的节点标记为边界样本;步骤S33:对于每个潜在的边界样本,计算其K个最近邻并检查它们是否属于同一个聚类;如果K个最近邻都属于同一个聚类,则将潜在的边界样本判定为该聚类的正区域;若K个最近邻属于不同的聚类,则将潜在的边界样本视为噪声簇,不予处理;在步骤S4中,所述聚类处理具体包括以下步骤:步骤S41:初始化,基于模糊均值聚类算法初始化聚类中心并进行一次聚类;步骤S42:设计目标函数,将特征权重因子引入目标函数,表示如下: ; ; ;式中,J是目标函数;c是聚类数量,k是聚类的索引;n是数据点数量,j是数据点索引;d是特征总数,l是特征索引;和分别是数据点xj对于第k个聚类vk的模糊隶属度和可能性隶属度的成员权重,是第k个聚类第l个特征的权重,m、p和θ分别是调节模糊隶属度、可能性隶属度和权重的指数因子,a和b分别是用于调整模糊隶属度和可能性隶属度影响的参数;是数据点j第l个特征;是第k个聚类第l个特征中心;tkj是数据点j对于第k个聚类的可能隶属度;η是惩罚因子;步骤S43:更新聚类中心,基于约束条件利用拉格朗日乘子最小化目标函数后得到模糊隶属度、特征权值、可能性隶属度和聚类中心,表示如下: ; ; ; ;步骤S44:计算平均类内距离,所用公式如下: ;式中,是第-1次迭代中的平均类内距离;步骤S45:设置惩罚因子,根据样本数据的分布特征来设置惩罚因子,所用公式如下: ;式中,是调节惩罚因子的参数;步骤S46:确定切断阈值,切断阈值βk的值决定了聚类中心vk的大小,基于上一次迭代中的平均类内距离自适应确定尺度参数,所用公式如下: ;式中,kβ是调节尺度影响的参数;是当前迭代次数;步骤S47:修正可能性隶属度,对于数据点xj,计算其对于第q类的最大可能性隶属度tqj;将最大可能性隶属度与切断阈值比较,确定数据点xj是否位于第q类的核心内;对聚类核心内的数据点的可能性隶属度进行修改,所用公式如下: ;式中,是修正后的可能性隶属度;步骤S48:分配数据点,基于数据点修正后的可能性隶属度分配非聚类中心的数据点;并进行边界样本处理;步骤S49:聚类判定,预先设有判定阈值ε,若,则停止迭代,和分别是第次迭代和第次迭代的模糊隶属度矩阵;若达到最大迭代次数则重新初始化聚类中心进行聚类;否则迭代次数+1并重新计算聚类中心进行聚类;在步骤S5中,所述学业表现预测是基于聚类结果,将具有最多数量的历史数据标签作为簇标签;将实时数据所属簇的簇标签作为学业表现预测结果。

全文数据:

权利要求:

百度查询: 山东理工职业学院 基于大数据的学生学业表现预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。