Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于BERT和协同过滤的题目知识点标签推荐方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:河北习知软件科技有限公司

摘要:本发明公开了基于BERT和协同过滤的题目知识点标签推荐方法及系统,包括以下步骤:将题目题干、选项拼接组成原文,其中公式采用LateX格式直接拼入,图片使用[IMG]作为占位符;将上述拼接的题目原文,建立倒排索引,作为题目的第一个特征F1;使用预训练BERT模型,将上述题目原文进行语义向量化等。本发明与现有技术相比的优点在于:本发明能够显著降低知识点标签推荐的复杂度,融合关键词和语义相似度算法,显著提升相似题目计算精准度。采用协同过滤算法,得到新增题目知识点标签,且随着题库特征库的不断丰富,可进一步提升知识点标签的准确度。本发明中建立的题库特征库,还可用于根据关键词的检索,相似题目推荐等场景,具备更广泛的适应场景。

主权项:1.基于BERT和协同过滤的题目知识点标签推荐方法,其特征在于包括以下步骤:S1、将题目题干、选项拼接组成原文。其中公式采用LateX格式直接拼入,图片使用[IMG]作为占位符;S2、将上述拼接的题目原文,建立倒排索引,作为题目的第一个特征F1;S3、使用预训练BERT模型,将上述题目原文进行语义向量化,采用meαn方法计算整句语义[CLS],作为题目的第二个特征F2;S4、上述语义向量化过程中,题目原文超过512长度时,将原文拆分成512长度的分段,计算每个分段的语义[CLS],然后将所有分段语义取平均值,作为整个题目的第二个特征F2;S5、将上述步骤中取得的题目原文、特征F1、特征F2,以及题目学科、题型、分值等原始特征,作为一个完整特征,存入列式数据库中;S6、按上述步骤对题库中所有题目进行特征化处理,形成题目特征库;S7、新增题目,按上述步骤取得的题目原文Tn;S8、将上述步骤取得的新题目原文Tn,使用分词,使用TextRank算法提取题目关键词,并去掉停用词,得到题目关键词Kwn;S9、使用上述步骤得到的题目关键词Kwn、题目自带的学科特征,在题目特征库中筛选得到题目集合S1;S10、按照上述计算题目特征F2n的方法,计算新题目的语义向量特征F2n;S11、在题目集合S1中,计算与新题目语义向量特F2n的余弦距离,得到余弦相似度Scosq;使用公式1-absScosq计算相似度得分Scoreq,确保Scoreq取值范围为1~0;S12、按相似度得分从大到小顺序,对题目集合S1排序后,截取相似度得分Scoreq0.5的题目,得到相似题目集合S2;S13、取相似度集合S2,剔除没有知识点标签的题目后,取TopNn=3个题目,作为标签推荐候选集合S3;S14、计算候选集合S3中每个题目的知识点标签得分:i为知识点标签位置,count是题目知识点标签数;S15、合并上述步骤中得到的每个题目中的知识点标签得分率,得到最终知识点标签推荐得分:S16、将上述每个知识点标签的推荐得分Stag从高到低排序,取Top5个,作为最终推荐的知识点标签。

全文数据:

权利要求:

百度查询: 河北习知软件科技有限公司 基于BERT和协同过滤的题目知识点标签推荐方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。