买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国科学院软件研究所;中科南京软件技术研究院
摘要:本发明公开了一种试题知识点的标注方法、存储介质及设备;包括S1:确定试题与知识点间关系,构建试题‑知识点关系模型;S2:搜集各类学科试题并进行人工知识点标注,然后构建出知识点题库;S3:对知识点题库中内容进行预处理;S4:结合多距离上下文融合模块以及BERT编码器构建试题知识点标注模型,通过预处理后的试题文本进行特征提取,以实现对试题相关知识点进行标注的训练;S5:将训练完成后的试题知识点标注模型进行测试,然后应用到试题中知识点的识别标注。上述方案明确了试题、学科与知识点间的关系,以能够同时识别多门学科、多类别的知识点,无需再为各个学科单独构建模型,并对冷门知识点的预测也能保持较高准确率。
主权项:1.一种试题知识点的标注方法,其特征在于,包括以下步骤:S1:确定试题与知识点之间的关系,构建试题-知识点的关系模型;S2:搜集各类学科试题并进行人工知识点的标注,然后基于步骤S1所构建的关系模型构建出知识点题库;S3:对知识点题库中的内容进行预处理;具体为:S3.1:对试题中的文本进行清洗,去掉无用符号、停用词;S3.2:对试题中的文本进行分词,其中对于中文文本,把每个字和标点符号都作为一个“词”进行分割;对于英文文本,先划分出每个单词和标点,然后识别单词中的子词,并进行子词分割,将每个子词和标点都作为一个“词”;S3.3:标记试题中的文本边界,即在句子的头部加上[CLS]分类标记,句子的尾部加上[SEP]分隔标记;S3.4:生成固定长度的文本序列,即设定试题文本长度的最大长度值,记为max_len,对长度超过max_len的试题进行截断,长度不足的则进行填充,填充标记使用[PAD];S3.5:生成序列编码,即通过查找词汇表将每个“词”映射为对应的整数编码;S3.6:对试题中的文本进行词嵌入,通过BERT嵌入层将词离散的整数编码转化为一个低维的连续分布的词向量,然后对试题中的文本进行段嵌入和位置嵌入;其中段嵌入表示词所属句子的信息,对于试题的知识点标注任务,词的来源即当前试题的文本,不涉及第二个文本序列,所以对于每个词段向量的每个位置均为0;位置嵌入表示每个词在句子中的位置信息,位置编号从1开始,遵从词嵌入相同的方式将离散的位置编码转换为连续的位置嵌入;最后将词嵌入、段嵌入、位置嵌入进行信息整合,这里采用对应位置元素相加的方式,得到预处理后的试题文本表示;S4:结合多距离上下文融合模块以及BERT编码器构建试题知识点标注模型,通过对步骤S3预处理后的试题文本进行特征提取,从而实现对试题相关知识点进行标注的训练;具体为:S4.1:基于BERT编码器融合词左右两个方向的语义信息,得到试题中文本上下文双向嵌入表达T=[TCLS,T1,T2,...,Tn,TSEP],其中TCLS是分类标记[CLS]所对应位置的上下文双向嵌入表达,TSEP是分类标记[SEP]所对应位置的上下文双向嵌入表达,Ti,i=1,2...,n是各对应位置编码处的上下文双向嵌入表达;S4.2:由多距离上下文融合模块进一步融合上下文信息,利用CNN关注局部细节对特征进行提取,其中CNN神经网络使用了六类卷积核,大小分别为3×H,4×H,5×H,10×H,50×H,100×H,其中卷积核的第一维表示卷积窗口覆盖的上下文距离,即词的个数;第二维表示在整个词向量上进行卷积,H表示词向量的长度;S4.3:对不同卷积核输出的数据,使用LeakyReLU激活函数提取更丰富的非线性特征,然后使用KMaxPooling提炼特征;S4.4:最后将不同卷积核经过步骤S4.3处理后得到的特征进行连接并展平,得到整个试题中文本的特征;S4.5:将步骤S4.4提取到的整个试题中文本特征映射到标签空间,通过sigmoid激活层得到试题包含各个知识点的概率,然后选择交叉熵损失函数作为试题知识点标注模型的优化目标,实现对试题知识点标注模型的训练;S5:将训练完成后的试题知识点标注模型进行测试,然后应用到试题中知识点的识别标注。
全文数据:
权利要求:
百度查询: 中国科学院软件研究所 中科南京软件技术研究院 一种试题知识点的标注方法、存储介质及设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。