恭喜内蒙古大学诺明花获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜内蒙古大学申请的专利实体关系抽取模型训练方法及实体关系联合抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119227742B 。
龙图腾网通过国家知识产权局官网在2025-06-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411292512.X,技术领域涉及:G06N3/045;该发明授权实体关系抽取模型训练方法及实体关系联合抽取方法是由诺明花;李祺;任园园;郭超凡设计研发完成,并于2024-09-14向国家知识产权局提交的专利申请。
本实体关系抽取模型训练方法及实体关系联合抽取方法在说明书摘要公布了:本发明公开了一种实体关系抽取模型训练方法及实体关系联合抽取方法,实体关系抽取模型训练方法包括:步骤S1、由教师模型和学生模型组合成具有知识蒸馏框架的实体关系抽取模型,输入训练数据集,由学生模型输出文本数据的三元组信息;步骤S2、判断比较当前模型输出的三元组信息的精度是否最大,若否,则筛选出需要人工标记的数据进行人工标记后并于初始训练数据集融合得到优化训练数据集继续输入模型以训练模型,直到精度达到最大后完成模型训练。本发明通过主动学习方法与实体关系联合抽取模型相结合,采用主动学习方法,扩充语料,可以不断的形成新的训练集来细化参数值,具有很好的泛化能力和精度,适用于少数据量的垂直领域。
本发明授权实体关系抽取模型训练方法及实体关系联合抽取方法在权利要求书中公布了:1.一种实体关系抽取模型训练方法,其特征在于,实体关系抽取模型训练方法包括: 步骤S1、在学生模型中通过抽取实体的输入映射关系,在教师模型通过关系的输入映射实体,由教师模型和学生模型组合成具有知识蒸馏框架的实体关系抽取模型,输入训练数据集,由学生模型输出文本数据的三元组信息; 步骤S2、判断输出的三元组信息的精度是否达到阈值,若否,则筛选出需要人工标记的数据进行人工标记后并于初始训练数据集融合得到优化训练数据集继续输入模型以训练模型,直到精度达到阈值后完成模型训练;其中, 所述教师模型为经过预训练的BERT模型,教师模型获取三元组信息的方法包括: 步骤S4.1:数据预处理,对文本数据进行分词,对词序列进行向量转换得到输入文本的文本特征h,并进行子词对齐得到,在句子的向量化表示集合h中;, ,其中,Avgpool是平均池化操作,目的是使得嵌入转化长度与句子原始长度对齐; 步骤S4.2:使用标签分类器,将句子文本特征与关系信息进行多标签二进制分类,根据输入特权关系信息获得句子中可能存在的潜在关系的子集:,其中,表示sigmoid函数,和分别表示计算潜在关系子集时的权重和偏置参数,体现不同关系的存在概率; 步骤S4.3:执行两个序列标记操作,分别提取对应的主体和客体,从而抽取出完整三元组信息:,,其中和分别表示第i个标记是第j个关系的主体或客体的概率分布,是可嵌入矩阵U中第j个关系表示,是子词对齐后第i个token的编码表示,、和是计算关系对应主客体时的权重和偏置参数, 所述学生模型为获取三元组信息的方法包括: 步骤S5.1:结合GloVe嵌入Xg和可训练的位置嵌入Xp,使用包含L个堆叠块的卷积编码器对文本进行编码:;;其中,[;]表示连接操作,每个Block中包含两个膨胀率为pi的膨胀卷积、一个门控单元和一个残差链接;对每个Block通过填充来确保输出维度与输入维度相匹配: ; ; ; 其中,表示膨胀卷积模块,表示逐元素相乘,Y i 指第i个Block的输出和第i+1个Block的输入,句子表示H与最后一个Block的输出YL等价; 步骤S5.2:由两个不同的自注意力模块,经由H计算生成主体辅助特征Hh和客体辅助特征Ht; 步骤S5.3:S→O和O→S两条线并行进行,将句子与相应辅助特征连接并分别送入前馈网络提取主体信息S和客体信息O,再用获得主体信息S指导客体的抽取,用获得的客体信息O指导主体的抽取。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人内蒙古大学,其通讯地址为:010021 内蒙古自治区呼和浩特市赛罕区大学西路235号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。