恭喜南京大学戴新宇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜南京大学申请的专利一种结合远程监督和有监督的关系分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114547300B 。
龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210151431.2,技术领域涉及:G06F16/353;该发明授权一种结合远程监督和有监督的关系分类方法是由戴新宇;郑楠涛;何亮;黄书剑;张建兵;陈家骏设计研发完成,并于2022-02-18向国家知识产权局提交的专利申请。
本一种结合远程监督和有监督的关系分类方法在说明书摘要公布了:本发明提供了一种结合远程监督和有监督的关系分类方法,通过有监督数据训练得到教师模型,在使用远程监督数据训练学生模型时对实体进行随机遮掩,同时利用蒸馏技术引入教师模型的监督信号,从而达到降噪的目的。得到学生模型后,在有监督数据上微调学生模型,进一步利用有监督数据增强学生模型。
本发明授权一种结合远程监督和有监督的关系分类方法在权利要求书中公布了:1.一种结合远程监督和有监督的关系分类方法,其特征在于,包括以下步骤:步骤1,获取关系分类文本数据,包括有监督的关系分类文本数据和远程监督的关系分类文本数据;步骤2,在有监督的关系分类文本数据上训练关系分类教师模型;步骤3,在远程监督的关系分类文本数据上训练关系分类学生模型,通过实体遮掩和蒸馏技术对远程监督数据进行降噪;步骤4,在有监督的关系分类文本数据上微调步骤3训练得到的学生模型;步骤5,使用步骤4训练得到的学生模型进行关系预测;步骤2包括:步骤2-1,初始化教师模型的参数θT;步骤2-2,输入有监督的关系分类文本数据其中,n表示有监督的样本数量,texti表示第i个样本的文本,hi和ti表示第i个样本中的头实体和尾实体,表示第i个标注样本的标签,采用独热方式进行编码;步骤2-3,教师模型进行前向计算:通过编码器编码输入的标注样本xT={w1,...,wi,...,h,...,t,...,wn},得到每个词token的表示E={e1,...,ei,...,eh,...,et,...,en},其中,wi表示上下文中的第i个单词,h和t分别表示头尾实体,ei代表经过编码器编码之后第i个单词的表示,eh和et分别代表经过编码器编码之后头实体的表示和尾实体的表示;步骤2-4,获取eh和et,将它们输入双线性层,得到每个关系类别上的输出结果zi,计算公式为:zi=ehWiet,其中Wi表示第i个关系类别对应的参数矩阵,i={1,2,…,c},c表示关系类别总数;再经过softmax函数得到每个关系上的预测概率:其中,exp代表指数函数,表示第i个关系的概率值;步骤2-5,计算概率分布和标注的标签yT的交叉熵损失lossT:将交叉熵损失作为教师模型的预测损失;其中,为第i个关系的真实标签,表示教师模型在第i个关系上的预测概率;步骤2-6,计算梯度,反向传播更新教师模型的参数θT;步骤2-7,经过迭代训练后,得到教师模型;步骤3包括:步骤3-1,初始化学生模型的参数θS;步骤3-2,输入远程监督的关系分类文本数据;步骤3-3,利用步骤2训练得到的教师模型对输入的远程监督标注样本xds={w1,...,wi,h,...,t,...,wn}进行预测,得到每个关系上的输出结果{z1,...,zi,...,zc},zi表示教师模型在第i个关系上归一化前的预测结果;经过softmax函数计算得到每个关系上的概率值参数T用于表示蒸馏的温度;计算得到的概率分布称为softtarget;步骤3-4,对输入的远程监督数据样本xds中的实体部分进行随机遮掩,随机遮掩的变量M服从伯努利分布,遮掩的概率为PM=1=q,q是一个超参数,用于控制遮掩实体的比例,输入的远程监督数据样本表示为: 其中,[E1]和[E2]是两个特殊的符号,分别用来遮掩头实体和尾实体;步骤3-5,学生模型进行前向计算:通过编码器编码输入的样本,编码得到的结果表示为E: e[E1]和e[E2]分别表示遮掩后的头、尾实体经过编码之后的表示,ei表示第i个单词经过编码器编码之后的表示;步骤3-6,获取3-5中的实体表示,当M=1时,取e[E1]和e[E2];当M=0时,取eh和et;将实体表示输入双线性层和softmax层,得到学生模型预测的概率分布PS;步骤3-7,计算概率分布PS和远程监督的标签yds的交叉熵损失lossds:步骤3-8,计算学生模型预测的概率分布和教师模型预测的概率分布之间的差异;步骤3-9,将步骤3-6和步骤3-7中的损失相加,作为学生模型最终的预测损失lossS;步骤3-10,计算梯度,反向传播更新学生模型的参数θS;步骤3-11,经过迭代训练后,得到学生模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学,其通讯地址为:210023 江苏省南京市栖霞区仙林大道163号南京大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。