恭喜南京大学张建兵获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜南京大学申请的专利一种用于小样本意图识别的文本数据优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114564569B 。
龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210198697.2,技术领域涉及:G06F16/3329;该发明授权一种用于小样本意图识别的文本数据优化方法是由张建兵;刘书豪;黄书剑;戴新宇;陈家骏设计研发完成,并于2022-03-02向国家知识产权局提交的专利申请。
本一种用于小样本意图识别的文本数据优化方法在说明书摘要公布了:本发明提供了一种用于小样本意图识别的文本数据优化方法,包括以下步骤:步骤1,构建训练文本数据集;步骤2,对训练任务按照具有的意图数阶梯式地划分级别;步骤3,采样一个批次的小样本意图识别训练样本;步骤4,在基于度量学习的元学习模型上使用采样出的同一批次的两个以上的任务做并行训练;步骤5,判断训练是否终止;步骤6,结束模型训练。本发明可以将并行化训练元学习模型应用在现实场景中小样本意图识别的训练任务意图数不一致的情况。
本发明授权一种用于小样本意图识别的文本数据优化方法在权利要求书中公布了:1.一种用于小样本意图识别的文本数据优化方法,其特征在于,包括以下步骤:步骤1,构建训练文本数据集;步骤2,对训练任务按照具有的意图数阶梯式地划分级别;步骤3,采样一个批次的小样本意图识别训练样本;步骤4,在基于度量学习的元学习模型上使用采样出的同一批次的两个以上的任务做并行训练;步骤5,判断训练是否终止;步骤6,结束模型训练;步骤1包括:定义训练文本数据集为S={T1,T2,…,Tn},其中Ti为真实对话场景中的第i个小样本意图识别任务,n为S中总的训练任务数,i取值为1~n;每一个小样本意图识别任务被定义为其中,ntentij为Ti对应对话场景下的一个意图,Ci为Ti所含有的意图个数;对于每个任务下的一个意图被定义为其中queryijk为被标注为Intentij的一条对话文本,Nij为意图,ntentij所含的标注文本总数;步骤2包括:构建级别列表levels={L1,L2,…,LM},LM表示第M个级别;一个训练任务所具有的意图数达到的最大的一个级别对应数值就是训练任务的级别,即如果Ti所含意图数Ci≥Ll且Ci<Ll+1,则Ti对应级别就是Ll,如果Ci≥LM则Ti对应级别就是LM;根据每个任务Ti所含有的意图个数将训练文本数据集S中的所有任务划分到不同的子集中,即构建训练文本数据集S的划分其中表示对应于级别LM的子集;步骤3包括:步骤3-1,确定当前批次要采样的级别Ll;步骤3-2,在级别Ll的任务集合中采样出一个任务Ti;步骤3-3,在任务Ti中采样出Ll个意图;步骤3-4,对于Ll个意图,每个意图采样出k条对话文本;步骤3-5,判断是否完成本批次采样:如果己经采样出了级别对应批次大小个训练任务样本,则执行步骤3-6,否则返回步骤3-2继续采样;步骤3-6,返回当前批次采样出的训练数据:当前批次的训练数据D包含有个任务,每个任务包含有Ll个意图,每个意图都含有k条被标注为所述意图的对话文本;将训练数据D拆分为支撑集Dsupport和查询集Dquery,拆分方法为将训练数据D下每个意图的k条对话文本对应拆分为分别有ksupport和kquery条对话文本的两个子集,其中满足k=ksupport+kquery;步骤4具体包括如下步骤:步骤4-1,使用编码器对输入文本进行编码:对于为支撑集Dsupport和查询集Dquery中的所有对话文本,使用文本编码器将每一句对话文本编码成一个特定维数的向量表示,在文本编码过程中,支撑集Dsupport中的数据表示形状为其中sen_len为编码器限定的输入文本最大长度,word_emb为每个词对应向量表示的维数大小;经过编码器编码后,获得形如的句子表示,其中sen_emb为每条对话文本的句向量表示的维数大小;对查询集Dquery编码获得形状为的数据表示;步骤4-2,查询集句子表示与支撑集Dsupport的意图表示做相似度度量:使用相似度度量函数计算两个向量表示的相似程度;将支撑集Dsupport中每个意图对应的句向量整合成单独的一个意图向量,即转化为其中intent_emb为对意图下的ksupport个sen_emb计算均值得到的值,从而获得了每个任务中每个意图的一个原型表示;将查询集Dquery中的每个任务的所有对话文本的句向量表示与对应任务下的意图的原型表示做相似度计算,获得的相似度结果为倒数第二维Ll即表示每条对话文本被预测为其来源任务中的每个意图的分数,这Ll个分数组成的向量简记为pred;步骤4-3,计算损失:使用多分类的交叉熵函数作为损失函数loss,即loss=Cross_Entropylabel,pred,其中loss为损失值,label为标注向量,Cross_Entropy为交叉熵函数;使用步骤4-2中预测的相似度结果与真实标签做交叉熵计算,获得模型的预测损失值,对于训练阶段中查询集Dquery中的每条对话文本,将其表示为one-hot形式的向量作为标注向量,one-hot向量维度为L1维,每条对话文本对应的真实意图被标注为1,其余位置被标注为0;步骤4-4,梯度回归:根据步骤4-3中计算的损失,使用反向传播算法计算梯度并做反向回归,从而更新模型;步骤4-5,单步训练结束。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学,其通讯地址为:210023 江苏省南京市栖霞区仙林大道163号南京大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。