首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种提高数据意图识别能力的文本数据增强方法及装置 

申请/专利权人:杭州师范大学

申请日:2022-06-09

公开(公告)日:2024-06-28

公开(公告)号:CN114896372B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/35;G06F40/211;G06F40/289;G06F40/30;G06F18/24;G06N3/048;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.06.28#授权;2022.08.30#实质审查的生效;2022.08.12#公开

摘要:本发明公开一种提高数据意图识别能力的文本数据增强方法及装置,该方法基于依存句法解析树,将具有相同结构的依存句法解析子树的部分句子进行混合数据增强,具有不相同结构的依存句法解析子树的部分句子输入到掩码语言模型中进行预测。通过所述方法可以将一个少样本的数据集扩增为一个形式丰富的数据集,从而可以用意图分类识别的训练任务,提高其识别能力,增强其鲁棒性。

主权项:1.一种提高数据意图识别能力的文本数据增强方法,其特征在于,包括:步骤1、使用自然语言处理技术将待增强文本数据进行分词、词性标注和依存句法分析,从而生成每个句子的依存句法解析树;所述依存句法解析树的每个节点包含分词和所述分词所属的依存关系;同时对每个句子进行标注,标注的标签为所属类别;步骤2、遍历所有句子,对每个句子Si,i=1,2,…,N进行数据增强,直至完成所有句子的数据增强,具体如下:2-1遍历所有句子,对句子Si,i=1,2,…,N与其他句子Sj,j=1,2,...,N,i≠j进行依存句法解析树分析,获得多个当前句子Si与其他句子Sj,j=1,2,...,N,i≠j具有相同树结构部分和不同树结构部分,其中与其他句子具有相同树结构部分记为具有相同结构的依存句法解析子树,与其他句子具有不同树结构部分记为具有不相同结构的依存句法解析子树;2-2对句子Si的与句子Sj具有相同结构的依存句法解析子树进行混合数据增强;具体是:2-2-1判断当前依存句法解析子树是否满足树高度小于预设值P,若否则不做操作;若是则继续判断句子Si与句子Sj的当前依存句法解析子树上节点对应的分词是否相同,若相同则将句子Si中当前依存句法解析子树所有节点对应分词使用词向量模型进行语义替换,若不同则跳转至步骤2-2-2;2-2-2判断当前依存句法解析子树上节点对应分词的标签是否相同,若相同则将句子Si与句子Sj具有相同结构的依存句法解析子树所有节点对应分词进行随机替换,若不同则将句子Si与句子Sj具有相同结构的依存句法解析子树所有节点对应分词进行随机替换,并把类别标签按照替换后的节点数量在当前依存句法解析子树节点数量的比例作为新的标签;2-3、将句子Si的与句子Sj具有不相同结构的依存句法解析子树节点对应的分词输入到掩码语言模型中进行预测;2-4、将步骤2-2和步骤2-3的输出数据进行拼接,数据标签更新与步骤2-2中的标签保持一致;2-5、重复步骤2-1至2-4直至完成句子Si与所有句子的依存句法解析树分析与数据增强。

全文数据:

权利要求:

百度查询: 杭州师范大学 一种提高数据意图识别能力的文本数据增强方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。