首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于鹦鹉复述生成器的抽取式问答数据增强方法 

申请/专利权人:江西师范大学

申请日:2023-11-09

公开(公告)日:2024-02-23

公开(公告)号:CN117216231B

主分类号:G06F16/332

分类号:G06F16/332;G06F16/33;G06F16/335;G06F16/35;G06F40/194;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2024.02.23#授权;2023.12.29#实质审查的生效;2023.12.12#公开

摘要:本发明公开了基于鹦鹉复述生成器的抽取式问答数据增强方法,从阅读理解问答数据集中选取的八种不同类型的数据集中随机采样获得不同样本数的子数据集,从子数据集中获取原问题,输入鹦鹉复述生成器中生成具有多样性的新问题;将生成的新问题和原问题一起输入充分性过滤器;然后将过滤后的新问题输入流利性过滤器;再将过滤后的新问题和原问题一起输入复述选择器中;最后得到的新问题与对应原问题的文本和答案组合构成增强后的子数据集。将被过滤掉的新问题输入预训练语言模型得到负样本答案,利用对比学习方法计算出目标损失,将增强后的子数据集作为微调的输入,同时将对比学习目标损失加入微调总损失,从而提升微调后预训练语言模型性能。

主权项:1.基于鹦鹉复述生成器的抽取式问答数据增强方法,其特征在于:方法步骤如下:步骤S1,数据集构建;在共享数据集获得八组不同的子数据集;步骤S2,少资源抽取式问答任务形式化定义;给定N条问答对的数据集,为第1个问答对,为第2个问答对,为第N个问答对;由三元组组成,;C为每个问答对中的文本,Q为每个问答对中的原问题,A为每个问答对中原问题的原答案;步骤S3,鹦鹉复述生成器为预训练语言模型进行下游任务微调过程的入口,输入步骤S1中的子数据集中的数据;从子数据集中提取出每个问答对中的原问题Q,将每个问答对中的原问题Q输入到鹦鹉复述生成器,生成每个问答对中的原问题对应生成的新问题;步骤S4,将步骤S3获得的每个问答对中的原问题对应生成的新问题和对应的每个问答对中的原问题Q一起输入到充分性过滤器中,保留下来得分高于或等于超参数充分性阈值的经过充分性过滤器筛选后的新问题;步骤S5,将步骤S4保留下来的经过充分性过滤器筛选后的新问题输入到流利性过滤器中,保留下来得分高于或等于超参数流利性阈值的经过流利性过滤器筛选后的新问题;步骤S6,将步骤S5保留下来的经过流利性过滤器筛选后的新问题和对应的每个问答对中的原问题Q一起输入到复述选择器中,保留下来得分高于或等于超参数相似度阈值的经过复述选择器筛选后的新问题;步骤S7,将步骤S4,S5和S6过程中过滤掉的新问题称为负样本问题,将负样本问题输入预训练语言模型中,得到对应的负样本答案,并利用对比学习方法计算出该负样本答案的负样本得分,同样用对比学习方法计算每个问答对中原问题的原答案A的得分G;步骤S8,对于每个问答对中的负样本答案,计算其词语级别的对比学习的目标损失;步骤S9,将经过复述选择器筛选后的新问题、对应的每个问答对中的原问题Q的问答对中的文本C、对应的每个问答对中的原答案A组合,构成增强后的子数据集,输入到预训练语言模型中进行针对下游任务的微调过程,并且将步骤S8中计算出来的对比学习的目标损失加入到预训练语言模型微调过程中的总损失L中;基于鹦鹉复述生成器的抽取式问答数据增强方法分为鹦鹉复述生成器、充分性过滤器、流利性过滤器、复述选择器四个大模块,四个大模块之间呈串行结构;其中鹦鹉复述生成器具体内容包括:基于转换器的T5模型,使用转换器架构中的编码器结构和解码器结构,编码器结构由多层双向编码器组成,解码器结构由多层解码器组成,解码方式采用波束搜索,能够有效生成新句子,获得语义特征;基于转换器的T5模型进行自回归语言生成任务,一个文本序列的概率分布分解为每个词基于其上文的条件概率的乘积;每个问答对中的原问题Q输入到预训练好的基于转换器的T5模型中,新生成句子中每一个词的概率分布,计算过程如式(3)所示; (3);其中,为新生成句子中每一个词的概率分布,为生成的新问题从第1个字到第J个字,是初始上下文单词序列,生成的新问题的长度J是动态的,为当前预测的字的位置,为新问题中第l个字,为新问题从第1个字到第个字,当时,。

全文数据:

权利要求:

百度查询: 江西师范大学 基于鹦鹉复述生成器的抽取式问答数据增强方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。