基于鹦鹉复述生成器的抽取式问答数据增强方法

导航：龙图腾网> 最新专利技术> 基于鹦鹉复述生成器的抽取式问答数据增强方法

申请/专利权人：江西师范大学

申请日：2023-11-09

公开（公告）日：2024-02-23

公开（公告）号：CN117216231B

主分类号：G06F16/332

分类号：G06F16/332;G06F16/33;G06F16/335;G06F16/35;G06F40/194;G06F40/30

优先权：

专利状态码：有效-授权

法律状态：2024.02.23#授权;2023.12.29#实质审查的生效;2023.12.12#公开

摘要：本发明公开了基于鹦鹉复述生成器的抽取式问答数据增强方法，从阅读理解问答数据集中选取的八种不同类型的数据集中随机采样获得不同样本数的子数据集，从子数据集中获取原问题，输入鹦鹉复述生成器中生成具有多样性的新问题；将生成的新问题和原问题一起输入充分性过滤器；然后将过滤后的新问题输入流利性过滤器；再将过滤后的新问题和原问题一起输入复述选择器中；最后得到的新问题与对应原问题的文本和答案组合构成增强后的子数据集。将被过滤掉的新问题输入预训练语言模型得到负样本答案，利用对比学习方法计算出目标损失，将增强后的子数据集作为微调的输入，同时将对比学习目标损失加入微调总损失，从而提升微调后预训练语言模型性能。

主权项：1.基于鹦鹉复述生成器的抽取式问答数据增强方法，其特征在于：方法步骤如下：步骤S1，数据集构建；在共享数据集获得八组不同的子数据集；步骤S2，少资源抽取式问答任务形式化定义；给定N条问答对的数据集，为第1个问答对，为第2个问答对，为第N个问答对；由三元组组成，；C为每个问答对中的文本，Q为每个问答对中的原问题，A为每个问答对中原问题的原答案；步骤S3，鹦鹉复述生成器为预训练语言模型进行下游任务微调过程的入口，输入步骤S1中的子数据集中的数据；从子数据集中提取出每个问答对中的原问题Q，将每个问答对中的原问题Q输入到鹦鹉复述生成器，生成每个问答对中的原问题对应生成的新问题；步骤S4，将步骤S3获得的每个问答对中的原问题对应生成的新问题和对应的每个问答对中的原问题Q一起输入到充分性过滤器中，保留下来得分高于或等于超参数充分性阈值的经过充分性过滤器筛选后的新问题；步骤S5，将步骤S4保留下来的经过充分性过滤器筛选后的新问题输入到流利性过滤器中，保留下来得分高于或等于超参数流利性阈值的经过流利性过滤器筛选后的新问题；步骤S6，将步骤S5保留下来的经过流利性过滤器筛选后的新问题和对应的每个问答对中的原问题Q一起输入到复述选择器中，保留下来得分高于或等于超参数相似度阈值的经过复述选择器筛选后的新问题；步骤S7，将步骤S4，S5和S6过程中过滤掉的新问题称为负样本问题，将负样本问题输入预训练语言模型中，得到对应的负样本答案，并利用对比学习方法计算出该负样本答案的负样本得分，同样用对比学习方法计算每个问答对中原问题的原答案A的得分G；步骤S8，对于每个问答对中的负样本答案，计算其词语级别的对比学习的目标损失；步骤S9，将经过复述选择器筛选后的新问题、对应的每个问答对中的原问题Q的问答对中的文本C、对应的每个问答对中的原答案A组合，构成增强后的子数据集，输入到预训练语言模型中进行针对下游任务的微调过程，并且将步骤S8中计算出来的对比学习的目标损失加入到预训练语言模型微调过程中的总损失L中；基于鹦鹉复述生成器的抽取式问答数据增强方法分为鹦鹉复述生成器、充分性过滤器、流利性过滤器、复述选择器四个大模块，四个大模块之间呈串行结构；其中鹦鹉复述生成器具体内容包括：基于转换器的T5模型，使用转换器架构中的编码器结构和解码器结构，编码器结构由多层双向编码器组成，解码器结构由多层解码器组成，解码方式采用波束搜索，能够有效生成新句子，获得语义特征；基于转换器的T5模型进行自回归语言生成任务，一个文本序列的概率分布分解为每个词基于其上文的条件概率的乘积；每个问答对中的原问题Q输入到预训练好的基于转换器的T5模型中，新生成句子中每一个词的概率分布，计算过程如式（3）所示；（3）；其中，为新生成句子中每一个词的概率分布，为生成的新问题从第1个字到第J个字，是初始上下文单词序列，生成的新问题的长度J是动态的，为当前预测的字的位置，为新问题中第l个字，为新问题从第1个字到第个字，当时，。

全文数据：

权利要求：

百度查询：江西师范大学基于鹦鹉复述生成器的抽取式问答数据增强方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种工业物联网网关

下一篇：一种移动式自填充胶枪

相关技术

一种工业物联网网关

一种移动式自填充胶枪

一种护理液调和储存罐

一种船舶圆形管件紧固装置

自穿刺铆钉、电池及用电设备

一种互动茶几安全防护围挡

一种高层建筑双水系统分布式空调热交换装置

一种地垫

铠甲式轮胎保护链

一种船舶舷外机通风型保护罩

一种低温拉伸实验箱

一种金属管件抛光打磨装置

式相关技术

浮标式发电组件_黄送煌_202210052342.2

电极式加湿器_珠海格力电器股份有限公司_202410462394.6

主动式触控笔_株式会社和冠_202011533174.6

跨乘式车辆_雅马哈发动机株式会社_202311808269.8

挂式空调_海信空调有限公司_202322359758.1

跨乘式车辆_雅马哈发动机株式会社_202311807345.3

泵式磁阻电机_杭州硅湾智能装备有限公司_202211698391.X

带式输送设备_温州方诚工业自动化科技有限公司_202323026770.7

爬坡式平车系统_江苏鼎力重工集团有限公司_202322807116.3

非接触式按钮_达运精密工业股份有限公司_202410359397.7

问答相关技术

问答结果溯源方法、装置、设备、介质及程序产品_中国电子技术标准化研究院_202410303716.2

无负担问答式c-VEP身份识别方法_福州大学_202111609672.9

一种特种设备维护问答系统的中文分词方法_四川省特种设备检验研究院_202410334443.8

一种基于语义识别的在线问答方法、系统和存储介质_国投人力资源服务有限公司_202410011779.0

问答知识的提取方法、提取装置与计算机可读存储介质_北京捷通华声科技股份有限公司_202010615397.0

基于跨模态提示学习的视频问答方法与系统_湖南大学_202210510047.7

基于大语言模型的问答方法、装置、电子设备及存储介质_中国电子技术标准化研究院_202410295644.1

基于大模型的垂直领域的问答方法及系统_甄觉科技(上海)有限公司_202410299787.X

一种基于物联网时序数据的问答预测系统及方法_南京智鹤电子科技有限公司_202410461035.9

基于双向注意力机制的智能问答方法、装置、设备及介质_平安科技(深圳)有限公司_202111272538.4

抽取相关技术

胰岛素微量定量抽取工作平台_复旦大学附属肿瘤医院_202322381581.5

基于BiLSTM结合全局指针的重叠关系抽取系统_重庆邮电大学_202210593426.7

预制菜包装的汤汁抽取机构_广州盘中鲜食品有限公司_202322693379.6

一种重症领域知识自动抽取的实现方法及系统_青岛市中心医院_202410439025.5

一种大液量液体自动抽取配制装置_首都儿科研究所附属儿童医院_202410407171.X

一种便于抽取药液的注射器胶塞_常州京林医疗器械有限公司_202322154313.X

方便抽取的湿巾/纸巾及湿巾/纸巾盒_河南逸祥卫生科技有限公司_202321809844.1

一种LED地砖灯真空抽取封装设备_江苏品正光电科技有限公司_202410675295.6

一种联合实体抽取的漏洞归一化深度学习方法_中国人民解放军61660部队_202410342072.8

基于BiLSTM结合多头注意力的中文重叠事件抽取系统_重庆邮电大学_202210656832.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于鹦鹉复述生成器的抽取式问答数据增强方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务