首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于词格和相对位置嵌入的中文问题生成统一预训练方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西安理工大学

摘要:本发明公开了基于词格和相对位置嵌入的中文问题生成统一预训练方法,具体包括如下步骤:对Robert参数进行领域预训练;使用半监督半人工的方式,快速且准确的生成目标领域词典;根据词典将输入中字和词的相对位置信息融入Transformer层;新建的Transformer层,通过大量开放域问答数据,进行任务预训练;生成问题的训练和推断。本发明在模型输入中加入了每个单子和领域词汇的相对位置信息,模型不仅能学到更多的位置关系也可以在针对目标领域输入生成问题时具有更好的效果。领域预训练和任务预训练也被应用于模型用于增强模型在特定领域的推断能力。基于同样的问答数据集本发明提出模型具有更好的效果。

主权项:1.基于词格和相对位置嵌入的中文问题生成统一预训练方法,其特征在于,使用了领域预训练和任务预训练,同时使用半监督半人工的方式生成领域词典,在任务预训练阶段首先将输入中的领域词汇索引记录在输入序列中位置的头和尾,并且将索引到的词汇拼接在输入序列之后,然后记录每个词和子之间的相对位置并输入到Unilm模型中最后一个自建的Transformer模块,最后的通过解码器解码得到生成的问题,具体包括如下步骤:步骤1,对Roberta参数进行领域预训练,具体步骤为:在领域预训练中模型的Transformerblock初始参数取自Wiki百科语料训练的基础Roberta,然后对互联网上爬取的领域信息文本进行模型预训练,预训练使用了Roberta的双向遮盖预训练机制和全词遮盖机制,全词遮盖中的词典使用公开的开放领域词典,来适应预训练的需要,通过使用这两种机制,我们对模型的预处理进行了优化;步骤2,使用半监督半人工的方式,快速且准确的生成目标领域词典,具体步骤为:为了更快的获取目标领域词典,使用半监督半人工的方式加快词典生成效率,首先人工选取目标领域的电子文档和开放领域的大规模词典,将目标领域文档输入命名实体识别深度学习模型,将模型识别的实体加入领域词典,然后通过基于规则的方式,将大规模开放领域的词在目标领域文本中进行索引,将索引存在的词加如目标领域词典,最后将形成的领域词典经过人工审查,形成最终的领域词汇词典;步骤3,构建特殊的mask矩阵,提高模型的生成能力,具体步骤为:在模型的训练过程中,原始文本和目标问句被拼接,然后被送入模型进行训练,其中,文本中的前半部的token可以和前后两个方向的文本进行关注,后半部的token仅仅能够关注到左边的前半部文本;步骤4,构建特殊的相对位置嵌入矩阵,根据步骤2中的词典将输入中字和词的相对位置信息融入Transformer层,具体步骤为:“相对位置嵌入”能将每个单字或词汇之间的位置关系加入到attention的计算之中,强化transformer中的注意力机制,因此在任务预训练阶段对每个单字和词汇使用了相对位置编码,同时相对位置编码可以清晰的表达出每个词汇之间的位置信息;步骤5,新建的Transformer层,继承Roberta模型第12层参数,通过大量开放域问答数据,进行任务预训练,具体步骤为:为了节省计算资源,和对较小人工标注数据集的适应,需要采用预训练模型的迁移方案来提供足够的常用百科知识和领域信息,因此,将融入了词格和相对位置编码的Transformer层继承了经过步骤1进行领域预训练的Roberta参数的最后一层,进行百科知识和领域知识的迁移;由于本模型的参数较多且人工标注的问答数据往往较少,因此加入了任务预训练,通过从网络爬取的大量开放领域的问答数据,对模型进行任务预训练,增强模型在问题生成方面的能力;步骤6,生成问题的训练和推断。

全文数据:

权利要求:

百度查询: 西安理工大学 基于词格和相对位置嵌入的中文问题生成统一预训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。