买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国矿业大学
摘要:本发明涉及一种面向煤矿安全规程的检索式智能问答系统及方法,适用于煤矿数据信息化领域。包括候选文档检索模块、问答对数据生成和管理模块和阅读理解式答案抽取模块,其中候选文档检索模块分别与问答对数据生成和管理模块和阅读理解式答案抽取模块连接,问答对数据生成和管理模块与阅读理解式答案抽取模块连接;其中候选文档检索模块包括文档存储和管理子模块和检索子模块。整个系统简单,使用方便,时间和空间开销低,整体实现用户与系统在字词、语义级别上的信息交互,实现面向煤矿安全规程的用户自然语言问题答案自动生成。
主权项:1.一种面向煤矿安全规程的检索式智能问答系统,其特征在于:它包括候选文档检索模块、问答对数据生成和管理模块和阅读理解式答案抽取模块,其中候选文档检索模块分别与问答对数据生成和管理模块和阅读理解式答案抽取模块连接,问答对数据生成和管理模块与阅读理解式答案抽取模块连接;其中候选文档检索模块包括文档存储和管理子模块和检索子模块;候选文档检索模块:用于实现煤矿安全规程文档集合的存储,然后根据用户在线提出的问题,进行问题-候选文档信息检索;文档存储和管理子模块:使用非结构化数据库存储煤矿安全规程文档集合,文档的划分遵循问答对数据生成和管理模块的划分原则,映射创建过程包括中文分词、去停用词和建立倒排索引,后续有规程文档需要扩充时,直接在已创建的映射上导入文本数据;检索子模块用于得到与问题匹配度最高的目标文档,使用组合查询方式在文档集合中进行全文搜索,返回相关度得分高的前N篇文档,即实现候选文档的信息检索;问答对数据生成和管理模块:用于构建煤矿安全规程问答数据集,并将问答数据集生成阅读理解式问答模型的训练数据集;其中问答对生成模型结合BERT和UNILM生成解码器-编码器结构,利用BERT编码预训练权重做初始化,借助预训练语言模型BERT的特征表达能力,辅助加快问答对生成模型的收敛;利用BERT在深程度上的语句甚至篇章层面的语义信息加快问答对生成模型自身的收敛;同时在BERT进行下游任务微调训练阶段,使用UNILM中序列到序列语言模型的注意力矩阵AttentionMask进行掩盖优化训练,赋予问答对生成模型文本生成能力;结合UNILM进行掩盖优化训练,赋予问答对生成模型文本生成能力;问答对生成模型输入是输入序列的三种向量之和,三种向量分别为词向量,句段向量和位置向量,内部Transformer结构编码器采用双向编码,直接通过全注意力机制获取高注意力分配的词汇信息作为待提问的内容,即问题答案,然后再作为信息输入解码部分,此解码器负责根据融合了全文信息的文档的特征向量用E、问题答案和已生成问题序列进行单向解码生成目标问题序列;通过该模型生成的数据的特色是首先保证问题答案来源于现有文档,为煤安规程中重要信息点,且呈现出问题—答案—文档一一对应关系,保障将其加入问答数据集的可行性和可靠性;阅读理解式答案抽取模块:用于基于高层语义特征层面判断候选文档是否包含问题答案,且实现精准回答方式,在文档中抽取准确的答案,具体包括阅读理解式问答模型的设计、训练和预测。
全文数据:
权利要求:
百度查询: 中国矿业大学 一种面向煤矿安全规程的检索式智能问答系统及方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。