首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

规程复述匹配方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中核武汉核电运行技术股份有限公司

摘要:本公开属于核电技术领域,具体涉及规程复述匹配方法及装置。本公开提出了一种基于深度学习和余弦相似度匹配算法的规程复述匹配方法,整合词语的语义信息。其中,词格图特征表达,将文本信息表达为图结构的方式,词汇之间的关系可以用图的边表示。语言知识注意力模型可以将上下文进行联系,并处理单词的歧义问题,实现对文本的字词进行模糊匹配,对文本的语义进行精确匹配。此外,本公开结合核电专业词汇库、规程文本图结构表示和预训练语言模型,用于解决人员复述时,复述文本与原规程文本语义相同,词汇不同,难以进行精确匹配的问题。

主权项:1.一种规程复述匹配方法,其特征在于,所述方法包括:步骤1,对输入文本对进行词嵌入计算和语义嵌入计算,包括:通过上下文字符表示的注意力池化模型将输入文本中第i个字符xi用特征向量wi表示,wi由一些连续的字符tokens{ct1,ct1+1,···,ct2}组成,对于wi中的每个字符ck,t1≤k≤t2,采用两层的前馈网络FFN计算一个基于特征的得分向量Ck,然后采用式一确定字符ck的得分向量Ck的归一化得分Uk:Uk=MD-softmaxkFFNCk式一;采用式二将字符ck的得分向量Ck与归一化得分Uk进行加权,得到wi的上下文词向量vi: 使用Att-Pooling·池化计算函数对上下文词向量进行转化,降低词向量的特征维度,最终输出的是低维度的上下文词向量Vi;Vi=Att-Pooling{ck|t1≤k≤t2}步骤2,核电专业词汇库的引入:对于每个单词wi,将wi的词义集合表示为Swi={si,1,si,2,···,si,K},si,k是wi的第k个义原,义原表示为词语最小的语义单元,表示其对应的义原为Osi,k,采用式三确定每个义原的多维注意力Osi,k: 其中,e是义原o的嵌入向量;采用式四对所有义原表示的注意力池化得到每个义原si,k的嵌入: 步骤3,构建语言知识注意力模型,包括:步骤31,采用式五进行更新语义表达,根据句子中的上下文语境更新词的表达,每个词义将首先从字符xi的前向和后向聚合单词的有用信息; 其中h表示隐含层中文本的特征向量,其中,两个多维注意力函数MD-GAT·具有不同的参数,步骤32,采用式六更新词表达,经过多次迭代,最终的词表示不仅包含上下文单词信息,还包含语义知识;对于每个句子,使用hi分别表示最终的单词表示; 步骤4,在获取了每个句子的语义知识增强的词表示后,采用式七将这些词信息融合到字符的特征向量表达中,从而得到语义知识增强的字符表示yt; 其中LayerNorm·表示层规范化,cat是使用BERT获得的上下文字符表示;对于每个字符cat,采用式八利用多维注意力分别从句子Ca和Cb中聚合信息; 上述多维注意力函数MD-GAT·共享相同的参数,通过这种共享机制,该模型具有一个很好的特性,即当两个句子完全匹配时有:采用多角度余弦距离进行比较:通过P个距离d1、d2、···、dP,得到最终的字符表示: 最终的字符表示包含:字符的上下文信息、字符的词义知识和字符级相似度;对于每个句子Ca或Cb,使用句子所有最终字符表示的注意力池化得到句子表示向量ra或rb;采用式十预测原核电文本和复述句子的相似度;p=FFN[ccls,ra,rb,ra⊙rb,|ra-rb|]式十其中FFN·是一个前馈网络,有两个隐藏层,在输出层之后有一个sigmoid激活,采用训练目标是最小化二元交叉熵损失:

全文数据:

权利要求:

百度查询: 中核武汉核电运行技术股份有限公司 规程复述匹配方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术