首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于要素图注意力的案件舆情多文档生成式摘要方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:昆明理工大学

摘要:本发明涉及基于要素图注意力的案件舆情多文档生成式摘要方法,属于自然语言处理领域。本发明包括:构建案件舆情多文档摘要数据集;首先通过基于图注意力机制融入案件要素的方法,构建一个由句子节点、词节点以及案件要素节点组成的异构图,来捕捉句子间的关联关系,最后对句子进行分类,生成摘要。本发明采用图注意力表示不同节点的方式,通过对句子节点与要素节点之间的关联性,采用图注意力机制和更新主任务模型和辅助模型的参数。本发明通过融合案件要素并进行有效筛选包含较多关键词的句子,实现了舆情摘要的生成式工作,从获取的案件舆情数据中抽取出摘要,为后续快速了解案情、掌握和监控舆情的发展态势起到重要支撑作用。

主权项:1.基于要素图注意力的案件舆情多文档生成式摘要方法,其特征在于:所述方法的具体步骤如下:Step1、通过爬虫技术爬取案件舆情文本数据集,通过人工对数据集进行清洗、标注得到案件舆情摘要多文档数据集;构造一个包含案件名称的案件库,根据案件名称去搜索,搜索结果以网页的形式展现,以网页内容第一条为摘要,把网页第二条描述案件相关的内容定义为案件要素,经过筛选与预处理形成json格式文件;Step2、通过词嵌入和位置嵌入分别对案件舆情正文和案件要素进行特征编码,利用CNN与BiLSTM编码器提取句子特征,将获得的句子特征和案件要素特征构建异构图提取文档特征,再对文档特征采用基于图注意力机制融入案件要素的方法对句子进行有效地过滤筛选,采用图注意力同时学习和更新主任务模型和辅助模型的参数;所述Step2中包括:Step2.1、构建要素关系图构建:输入源文档是多篇文档D={d1,d2,...,dn},首先D将分成更小的语义单元段落p={p1,p2,...,pn};然后构造一个要素关系图G=V,E;V包括段落节点Vp和案件要素节点Vc,E表示节点之间的无向边,段落节点或案件要素节点内部没有边,只有段落节点和案件要素节点之间有边,pi和cj之间的边是指案件要素节点cj包含在段落节点pi中,其中pi表示第i个段落节点,cj表示第j个案件要素节点;为了获得更多的语义信息,通过融合案件要素节点与段落节点,得到关系矩阵E中的元素eij≠0时表示要素节点cj在包含在段落节点pi中,基于E,计算要素节点与段落节点间的TFIDF值,构成边的权重矩阵以建模案件要素与段落之间关系的重要性;所述Step2中包括:Step2.2、对多篇文档进行分段,然后几个token级transformer编码层堆叠在一起,对每个段落中的上下文信息进行编码,表示输入token向量,对于第l个transformer层,输入特征为隐藏状态为输出为 LayerNorm是规一化操作,MHAttn是transformer的多头注意力,FFN表示前馈神经网络,其激活函数为ReLU,将最后一层的输出作为token级特征,使用来表示token级特征矩阵,其中nw是所有段落中标记的总数,dw是标记嵌入的维数;为了获得固定长度的段落表示,应用加权合并运算,多头注意力机制计算token上的权重分布,允许模型通过不同的头在不同的子空间表示时灵活地编码段落;hp=MHPoolhw1,hw2,...3使用来表示段落的特征矩阵,n表示段落数量,dh表示隐藏层维度大小;案件要素编码器表示与段落编码器表示过程相同,但是两个编码器之间不共享参数,在统一的语义空间中建模段落和案件要素之间的关系;删除案件要素中的代词和停止词,分别用和来表示token级特征矩阵和案件要素级特征矩阵;其中mw表示案件要素通过分词后获得token级特征的总数,m表示案件要素数目;所述Step2中包括:Step2.3、使用图注意力网络GAT来更新语义节点的表示;i,j∈{1,2,...,m+n}表示图中的任意节点,用表示节点表示,用Ni表示节点i的相邻节点集,GAT层设计如下:zij=LeakyReLUWa[Wqhi;Wkhj]4 其中Wa,Wq,Wk,Wv表示可训练权重,σ是sigmoid激活函数,是从TFIDF值矩阵导出的边权重,其思想是通过将实数值离散成整数来表示边权重,然后学习整数的嵌入,将权重映射到多维嵌入空间这样,值中包含的信息需要通过附加的嵌入矩阵来学习,TFIDF值表明了案件要素节点和段落节点之间的接近程度,因此,通过使用式5更新注意力权重,直接将原始TFIDF信息合并到GAT机制中;将图注意力机制GAT和多头操作相结合得到hi,添加了一个残差连接,以避免在几次迭代后梯度消失: 使用上面的GAT层和位置前馈层来迭代更新节点表示;每个迭代包含一个段落到案件要素和案件要素到段落的更新过程,迭代t次后,将表示每个输入特征矩阵; 表示通过案件要素更新后的段落特征矩阵;其中nc表示要素节点的数目,dc表示要素节点的输入维度,dh表示上下文维度;所述Step2中包括:Step2.4、在每个解码步骤中,解码器的状态是s,计算案件要素节点ci的注意力得分: 式10中表示经过训练后获得的转置矩阵,Wq,Wk是可训练参数,zi是状态s时注意力系数; 式11中是从TFIDF值矩阵导出的边权重,表示段落节点系数,式11通过要素节点与段落节点之间的信息流动; 式12通过归一化操作,加权求和后经过一个激活函数,得到要素节点的注意力权重;选择注意力得分βj最高的前k个段落节点,然后对所选段落节点中的Tw个tokens采用注意力机制; 式13中表示经过训练后获得的转置矩阵,Wq,Wk是可训练参数,zwi是状态s时段落节点token级的注意力系数,表示段落经过分词后获得的token级的上下文向量; 式14通过归一化操作,加权求和后经过一个激活函数,得到段落节点中token级的注意力权重;选择注意力得分βj最高的前k个段落节点,然后对所选段落中的Tw个tokens应用注意力机制; 式15通过要素节点注意力βj与token级的段落特征聚合,得到两级注意力机制的token级的段落特征, 式16中表示token级的上下文向量,经过与两级注意力机制的token级的段落特征加权求和后,最终得到段落上下文向量表示vt;将上下文向量作为从源文档中摘要生成出来的显著信息,与解码器隐藏状态st连接,得到词汇表分布:Pvocab=SoftmaxWo[st;vt]17式17通过隐藏状态st与段落上下文向量表示vt拼接,再与可训练矩阵参数W0经过归一化操作得到最终的解码结果;Step2.5、进行摘要生成:最后选择Adam优化器,基于训练数据迭代地更新神经网络权重,用训练好的神经网络进行摘要生成。

全文数据:

权利要求:

百度查询: 昆明理工大学 基于要素图注意力的案件舆情多文档生成式摘要方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。