首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

多特征融合的越南语关键词生成方法 

申请/专利权人:昆明理工大学

申请日:2021-07-01

公开(公告)日:2024-05-28

公开(公告)号:CN113627170B

主分类号:G06F40/284

分类号:G06F40/284;G06F40/295;G06F40/30;G06F18/25;G06N3/045;G06N3/0442

优先权:

专利状态码:有效-授权

法律状态:2024.05.28#授权;2021.11.26#实质审查的生效;2021.11.09#公开

摘要:本发明涉及多特征融合的越南语关键词生成方法,属于自然语言处理领域。越南语关键词生成是针对越南语新闻文本进行关键词预测,得到高度概括新闻文本信息的关键词;本发明首先在编码过程中融合了词性信息、命名实体信息和位置信息。其次利用双向注意力机制增强标题信息在生成过程中的指导作用;最后将融合多种语义信息的特征向量送入解码层,输出最终预测概率分布,进而生成越南语关键词。该方法在越南语关键词生成中取得了很好的效果,为后续的文本分类,信息检索提供了支撑。

主权项:1.多特征融合的越南语关键词生成方法,其特征在于:首先在编码过程中融合了词性信息、命名实体信息和位置信息;其次利用双向注意力机制增强标题信息在生成过程中的指导作用;最后将融合多种语义信息的特征向量送入解码层,输出最终预测概率分布,进而生成越南语关键词;所述方法的具体步骤如下:Step1、爬取越南语新闻文档及关键词;Step2、对越南语新闻文档及关键词过滤筛选,对新闻文档字符长度小于50个及大于300个的文档进行删除;删除新闻文档中关键词个数小于2的文档;对越南语文档进行分词预处理,将所有数字替换为digit;Step3、采用VnCoreNLP越南语自然语言处理工具包对预处理后的越南语文档语料进行词性标注和命名实体识别,并计算词汇的位置向量来提高生成关键词的质量,计算表达式为: 其中l代表词汇的位置向量,i代表新闻文档中第i个词汇的位置,n代表该新闻文档中总的词汇数目;Step4、将每个词汇的词性标注和命名实体识别映射为词性向量和命名实体向量,得到的词性向量、命名实体向量、位置向量l与原始词向量拼接,最终构成一个512维的上下文向量xi={riw,ripos,riner,ril};对预处理后的越南语文档语料进行标题向量的提取;Step5、双向GRU作为编码器,输入的是带有词性向量、命名实体向量、位置向量l、原始词向量的上下文向量X=x1,...,xi和标题向量T=t1,...,tj;得到上下文和标题的向量表征;前向GRU从左到右读取输入序列,分别生成上下文隐藏状态序列和标题隐藏状态序列后向GRU反向读取输入序列,分别生成上下文隐藏状态序列和标题隐藏状态序列每个时间步骤中连接前向和后向的GRU隐藏状态,上下文和标题通过双向GRU最终输出隐藏状态分别为H=h1,h2,...,hi和Q=q1,q2,...,qj;Step6、双向注意力层的输入分别是上下文和标题的向量表征hi和qj;在这一层中,通过从上下文到标题以及从标题到上下文两个方向计算注意力;首先计算相似度矩阵Sij,计算表达式为:Sij=αhi,qj其中Sij表示第i个上下文词和第j个标题词的相似度;α是一个可训练的标量函数,对其两个输入向量相似性进行编码;hi是H的第i个列向量,qj是Q的第j个列向量;选择其中Ws是可训练参数;Step7、从上下文到标题的注意力:上下文到标题的注意力表示哪一个标题词与上下文词最相关;ai代表第i个上下文词到标题词注意力,其中∑aij=1;aij代表第i个上下文词到第j个标题词的注意力,注意力值的计算表达式为:ui=softmaxSi: 从标题到上下文的注意力:标题到上下文的注意力表示哪一个上下文词与标题词最相关;bi代表标题词第i个上下文词的注意力,其中Σbij=1;bij代表第j个标题词到第i个上下文词的注意力,注意力值的计算表达式为:vi=softmaxS:j 将上下文向量和注意力向量组合在一起产生G=[g1,g2,…,gi],G的表达式为: Step8、合并层对上下文向量hi和聚合相关标题信息的向量gi进行编码,最后得到融合标题信息的上下文表示,计算表达式为: 其中λ∈0,1是超参数;为融合标题信息的上下文表示;Step9、解码层使用了一个基于注意力的单向GRU进行解码,计算表达式为: 其中t=1,2,…,Ly,Ly是预测关键词的长度,et-1是第t-1个预测关键词的词嵌入,e0是起始符的词嵌入;Step10、计算第t个预测关键词在预定义词汇表V上的预测概率分布: 其中yt-1=[y1,…,yt-1]是先前的预测单词序列,wv,bv∈R|v|是可训练的参数向量;Step11、为了结合复制机制,首先在预测的每一步,通过动态计算一个生成概率gt: 其中wg和bg是可训练的参数;接下来,gt用于确定是否将源文档中的单词复制为第t个目标关键词;gt对词汇分布和注意力分布进行加权平均,最终得到了动态词汇表上的最终预测概率分布v∪χ,其中χ是在源上下文中出现的所有单词;使用Pvyt和Pfinalyt来分别表示Pvyt|yt-1,X,t和Pfinalyt|yt-1,X,t: 其中是ht和之间的归一化注意力得分;对于所有词表外的单词,Pvyt设置为0;如果yt没有出现在上下文里,复制概率则为0。

全文数据:

权利要求:

百度查询: 昆明理工大学 多特征融合的越南语关键词生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。