多特征融合的越南语关键词生成方法

导航：龙图腾网> 最新专利技术> 多特征融合的越南语关键词生成方法

申请/专利权人：昆明理工大学

申请日：2021-07-01

公开（公告）日：2024-05-28

公开（公告）号：CN113627170B

主分类号：G06F40/284

分类号：G06F40/284;G06F40/295;G06F40/30;G06F18/25;G06N3/045;G06N3/0442

优先权：

专利状态码：有效-授权

法律状态：2024.05.28#授权;2021.11.26#实质审查的生效;2021.11.09#公开

摘要：本发明涉及多特征融合的越南语关键词生成方法，属于自然语言处理领域。越南语关键词生成是针对越南语新闻文本进行关键词预测，得到高度概括新闻文本信息的关键词；本发明首先在编码过程中融合了词性信息、命名实体信息和位置信息。其次利用双向注意力机制增强标题信息在生成过程中的指导作用；最后将融合多种语义信息的特征向量送入解码层，输出最终预测概率分布，进而生成越南语关键词。该方法在越南语关键词生成中取得了很好的效果，为后续的文本分类，信息检索提供了支撑。

主权项：1.多特征融合的越南语关键词生成方法，其特征在于：首先在编码过程中融合了词性信息、命名实体信息和位置信息；其次利用双向注意力机制增强标题信息在生成过程中的指导作用；最后将融合多种语义信息的特征向量送入解码层，输出最终预测概率分布，进而生成越南语关键词；所述方法的具体步骤如下：Step1、爬取越南语新闻文档及关键词；Step2、对越南语新闻文档及关键词过滤筛选，对新闻文档字符长度小于50个及大于300个的文档进行删除；删除新闻文档中关键词个数小于2的文档；对越南语文档进行分词预处理，将所有数字替换为digit；Step3、采用VnCoreNLP越南语自然语言处理工具包对预处理后的越南语文档语料进行词性标注和命名实体识别，并计算词汇的位置向量来提高生成关键词的质量，计算表达式为：其中l代表词汇的位置向量，i代表新闻文档中第i个词汇的位置，n代表该新闻文档中总的词汇数目；Step4、将每个词汇的词性标注和命名实体识别映射为词性向量和命名实体向量，得到的词性向量、命名实体向量、位置向量l与原始词向量拼接，最终构成一个512维的上下文向量xi＝{riw,ripos,riner,ril}；对预处理后的越南语文档语料进行标题向量的提取；Step5、双向GRU作为编码器，输入的是带有词性向量、命名实体向量、位置向量l、原始词向量的上下文向量X＝x1,...,xi和标题向量T＝t1,...,tj；得到上下文和标题的向量表征；前向GRU从左到右读取输入序列,分别生成上下文隐藏状态序列和标题隐藏状态序列后向GRU反向读取输入序列，分别生成上下文隐藏状态序列和标题隐藏状态序列每个时间步骤中连接前向和后向的GRU隐藏状态，上下文和标题通过双向GRU最终输出隐藏状态分别为H＝h1,h2,...,hi和Q＝q1,q2,...,qj；Step6、双向注意力层的输入分别是上下文和标题的向量表征hi和qj；在这一层中，通过从上下文到标题以及从标题到上下文两个方向计算注意力；首先计算相似度矩阵Sij，计算表达式为:Sij＝αhi,qj其中Sij表示第i个上下文词和第j个标题词的相似度；α是一个可训练的标量函数，对其两个输入向量相似性进行编码；hi是H的第i个列向量，qj是Q的第j个列向量；选择其中Ws是可训练参数；Step7、从上下文到标题的注意力：上下文到标题的注意力表示哪一个标题词与上下文词最相关；ai代表第i个上下文词到标题词注意力，其中∑aij＝1；aij代表第i个上下文词到第j个标题词的注意力，注意力值的计算表达式为：ui＝softmaxSi: 从标题到上下文的注意力：标题到上下文的注意力表示哪一个上下文词与标题词最相关；bi代表标题词第i个上下文词的注意力，其中Σbij＝1；bij代表第j个标题词到第i个上下文词的注意力，注意力值的计算表达式为：vi＝softmaxS:j 将上下文向量和注意力向量组合在一起产生G＝[g1,g2,…,gi]，G的表达式为： Step8、合并层对上下文向量hi和聚合相关标题信息的向量gi进行编码，最后得到融合标题信息的上下文表示，计算表达式为：其中λ∈0,1是超参数；为融合标题信息的上下文表示；Step9、解码层使用了一个基于注意力的单向GRU进行解码，计算表达式为：其中t＝1,2,…,Ly，Ly是预测关键词的长度，et-1是第t-1个预测关键词的词嵌入，e0是起始符的词嵌入；Step10、计算第t个预测关键词在预定义词汇表V上的预测概率分布：其中yt-1＝[y1,…,yt-1]是先前的预测单词序列,wv,bv∈R|v|是可训练的参数向量；Step11、为了结合复制机制，首先在预测的每一步，通过动态计算一个生成概率gt：其中wg和bg是可训练的参数；接下来，gt用于确定是否将源文档中的单词复制为第t个目标关键词；gt对词汇分布和注意力分布进行加权平均，最终得到了动态词汇表上的最终预测概率分布v∪χ，其中χ是在源上下文中出现的所有单词；使用Pvyt和Pfinalyt来分别表示Pvyt|yt-1,X,t和Pfinalyt|yt-1,X,t：其中是ht和之间的归一化注意力得分；对于所有词表外的单词，Pvyt设置为0；如果yt没有出现在上下文里，复制概率则为0。

全文数据：

权利要求：

百度查询：昆明理工大学多特征融合的越南语关键词生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于储水桶的多重密封结构

下一篇：一种船舶圆形管件紧固装置

相关技术

一种用于储水桶的多重密封结构

一种船舶圆形管件紧固装置

一种墙面保护用裁边边压片

一种多功能存储罐应急逃生梯

一种工业物联网网关

一种具有固定结构的快客杯

自穿刺铆钉、电池及用电设备

一种奶牛饲料生产用研磨装置

一种工具携行包

一种锂电池外壳冲压设备

一种中空建筑模板送料调节装置

一种刀片可调节的修边机

关键词相关技术

一种基于历史关键词投放数据的关键词构建方法及系统_上海明略人工智能(集团)有限公司_202011079017.2

一种基于关键词的多粒度中文短文本匹配方法_重庆邮电大学_202210738535.3

关键词识别方法、装置、存储介质及电子设备_中国电信股份有限公司_202211679607.8

一种基于关键词的用户推荐浏览内容生成方法_青岛睿哲信息技术有限公司_202410031554.1

关键词推荐模型训练方法、推荐方法和装置、设备、介质_平安科技(深圳)有限公司_202210143648.9

热词抑制_谷歌有限责任公司_202410371721.7

查询词生成模型的训练方法、查询词生成方法、电子设备及介质_行吟信息科技(上海)有限公司_202211694254.9

一种文本中的敏感词快速检索方法、装置、设备及存储介质_成都飞机工业(集团)有限责任公司_202410298298.2

一种基于语义理解的离线语音命令词存储方法_成都启英泰伦科技有限公司_202410355955.2

关键点位置调整方法、装置、计算机设备及存储介质_上海哔哩哔哩科技有限公司_202211690399.1

越南语相关技术

面向多源文本的越南语语法纠错方法及装置_昆明理工大学_202410326397.7

一种唇语识别方法及装置_中国人民解放军国防科技大学_202111408286.3

一种配电柜表面警示语喷涂设备_安徽阿尔派电力科技有限公司_202322610041.X

自动化交互式越狱提示语生成方法_北京邮电大学_202311644640.1

唇部图像采集装置、唇语识别系统及在线唇语交互系统_天津大学_202111079589.5

一种基于红外微光望远镜的多源融合唇语识别方法和系统_中国人民解放军军事科学院国防科技创新研究院_202210442789.0

多特征融合的越南语关键词生成方法_昆明理工大学_202110743043.9

唇语处理方法、设备、存储介质及程序产品_北京字跳网络技术有限公司_202211436863.4

一种中文唇语识别建模单元集的构建方法_南京航空航天大学_202110017780.0

一种服务器、显示设备及推荐语生成方法_VIDAA国际控股(荷兰)公司_202410091946.7

融合相关技术

新型融合蛋白和用于预防或治疗癌症的包含该融合蛋白的药物组合物_古德T细胞有限公司_201980028463.X

基于“算测融合”的导弹数字孪生建模方法_大连理工大学_202410451810.2

基于模糊粗糙集的数据分级融合方法_大连理工大学_202410448720.8

多视频流融合方法、电子设备、存储介质_北京大视景科技有限公司_202010922428.7

用于车辆导航的雷达-摄像头融合_移动眼视觉科技有限公司_202280076986.3

基于微光+彩色可见光融合图像的方法_北京晶品特装科技股份有限公司_202410258993.6

用于融合语义要素的方法和装置_滴图(北京)科技有限公司_202211700968.6

TGF-β受体胞外域融合分子及其用途_加拿大国家研究委员会_202410363517.0

运行程序的融合方法及设备_青岛海尔洗衣机有限公司_202211693392.5

一种椎板间支撑、固定、融合装置_北京大学第三医院(北京大学第三临床医学院)_201910768087.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

多特征融合的越南语关键词生成方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务