一种基于关键词的多粒度中文短文本匹配方法

导航：龙图腾网> 最新专利技术> 一种基于关键词的多粒度中文短文本匹配方法

申请/专利权人：重庆邮电大学

申请日：2022-06-24

公开（公告）日：2024-06-28

公开（公告）号：CN115114932B

主分类号：G06F40/30

分类号：G06F40/30;G06F40/289;G06F40/211;G06N3/048;G06N3/0455;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.06.28#授权;2022.10.18#实质审查的生效;2022.09.27#公开

摘要：本发明涉及一种基于关键词的多粒度中文短文本匹配方法，属于自然语言处理领域，包括以下步骤：S1：将句子分为字和词两个粒度，将两个粒度的句子统一填充到长度N，在对应数据集上训练Word2Vec，获得字和词两个粒度的嵌入表示；S2：用两个BiGRU对句子向量进行编码，获得句子两个方向的上下文信息；S3：用交叉注意力获得字粒度特征和词粒度特征之间的关联，再对其及逆行平均池化并连接获得句子最终的表示向量；S4：连接两句子的词粒度嵌入向量，用11层Transformer编码器和一层关注关键词的Transformer进行编码；S5：连接关键词特征和两句子的表示向量作为最终的预测向量。

主权项：1.一种基于关键词的多粒度中文短文本匹配方法，其特征在于：包括以下步骤：S1：多粒度词嵌入：将句子分为字和词两个粒度，将两个粒度的句子统一填充到长度N，在对应数据集上训练Word2Vec，获得字和词两个粒度的嵌入表示S2：上下文编码：用两个BiGRU对句子向量进行编码，获得句子两个方向的上下文信息；S3：句子特征融合：用交叉注意力获得字粒度特征和词粒度特征之间的关联，再对其及逆行平均池化并连接获得句子最终的表示向量；S4：关键词特征提取：连接两句子的词粒度嵌入向量，用11层Transformer编码器和一层关注关键词的Transformer进行编码；所述关注关键词的Transformer是指在Transformer的自注意力层中，句子一对句子二做注意力操作时只关注句子二的关键词，反之亦然；S5：特征融合：连接关键词特征和两句子的表示向量作为最终的预测向量；步骤S1中，通过词粒度信息提取模块和字粒度信息提取模块进行；词粒度信息提取模块先将中文句子切分为基于词语的句子表示，再将句子填充到相同的长度N；通过在目标数据集上训练Word2Vec获得词语级别的嵌入向量；字粒度信息提取模块先将中文句子切分为基于字的句子表示，再将句子填充到相同的长度N；通过在目标数据集上训练Word2Vec获得字粒度的嵌入向量；步骤S2中，获得句子两个方向的上下文信息，具体通过以下方式计算：其中，表示句子一字粒度的上下文表示向量，表示句子一字粒度的嵌入向量；句子一词粒度的上下文表示向量句子二字粒度的上下文表示向量句子二词粒度的上下文表示向量也用同样的方式计算；步骤S3具体通过以下方式计算：其中，S1表示句子一的最终表示向量；句子二的最终表示向量S2也用同样的方式计算。

全文数据：

权利要求：

百度查询：重庆邮电大学一种基于关键词的多粒度中文短文本匹配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种无纺布绑袋

下一篇：一种奶牛饲料生产用研磨装置

相关技术

一种无纺布绑袋

一种奶牛饲料生产用研磨装置

一种中空建筑模板送料调节装置

一种用于储水桶的多重密封结构

一种金属管件抛光打磨装置

一种高层建筑双水系统分布式空调热交换装置

一种基于防潮功能的变频器控制箱

自穿刺铆钉、电池及用电设备

一种可控制持握角度的羽毛球拍

一种低温拉伸实验箱

一种颈部支撑可调节的枕头

一种羊毛毡制作用压实机

中文相关技术

一种特种设备维护问答系统的中文分词方法_四川省特种设备检验研究院_202410334443.8

一种基于关键词的多粒度中文短文本匹配方法_重庆邮电大学_202210738535.3

基于BiLSTM结合多头注意力的中文重叠事件抽取系统_重庆邮电大学_202210656832.3

一种基于汉字多维矩阵生成唯一中文ID的系统及方法_上海通办信息服务有限公司_202311586573.2

中文文本的转换方法、装置、设备及介质_中国平安财产保险股份有限公司_202111215392.X

一种中文书法练习装置_盘锦职业技术学院_202322619953.3

基于深度范例的中文文本识别方法_复旦大学_202410188396.0

一种中文作文句评输出方法_北京阅神智能科技有限公司_202111015051.8

一种文档中文本内容的排版方法及装置_珠海金山办公软件有限公司_202010005498.6

一种中文输入法及基于本输入法的键盘_朱新杰_202410543093.6

短相关技术

一种短边无A面组件边框_一道新能源科技股份有限公司_202322761716.0

短睡眠时长计算方法、装置和车辆_长城汽车股份有限公司_202410357464.1

一种能够缓解便秘的短双歧杆菌及其应用_善恩康生物科技(苏州)有限公司_202410676683.6

一种上拉式短肢悬挑承力架_四川省铁路建设有限公司_202322741732.3

一种大尺寸低稀土高强镁合金挤压材短流程制备方法_太原科技大学_202410437007.3

一种短应力轧机复合铜螺母的制造方法及其制造设备_上海米右智能科技有限公司_202410382120.6

环修饰的脯氨酸短肽化合物及其应用_福建广生中霖生物科技有限公司_202410386257.9

一种短肽偶联药物及其制备方法和应用_常州市智态生创科技有限公司_202311385577.4

短双岐杆菌、微生态制剂及其在抗抑郁中的应用_善恩康生物科技(苏州)有限公司_202410676690.6

一种多次开关循环控制短节及井漏事故旁通堵漏方法_四川奥美华能源科技有限公司_202410691966.8

文本相关技术

文本识别模型训练方法、文本识别方法、装置及存储介质_北京百度网讯科技有限公司_202310019561.5

编码器优化的文本渲染_安讯士有限公司_202311785952.4

文本情感分析方法和装置_北京百度网讯科技有限公司_202110818598.5

文本处理方法及装置_华为技术有限公司_201911335070.1

文本识别方法和装置_深圳市星桐科技有限公司_202210660171.1

一种文本标注方法及软件产品_深圳思为科技有限公司_202111408204.5

识别图像中文本的方法、装置和系统_华为技术有限公司_201911391341.5

文本信息的确定方法及电子设备_联想(北京)有限公司_202410323963.9

文本识别方法、装置、设备及存储介质_深圳市星桐科技有限公司_202210661531.X

一种文本生成方法及装置_北京深言科技有限责任公司_202410250261.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于关键词的多粒度中文短文本匹配方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务