基于文本语义匹配的Stack Overflow相关问答检索方法

导航：龙图腾网> 最新专利技术> 基于文本语义匹配的Stack Overflow相关问答检索方法

申请/专利权人：华南理工大学

申请日：2022-05-12

公开（公告）日：2024-06-28

公开（公告）号：CN115017279B

主分类号：G06F16/332

分类号：G06F16/332;G06F16/31;G06F40/30;G06F18/214;G06N3/0442;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.06.28#授权;2022.09.23#实质审查的生效;2022.09.06#公开

摘要：本发明公开了一种基于文本语义匹配的StackOverflow相关问答检索方法，包括：利用StackOverflow的问答数据集构建语料库并训练词向量；构建并训练一个文本语义匹配的深度模型，深度模型包括：词向量层、BiLSTM、交互注意力矩阵、多角度融合、池化层、多层次卷积结构和全连接层；基于深度模型预测查询和候选问答的语义相关性的大小将候选问答排序，排序后的候选问答作为检索结果。本发明基于文本语义匹配检索编程论坛StackOverflow上的相关问答，使用交互注意力矩阵、多角度融合、池化层来深化BiLSTM的特征提取，同时利用多层次卷积结构从另一个角度丰富BiLSTM的特征提取，可提取到多种的文本语义匹配信息，进一步提升StackOverflow相关问答的检索性能。

主权项：1.基于文本语义匹配的StackOverflow相关问答检索方法，其特征在于，包括以下步骤：1获取StackOverflow的问答数据集，并对问答数据集的文本进行预处理，包括清洗文本、分词、移除停用词和低频词以及词干化；将预处理后的问答数据集的文本构建成语料库，基于语料库训练词向量；将预处理后的问答数据集的文本构建成查询和候选问答的文本对，并把查询和候选问答的文本对按比例划分为训练集和测试集；2构建一个文本语义匹配的深度模型，利用步骤1所述的训练集对构建的深度模型进行训练，得到最优模型；其中，所述的深度模型基于双向长短期记忆网络BiLSTM进行改进，其情况为：基于步骤1所训练的词向量构造的词向量层，将查询和候选问答的文本对转换为查询向量与候选问答向量；采用BiLSTM将查询向量和候选问答向量转换为查询的上下文向量与候选问答的上下文向量；在BiLSTM后计算查询的上下文向量和候选问答的上下文向量之间的交互注意力矩阵，利用交互注意力矩阵分别获取查询的语义交互向量和候选问答的语义交互向量，这一步目的是提取语义交互特征，促进查询和候选问答的文本对之间的语义信息交流；采用多角度融合，以几种不同的计算方式把查询和候选问答各自的上下文向量和语义交互向量进行融合，得到查询的融合向量和候选问答的融合向量；采用池化层，以进一步突出多角度融合的效果，利用最大池化和平均池化从查询的融合向量和候选问答的融合向量提取查询的序列匹配向量和候选问答的序列匹配向量；采用多层次卷积结构，以丰富特征提取，多层次卷积结构根据BiLSTM生成的查询的上下文向量与候选问答的上下文向量来提取查询的卷积匹配向量和候选问答的卷积匹配向量；结合查询的序列匹配向量、候选问答的序列匹配向量、查询的卷积匹配向量和候选问答的卷积匹配向量，采用一个多层的全连接层进行语义相关性的预测；3利用步骤2得到的最优模型，预测步骤1所述的测试集的查询和候选问答的文本对之间的语义相关性，根据相关性的大小排列候选问答，排序后的列表作为检索结果。

全文数据：

权利要求：

百度查询：华南理工大学基于文本语义匹配的Stack Overflow相关问答检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：建筑工程管理招标装置

下一篇：一种厌氧罐进水分布机构

相关技术

建筑工程管理招标装置

一种厌氧罐进水分布机构

一种带支架的手把及设有该手把的行李箱

一种无纺布绑袋

一种工业废物焚烧处理用尾气吸收设备

一种装配式铝方通转角拼接结构

一种移动式自填充胶枪

一种电表排母接口测量装置

一种可控制持握角度的羽毛球拍

一种具有固定结构的快客杯

一种改良聚乙烯颗粒物挤出成型设备

一种高层建筑双水系统分布式空调热交换装置

Overflow相关技术

基于Stack Overflow网站获取Web API知识的系统和方法_上海交通大学_202010301685.9

基于文本语义匹配的Stack Overflow相关问答检索方法_华南理工大学_202210513871.8

基于Glove和RNN的Stack Overflow论坛问题贴提问目的预测方法_南通大学_202011564142.2

考虑多参考因素的Stack Overflow重复问题检测方法_大连海事大学_201811573937.2

基于Stack Overflow网站获取Web API知识的系统和方法_上海交通大学_202010301685.9

面向自然语言形式的基于讲义和Stack Overflow的API信息检索方法_广东石油化工学院_201910228664.6

考虑多参考因素的Stack Overflow重复问题检测方法_大连海事大学_201811573937.2

一种基于Stack Overflow和commit库的bug定位方法_扬州大学_201610824966.6

一种基于Stack Overflow和commit库的bug定位方法_扬州大学_201610824966.6

Stack相关技术

一种基于Elastic Stack的操作系统日志审计方法、系统及存储介质_云南腾建科技有限公司_202410329064.X

基于Stack-GANs模型的风机故障检测方法及存储介质_桂林电子科技大学_202210422554.5

一种基于Open stack的事件日志实现方法、存储介质及设备_中电信数智科技有限公司_202310922025.6

基于相对非均匀高斯模糊的z-stack图像快速配准方法_易普森生物科技(深圳)有限公司_202310629074.0

基于Stack Overflow网站获取Web API知识的系统和方法_上海交通大学_202010301685.9

三维生物样本的Z-stack图像集的图像处理与分割_赛多利斯生物分析仪器有限公司_202180030161.3

基于文本语义匹配的Stack Overflow相关问答检索方法_华南理工大学_202210513871.8

基于Stack-GANs模型的风机故障检测方法及存储介质_桂林电子科技大学_202210422554.5

一种基于salt-stack配置下发验证系统及方法_北京新流万联网络技术有限公司_202210234732.1

基于Glove和RNN的Stack Overflow论坛问题贴提问目的预测方法_南通大学_202011564142.2

相关相关技术

时间相关墨水_微软技术许可有限责任公司_201780063482.7

消息提醒方法及相关设备_深圳思为科技有限公司_202010997183.4

信息传输方法及相关设备_中国电信股份有限公司_202211689169.3

信号检测方法及相关设备_北京邮电大学_202410247145.5

备用路径切换方法及相关设备_广东电网有限责任公司电力调度控制中心_202410249158.6

编译方法、运行方法及相关产品_中科寒武纪科技股份有限公司_202211700640.4

智能驾驶方法和相关装置_华为技术有限公司_202211673244.7

波束测量方法及相关装置_华为技术有限公司_202211697839.6

视频处理方法及相关设备_华为技术有限公司_202211701398.2

模型使用方法及相关设备_上海华为技术有限公司_202211681047.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于文本语义匹配的Stack Overflow相关问答检索方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务