首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于文本语义匹配的Stack Overflow相关问答检索方法 

申请/专利权人:华南理工大学

申请日:2022-05-12

公开(公告)日:2024-06-28

公开(公告)号:CN115017279B

主分类号:G06F16/332

分类号:G06F16/332;G06F16/31;G06F40/30;G06F18/214;G06N3/0442;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.06.28#授权;2022.09.23#实质审查的生效;2022.09.06#公开

摘要:本发明公开了一种基于文本语义匹配的StackOverflow相关问答检索方法,包括:利用StackOverflow的问答数据集构建语料库并训练词向量;构建并训练一个文本语义匹配的深度模型,深度模型包括:词向量层、BiLSTM、交互注意力矩阵、多角度融合、池化层、多层次卷积结构和全连接层;基于深度模型预测查询和候选问答的语义相关性的大小将候选问答排序,排序后的候选问答作为检索结果。本发明基于文本语义匹配检索编程论坛StackOverflow上的相关问答,使用交互注意力矩阵、多角度融合、池化层来深化BiLSTM的特征提取,同时利用多层次卷积结构从另一个角度丰富BiLSTM的特征提取,可提取到多种的文本语义匹配信息,进一步提升StackOverflow相关问答的检索性能。

主权项:1.基于文本语义匹配的StackOverflow相关问答检索方法,其特征在于,包括以下步骤:1获取StackOverflow的问答数据集,并对问答数据集的文本进行预处理,包括清洗文本、分词、移除停用词和低频词以及词干化;将预处理后的问答数据集的文本构建成语料库,基于语料库训练词向量;将预处理后的问答数据集的文本构建成查询和候选问答的文本对,并把查询和候选问答的文本对按比例划分为训练集和测试集;2构建一个文本语义匹配的深度模型,利用步骤1所述的训练集对构建的深度模型进行训练,得到最优模型;其中,所述的深度模型基于双向长短期记忆网络BiLSTM进行改进,其情况为:基于步骤1所训练的词向量构造的词向量层,将查询和候选问答的文本对转换为查询向量与候选问答向量;采用BiLSTM将查询向量和候选问答向量转换为查询的上下文向量与候选问答的上下文向量;在BiLSTM后计算查询的上下文向量和候选问答的上下文向量之间的交互注意力矩阵,利用交互注意力矩阵分别获取查询的语义交互向量和候选问答的语义交互向量,这一步目的是提取语义交互特征,促进查询和候选问答的文本对之间的语义信息交流;采用多角度融合,以几种不同的计算方式把查询和候选问答各自的上下文向量和语义交互向量进行融合,得到查询的融合向量和候选问答的融合向量;采用池化层,以进一步突出多角度融合的效果,利用最大池化和平均池化从查询的融合向量和候选问答的融合向量提取查询的序列匹配向量和候选问答的序列匹配向量;采用多层次卷积结构,以丰富特征提取,多层次卷积结构根据BiLSTM生成的查询的上下文向量与候选问答的上下文向量来提取查询的卷积匹配向量和候选问答的卷积匹配向量;结合查询的序列匹配向量、候选问答的序列匹配向量、查询的卷积匹配向量和候选问答的卷积匹配向量,采用一个多层的全连接层进行语义相关性的预测;3利用步骤2得到的最优模型,预测步骤1所述的测试集的查询和候选问答的文本对之间的语义相关性,根据相关性的大小排列候选问答,排序后的列表作为检索结果。

全文数据:

权利要求:

百度查询: 华南理工大学 基于文本语义匹配的Stack Overflow相关问答检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。