首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种数据驱动的完全端到端的相似问句生成方法_识因智能科技(北京)有限公司_202311069410.7 

申请/专利权人:识因智能科技(北京)有限公司

申请日:2023-08-23

公开(公告)日:2024-05-10

公开(公告)号:CN118012996A

主分类号:G06F16/332

分类号:G06F16/332;G06F16/33;G06F40/30;G06N3/084

优先权:

专利状态码:在审-公开

法律状态:2024.05.10#公开

摘要:本发明提供一种数据驱动的完全端到端的相似问句生成方法,涉及自然语言处理技术领域,本发明分为训练阶段以及预测阶段,训练阶段中,通过样本对的构建,以及训练标签的构建,之后进行掩码矩阵M的构建,最后将数据输入BERT模型中进行语义计算,从而计算损失值,通过反向传播算法更新整个模型的参数,得到一系列数据结果,之后根据数据进行预测,通过设定相似句,再将相似句输入训练好的模型中进行语义计算,最终解码出k条序列,即生成k个A的相似句,本发明在大量数据的训练后,该方法能够捕捉到相同语义的不同表达方式,该方法完全端到端,可一次生成原问句的多个相似问句,易维护、可迭代。

主权项:1.一种数据驱动的完全端到端的相似问句生成方法,其特征在于,所述的相似问句生成方法具体步骤为:S1、训练阶段:S1.1、构建样本对,每一个样本包含两个句子,句子A以及它的相似句B;S1.2、将句子A和句子B进行分词,处理成如下的符号列表X这里假设句子A和B分别包含3个词:X={[CLS],a1,a2,a3,[SEP],b1,b2,b3,[SEP]};S1.3、构建训练标签;S1.4、构建掩码矩阵M:掩码矩阵根据步骤S1.2中的输入X计算,X中从[CLS]符号到第一个[SEP]属于第一个句子,一共有5个符号,从b1到第二个[SEP]有四个符号属于第二个句子,因此M形如下面的二维矩阵:[1,1,1,1,1,0,0,0,0][1,1,1,1,1,0,0,0,0][1,1,1,1,1,0,0,0,0][1,1,1,1,1,0,0,0,0][1,1,1,1,1,0,0,0,0][1,1,1,1,1,1,0,0,0][1,1,1,1,1,1,1,0,0][1,1,1,1,1,1,1,1,0][1,1,1,1,1,1,1,1,1];S1.5、将输入序列X和掩码矩阵M输入BERT模型中进行语义计算,最后取BERT最后一层神经网络的输出,得到一个维度为[9,768]的语义矩阵P,语义矩阵P包含9个768维的向量,每个向量分别是输入X中每个符号的语义向量,这些语义向量经过BERT中神经网络的计算,包含了输入序列中丰富的上下文信;S1.6、计算损失值;S1.7、根据步骤S1.6中计算得到的损失值,用反向传播算法更新整个模型的参数;S2、预测阶段:S2.1、假设需要生成句子A的相似句,将句子A处理成如下的符号列表X这里假设句子A包含3个词:X={[CLS],a1,a2,a3,[SEP]};S2.2、将序列X输入训练好的模型中进行语义计算;S2.3、取[SEP]的语义向量进行束搜索beamsearch解码,束宽设置为k,解码序列的最大长度设置为m,解码序列达到最大长度m或者解码出停止符号[SEP]时输出一条最终解码序列,最终解码出k条序列,即生成k个A的相似句。

全文数据:

权利要求:

百度查询: 识因智能科技(北京)有限公司 一种数据驱动的完全端到端的相似问句生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。