首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】文本匹配方法及装置、存储介质、终端_华院计算技术(上海)股份有限公司_202210170758.4 

申请/专利权人:华院计算技术(上海)股份有限公司

申请日:2022-02-23

公开(公告)日:2024-06-21

公开(公告)号:CN114661861B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/35;G06F40/30;G06F18/25;G06N3/0464;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2022.07.12#实质审查的生效;2022.06.24#公开

摘要:一种文本匹配方法及装置、存储介质、终端,所述方法包括:获取第一文本;构建所述第一文本的要素图;提取所述第一文本的语义信息;获取第二文本的语义信息和结构信息,所述第二文本的结构信息包括:所述第二文本的要素图和或图嵌入特征信息,所述图嵌入特征信息是根据所述要素图计算得到的;根据所述第一文本的语义信息、要素图和所述第二文本的语义信息、结构信息,确定所述第一文本和所述第二文本的匹配结果。通过本发明提供的方案,能够提高文本匹配的准确度。

主权项:1.一种文本匹配方法,其特征在于,所述方法包括:获取第一文本;构建所述第一文本的要素图;提取所述第一文本的语义信息;获取第二文本的语义信息和结构信息,所述第二文本的结构信息包括:所述第二文本的要素图和或所述第二文本的图嵌入特征信息,所述第二文本的图嵌入特征信息是根据所述第二文本的要素图计算得到的;根据所述第一文本的语义信息、要素图和所述第二文本的语义信息、结构信息,确定所述第一文本和所述第二文本的匹配结果;其中,所述要素图包括多个节点、节点之间的边和边的权重,其中,所述节点为文本中包含的要素,所述节点之间的边用于指示边连接的两个节点之间的关联关系,所述边的权重用于指示边连接的两个节点之间的关联程度;其中,所述第一文本和所述第二文本为裁判文书,构建所述第一文本的要素图包括:构建所述第一文本的初始要素图,所述初始要素图包括:所述多个节点和所述节点之间的边,所述节点之间的边用于指示边连接的两个节点是否位于同一个句子中;确定每个节点在所述第一文本中对应的句子集,其中,所述句子集中的句子均与该节点对应的要素相关联;对于边连接的两个节点,计算所述两个节点对应的句子集之间的相似度,以得到所述两个节点之间的边的权重;其中,确定每个节点在所述第一文本中对应的句子集包括:对于每个节点,计算所述第一文本中每个句子与该节点之间的相似度,如果任意一个句子与该节点之间的相似度大于第四预设阈值,则确定该句子与该节点是关联的;如果任意一个句子与每个节点之间的相似度均小于第五预设阈值,则剔除该句子,其中,所述第五预设阈值小于所述第四预设阈值;其中,根据所述第一文本的语义信息、要素图和所述第二文本的语义信息、结构信息,确定所述第一文本和所述第二文本的匹配结果包括:对第一要素图和第二要素图进行融合处理,以得到融合后的要素图,其中,所述第一要素图为所述第一文本的要素图,所述第二要素图为所述第二文本的要素图;采用第一图卷积网络计算所述融合后的要素图对应的图嵌入特征向量,记为融合图特征向量;对融合语义特征向量和所述融合图特征向量进行融合处理,以得到融合后的特征向量,其中,所述融合语义特征向量是由所述第一文本的语义特征向量和所述第二文本的语义特征向量进行融合处理得到的;采用第一分类器根据所述融合后的特征向量,确定所述匹配结果;其中,所述第一图卷积网络和所述第一分类器是采用第一训练样本对第一预设图卷积网络和第一预设分类器进行训练得到的,所述第一训练样本包括:第一样本文本的语义信息和要素图、第二样本文本的语义信息和要素图,以及预先标注的第一标签,所述第一标签用于指示所述第一样本文本和第二样本文本的真实匹配结果,根据所述第一文本的语义信息、要素图和所述第二文本的语义信息、结构信息,确定所述第一文本和所述第二文本的匹配结果之前,所述方法还包括:对所述第一样本文本的要素图和所述第二样本文本的要素图进行融合处理,以得到融合后的样本要素图;采用所述第一预设图卷积网络计算所述融合后的样本要素图对应的图嵌入特征向量,记为融合样本图特征向量;对融合样本语义特征向量和所述融合样本图特征向量进行融合处理,以得到融合后的样本特征向量,其中,所述融合样本语义特征向量是对所述第一样本文本的语义特征向量和所述第二样本文本的语义特征向量进行融合处理得到的;采用所述第一预设分类器根据所述融合后的样本特征向量确定第一预测匹配结果;根据所述第一预测匹配结果和所述第一标签计算第一预测损失,并根据所述第一预测损失更新所述第一预设图卷积网络和所述第一预设分类器,直至满足预设的训练停止条件;其中,所述融合后的要素图包括:多个对齐节点、所述对齐节点之间的边和所述对齐节点之间的边的权重,其中,所述对齐节点为在所述第一要素图和所述第二要素图中均存在的节点,每个对齐节点具有特征信息,所述对第一要素图和所述第二要素图进行融合处理包括:确定所述多个对齐节点;对于每两个对齐节点,判断在所述第一要素图或所述第二要素图中该两个对齐节点之间是否存在边,如果是,则构建该两个对齐节点之间的边,其中,所述对齐节点之间的边的权重是根据所述对齐节点之间的边在所述第一要素图中的权重和或在所述第二要素图中的权重确定的;对于每个对齐节点,根据该对齐节点的第一句子集和第二句子集,确定该对齐节点的特征信息;其中,所述第一句子集为在所述第一要素图中对应的句子集,所述第二句子集为在所述第二要素图中对应的句子集;其中,根据每个对齐节点的第一句子集和第二句子集,确定该对齐节点的特征信息包括:对于每个对齐节点,对该对齐节点的第一句子集的语义信息和第二句子集的语义信息进行融合处理,以得到该对齐节点的第一特征信息;对于每个对齐节点,根据该对齐节点的第一句子集的语义信息和第二句子集的语义信息,计算所述第一句子集和所述第二句子集之间的相似度,并作为该对齐节点的第二特征信息;根据每个对齐节点的第一特征信息和第二特征信息,确定该对齐节点的特征信息。

全文数据:

权利要求:

百度查询: 华院计算技术(上海)股份有限公司 文本匹配方法及装置、存储介质、终端

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。