首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于结构相似性与语义相似性的多维度文本查重方法 

申请/专利权人:中国能源建设集团云南省电力设计院有限公司

申请日:2024-03-25

公开(公告)日:2024-06-28

公开(公告)号:CN118261138A

主分类号:G06F40/194

分类号:G06F40/194;G06F40/30;G06F40/205;G06F40/289;G06F18/22;G06N3/0464

优先权:

专利状态码:在审-公开

法律状态:2024.06.28#公开

摘要:本发明涉及一种基于结构相似性和语义相似性的多维度文本查重方法,提供的查重方法同时结合了结构相似性查询对细粒度特征具有较好的适应性和语义相似性查询对捕获文本全局语义信息具有强表示性和对处理复杂无序文本能力强的优势,构建了一种多维度互补结构的文本相似度查询方法。该方法首先通过依赖解析器计算查重文本的相似度并进一步提取文本的结构相似性内容,同时引入了机器学习方法对查重文本进行建模提取文本的语义信息,并进行余弦相似度计算提取文本语义相似性内容。最后,将提取出来的结构相似性内容和语义相似性内容进行循环对比,并将判别结果以可下载文本的方式反馈给用户。

主权项:1.一种基于结构相似性和语义相似性的多维度文本查重方法,其特征在于,包括以下步骤:对上传的第一待查重文本和第二待查重文本分别进行文本解析,对应构建第一分词库和第二分词库;对第一分词库和第二分词库内的词向量进行预处理,使每个词向量的字符串长度相同;将经过预处理的第一分词库和第二分词库输入结构相似性查询分支,对第一分词库和第二分词库进行依赖分析计算,将相似度超过50%的依赖树内容提取出来,再进行包含关系计算将相同的词序列定位并提取出来,构成结构相似词序列列表;同时,将经过预处理的第一分词库和第二分词库输入语义相似性查询分支,语义相似性查询单元为一个基于卷积神经网络的编码器和滤波器构成的残差网络,卷积神经网络对预处理的第一分词库和第二分词库分别进行语义特征提取,再由特征编码器对语义特征进行编码得到编码特征,编码特征再送入基于软阈值算子的滤波器进行特征优化和筛选从而获得表示性特征,最后对编码特征和表示性特征做残差连接后计算得到第一全局语义特征和第二全局语义特征;对第一全局语义特征和第二全局语义特征进行余弦相似度计算,将相似度分数超过75%的词序列提取出来,再进行包含关系计算将相同的词序列定位并提取出来,构成语义相似词序列列表;将结构相似词序列列表与语义相似词序列列表进行循环对比,两者词序列中字符串重复率达到50%时,将结构相似词序列列表中对应的词序列提取出来,生成查重报告。

全文数据:

权利要求:

百度查询: 中国能源建设集团云南省电力设计院有限公司 基于结构相似性与语义相似性的多维度文本查重方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。