买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:大连理工大学
摘要:本发明公开了一种基于自编码器的英文重复文本检测方法、系统、终端及存储介质,其中方法包括以下步骤:S1:选取待对比的两段英文文本,将文本按字符顺序转化为两组ASCII码值;S2:对每个字符利用周围字符的ASCII码值表示其特征;S3:利用自编码器对每个字符点的特征进行降维;S4:对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性,根据相似度判定文本是否重复;其中本方法用于检测两段文本是否重复,以字符为单位进行相似度对比,提高了检测准确率,同时对文本进行去重处理,对预防抄袭等相关工作具有重要意义。
主权项:1.一种基于自编码器的英文重复文本检测方法,其特征在于包括以下步骤:选取待对比的至少两段英文文本,将文本按字符顺序转化为两组ASCII码值;对每个字符利用周围字符的ASCII码值表示其特征,具体方式为:按照输入顺序,将每个字符都看作一个特征点,将每个点的特征存储在一个N×2-1×N矩阵中,从矩阵的第一行至最后一行依次以N-1,N-2,……,1为半径、选取其前后半径大小范围内字母的ASCII码值,按照位置顺序从矩阵的第N列依次向第一列和最后一列存放,其余位置以0补齐,其中N为当前字符的局部特征控制参数;利用自编码器对每个字符点的特征进行降维处理;对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性,根据相似度判定文本是否重复。
全文数据:
权利要求:
百度查询: 大连理工大学 一种英文重复文本检测方法、系统、终端及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。