恭喜北京轻松怡康信息技术有限公司贾威达获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京轻松怡康信息技术有限公司申请的专利文本查重并突出显示的方法、装置、存储介质、程序产品获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119272721B 。
龙图腾网通过国家知识产权局官网在2025-03-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411774642.7,技术领域涉及:G06F40/117;该发明授权文本查重并突出显示的方法、装置、存储介质、程序产品是由贾威达设计研发完成,并于2024-12-05向国家知识产权局提交的专利申请。
本文本查重并突出显示的方法、装置、存储介质、程序产品在说明书摘要公布了:本公开实施例公开了一种文本查重并突出显示的方法、装置、存储介质、程序产品。其中,方法包括:接收目标文本,对所述目标文本进行结构化解析,分离出原始格式和第一纯文本;基于第一长度阈值和第二长度阈值,获取所述第一纯文本与预设文本之间的重复片段;定位所述重复片段在所述第一纯文本中的起止位置;根据所述起止位置在所述第一纯文本中添加突出显示标记,形成带有突出显示标记的文本结构;将所述文本结构与所述原始格式整合,生成格式化文本;对所述格式文本进行展示。该方法能够在提高查重精度的同时,确保目标文本的原始格式不被破坏,提高用户使用体验。
本发明授权文本查重并突出显示的方法、装置、存储介质、程序产品在权利要求书中公布了:1.一种文本查重并突出显示的方法,其特征在于,包括:接收目标文本,对所述目标文本进行结构化解析,分离出原始格式和第一纯文本;对所述第一纯文本进行粗粒度语义划分,获得多个语义片段;对所述多个语义片段进行细粒度语义划分,获得多个句子;基于第一长度阈值和第二长度阈值,对所述多个句子进行长度标准化,得到多个标准短句;在所述基于第一长度阈值和第二长度阈值,对所述多个句子进行长度标准化,得到多个标准短句之前,还包括:基于所述多个句子构建句子长度分布图;获取所述句子长度分布图中的最大值和最小值;基于所述最大值和所述最小值获取中位数;基于所述中位数在所述句子长度分布图中绘制中位线,将所述句子长度分布图划分为上区域和下区域;获取所述上区域的第一面积和所述下区域的第二面积;若所述第一面积等于所述第二面积,则将预设第一阈值判定为所述第一长度阈值,将预设第二阈值判定为所述第二长度阈值;若所述第一面积不等于所述第二面积,则基于所述中位数、所述第一面积、所述第二面积,获取调整倍数;基于所述预设第一阈值、所述预设第二阈值和所述调整倍数,获取所述第一长度阈值和所述第二长度阈值;对预设文本进行内容提取,获得第二纯文本;将所述第二纯文本划分为多个语段;获取所述标准短句与每个语段之间的相似度;当最大相似度不小于预设相似度阈值时,获取所述标准短句的连续重复字数;当所述连续重复字数不小于预设字数阈值时,将所述标准短句判定为重复片段;定位所述重复片段在所述第一纯文本中的起止位置;根据所述起止位置在所述第一纯文本中添加突出显示标记,形成带有突出显示标记的文本结构;将所述文本结构与所述原始格式整合,生成格式化文本;对所述格式化文本进行展示。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京轻松怡康信息技术有限公司,其通讯地址为:100007 北京市东城区安定门东大街28号2号楼7层716室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。