买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:云知声(杭州)智能科技有限公司;云知声(信阳)数字科技有限公司
摘要:本申请涉及一种大规模文本增量模糊去重方法、装置、设备及介质。基于该全局字典和预设哈希函数,为不同文档集中的文档生成文档签名,从而保证不同文档集中的相同内容在文档签名上保持一致,从而方便进行跨文档集的重复内容检测。由于仅针对第一文档进行文档签名的计算,而无需对已有第二文档的归档文档签名重新计算,从而大大减少了特征计算的数量级,进一步提高了对增量文档的去重处理效率。由于采用了文档签名作为衡量文档相似性的特征,即通过比较增量文档签名和归档文档签名,相比单纯的关键词匹配,在原理上就能够更全面地捕捉到重复文档的各种形式,去重的覆盖度更高,实现了对增量文档的精确去重。
主权项:1.一种大规模文本增量模糊去重方法,其特征在于,所述方法包括:获取增量文档集以及已去重的归档文档集;其中,所述增量文档集包括多篇第一文档,所述归档文档集包括已去重的多篇第二文档分别对应的归档文档签名;基于预先保存的所述归档文档集对应的全局字典以及预设哈希函数,确定所述多篇第一文档分别对应的增量文档签名;基于各所述归档文档签名,对所述多篇第一文档去重,以获得目标第一文档,包括:针对各所述增量文档签名,在各所述归档文档签名中,确定是否存在与该增量文档签名匹配的归档文档签名;若确定存在与该增量文档签名匹配的任一归档文档签名,则将该增量文档签名对应的第一文档删除;若确定不存在与该增量文档签名匹配的归档文档签名,则保留该增量文档签名对应的第一文档。
全文数据:
权利要求:
百度查询: 云知声(杭州)智能科技有限公司 云知声(信阳)数字科技有限公司 一种大规模文本增量模糊去重方法、装置、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。