买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京清格科技有限公司
摘要:本公开实施例公开了文本去重方法、装置和电子设备。该方法的一具体实施方式包括:获取待去重网页集合;针对待去重网页集合中的每个待去重网页,从该待去重网页的网页数据中提取网页特征,利用该待去重网页的网页标题和网页正文,基于向量空间哈希算法和最小公共子串匹配算法,确定候选网页集合中是否存在与该待去重网页相似的网页,若存在,则对该待去重网页的相似标志位进行设置;利用相似标志位,对待去重网页集合中的待去重网页进行分组;基于网页特征,从每组待去重网页中选取目标网页,删除目标网页之外的其他网页,得到去重后的网页集合。该实施方式在提高网页文本去重效果的同时,提升了去重效率,节省内存。
主权项:1.一种文本去重方法,其特征在于,包括:获取待去重网页集合;针对所述待去重网页集合中的每个待去重网页,从该待去重网页的网页数据中提取网页特征,利用该待去重网页的网页标题和网页正文,基于向量空间哈希算法和最小公共子串匹配算法,确定候选网页集合中是否存在与该待去重网页相似的网页,若存在,则对该待去重网页的相似标志位进行设置,其中,所述网页特征包括网页标题和网页正文,相似的网页所具有的相似标志位相同;利用相似标志位,对所述待去重网页集合中的待去重网页进行分组,其中,分组得到的各组待去重网页对应的相似标志位是不同的;基于所述网页特征,从每组待去重网页中选取目标网页,删除所述目标网页之外的其他网页,得到去重后的网页集合;以及所述利用该待去重网页的网页标题和网页正文,基于向量空间哈希算法和最小公共子串匹配算法,确定候选网页集合中是否存在与该待去重网页相似的网页,包括:利用向量空间哈希算法,对该待去重网页的网页标题和网页正文求取向量空间哈希值;针对候选网页集合中的每个候选网页,确定该待去重网页的网页正文的向量空间哈希值与该候选网页的网页正文的向量空间哈希值之间的汉明距离作为第一汉明距离;利用所述第一汉明距离,确定所述候选网页集合中是否存在第一网页,其中,所述第一网页的网页正文与该待去重网页的网页正文相似;若所述候选网页集合中存在所述第一网页,则确定所述候选网页集合中存在与该待去重网页相似的网页;若所述候选网页集合中不存在所述第一网页,则针对所述候选网页集合中的每个候选网页,确定该待去重网页的网页标题的向量空间哈希值与该候选网页的网页标题的向量空间哈希值之间的汉明距离作为第二汉明距离;利用所述第二汉明距离,确定所述候选网页集合中是否存在第二网页集合,其中,第二网页的网页标题与该待去重网页的网页标题相似;若所述候选网页集合中存在所述第二网页集合,则针对所述第二网页集合中的每个第二网页,将该第二网页的网页正文与该待去重网页的网页正文进行最小公共子串比对,确定该第二网页的网页正文与该待去重网页的网页正文是否相似;若该第二网页的网页正文与该待去重网页的网页正文相似,则确定所述候选网页集合中存在与该待去重网页相似的网页。
全文数据:
权利要求:
百度查询: 北京清格科技有限公司 文本去重方法、装置和电子设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。