申请/专利权人:山东省计算中心(国家超级计算济南中心);齐鲁工业大学(山东省科学院)
申请日:2024-04-12
公开(公告)日:2024-06-25
公开(公告)号:CN118245457A
主分类号:G06F16/174
分类号:G06F16/174;G06F40/194;G06F40/205;G06F16/182;G06N5/04;G06F16/958
优先权:
专利状态码:在审-公开
法律状态:2024.06.25#公开
摘要:本公开提供了基于句群的海量网页并行去重处理方法及系统,涉及网页去重技术领域,获取输入原始文件中的所有网页数据,并提取高评分网页数据;将每个高评分网页数据保存为Json对象,对Json对象的正文内容进行句子组合,对每个句子组合创建HashSig对象,将所有HashSig对象构成签名文件;针对所有签名文件,采用先局部后整体的方式进行重复性检查,将重复的Json对象索引和句子索引保存到重复文件中;利用生成的重复文件查找重复的句子,删除重复项;其中,对原始文件、签名文件以及重复文件的处理为多个处理节点上对同一块磁盘进行并发访问,实现数据的并行处理。
主权项:1.基于句群的海量网页并行去重处理方法,其特征在于,包括:获取输入原始文件中的所有网页数据,并提取高评分网页数据;将每个高评分网页数据保存为Json对象,对Json对象的正文内容进行句子组合,对每个句子组合创建HashSig对象,将所有HashSig对象构成签名文件;针对所有签名文件,采用先局部后整体的方式进行重复性检查,将重复的Json对象索引和句子索引保存到重复文件中;利用生成的重复文件查找重复的句子,删除重复项;其中,对原始文件、签名文件以及重复文件的处理为多个处理节点上对同一块磁盘进行并发访问,实现数据的顺序并行处理。
全文数据:
权利要求:
百度查询: 山东省计算中心(国家超级计算济南中心);齐鲁工业大学(山东省科学院) 基于句群的海量网页并行去重处理方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。