申请/专利权人:江苏省环科院环境科技有限责任公司
申请日:2021-10-27
公开(公告)日:2024-05-31
公开(公告)号:CN113987367B
主分类号:G06F16/9536
分类号:G06F16/9536;G06F16/958
优先权:
专利状态码:有效-授权
法律状态:2024.05.31#授权;2022.02.18#实质审查的生效;2022.01.28#公开
摘要:本申请提供一种基于Render_DOM模型的网页净化系统及其净化方法,包括采集模块、解析模块、渲染模块、优化模块以及视图显示模块;所述解析模块生成Render_DOM渲染树,所述Render_DOM渲染树的每个树节点renderer体现为对应的DOM可视节点以及为其计算好的CSS样式规则的矩形框;其中,将树节点renderer的块状元素设置为Block节点;Block块树模块用于将Render_DOM渲染树的Block节点以从上至下、从左至右的顺序作为编号路径形成Block块树;其中,所述Block块树包括基本单元块;所述合并模块用于将Block块树上离得最近的基本单元块进行合并,直到基本单元块对应的矩形框的面积达到页面块阈值;所述分割模块用于将相似度超过相似度阈值的基本单元块作为重复内容删除。本申请提高了工作效率。
主权项:1.一种基于Render_DOM模型的网页净化系统,包括采集模块、解析模块、渲染模块、优化模块以及视图显示模块;其中,所述采集模块用于获取网页的HTML信息,所述解析模块能够根据获取的网页的HTML信息,得到基于HTML网页标签分类而构建的DOM树和基于CSS样式表分类而构建的CSSOM树,所述渲染模块用于将生成的DOM树和CSSOM树结合渲染生成Render_DOM渲染树;所述Render_DOM渲染树能够体现为盒子模型的形式,其中,所述Render_DOM渲染树的每个树节点renderer能够体现为对应的DOM可视节点以及为其计算好的CSS样式规则的矩形框;其中,将树节点renderer的块状元素设置为Block节点,所述Block节点也能够体现为矩形框;所述优化模块包括Block块树模块、合并模块和分割模块;所述Block块树模块用于将Render_DOM渲染树的Block节点以从上至下、从左至右的顺序作为编号路径形成Block块树;其中,所述Block块树包括基本单元块,所述基本单元块的子节点为不可再分割的叶子节点;所述合并模块用于将Block块树上离得最近的基本单元块进行合并,直到基本单元块对应的矩形框的面积达到页面块阈值;所述分割模块用于将相似度超过相似度阈值的基本单元块作为重复内容删除;所述视图显示模块用于显示经过优化模块合并和分割后的网页。
全文数据:
权利要求:
百度查询: 江苏省环科院环境科技有限责任公司 一种基于Render_DOM模型的网页净化系统及其净化方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。