首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种自动识别网站目录页的方法_江苏省未来网络创新研究院_202011616331.X 

申请/专利权人:江苏省未来网络创新研究院

申请日:2020-12-30

公开(公告)日:2024-05-31

公开(公告)号:CN113221031B

主分类号:G06F16/954

分类号:G06F16/954;G06F16/957;G06F16/958

优先权:

专利状态码:有效-授权

法律状态:2024.05.31#授权;2021.08.24#实质审查的生效;2021.08.06#公开

摘要:本发明提供了一种网站目录页自动识别的实现方法,包括以下几个流程:对网站首页的处理流程、对详情页面的处理流程、对疑似目录页的处理流程、对不确定页面的处理流程、分析找出分页元素过程、分析找出下一页元素流程、最大公共XPath计算过程。使用本发明提供的网站目录页自动识别的实现方法,找出一个网站的所有目录页只需要10到20分钟即可完成。可以用于各种网站的目录页的识别,具有广泛的应用前景。

主权项:1.一种自动识别网站目录页的方法,其特征在于,包括以下几个流程:对网站首页的处理流程、对详情页面的处理流程、对疑似目录页的处理流程、对不确定页面的处理流程、分析找出分页元素过程、分析找出下一页元素流程、最大公共XPath计算过程;所述对网站首页的处理流程包括如下步骤:步骤1.1:使用浏览器内核加载页面,分析获取页面中包含的所有子链接以及对应的提示文本;步骤1.2:分析所有子链接的提示文本,找出提示文本包含“更多”、“更多》”、“更多”且提示文本长度小于6的子链接,记录为疑似目录页;步骤1.3:分析所有未处理子链接的提示文本,找出长度小于等于6,且包含“政府”、“信息”、“政策”、“解读”、“制度”、“指南”、“公开”、“公示”、“通告”、“人事”、“年报”、“公报”、“机构”、“领导”、“部门”、“省”、“市”、“州”、“县”、“区”、“乡”、“镇”、“街”、“街道”、“办”、“委”、“局”、“在线”、“服务”、“互动”、“回应”、“政务”、“概览”、“动态”、“民生”、“就业”、“创业”、“资讯”、“走进”、“政民”、“便民”、“利企”、“新闻”、“中心”、“交流”、“快讯”、“国务院”、“文件”、“办事”、“专题”、“专栏”、“要闻”、“事务”、“民族”、“宗教”、“党建”、“公众”、“安全”、“大厅”、“目录”,“统计”,“规划”,“财政”,“简介”关键字的比例60%的子链接,记录为疑似目录页;步骤1.4:分析疑似目录页以外的子链接,出现疑似情况的,将子链接记录为详情页面;步骤1.5:剩下的子链接,都记录为不确定页面;所述步骤1.4中,所述疑似情况包括:子链接的地址本身包含日期格式信息;子链接的提示文本长度大于20;子链接的提示文本中包含日期格式信息;子链接的提示文本中包含:!,、()“”《》【】[]符号;子链接所在元素的父元素的整体文本内容,不包含子链接的提示文本,包含日期格式信息;所述对详情页面的处理流程包括如下步骤:步骤2.1:使用浏览器内核加载页面,分析获取页面中包含的所有子链接,提取子链接特征,保存;步骤2.2:分析页面结构,提取页面结构特征,保存;步骤2.3:确定后面遇到的不确定页面是不是详情面;所述对疑似目录页的处理流程包括如下步骤:步骤3.1:使用浏览器内核加载页面,分析获取页面中包含的所有子链接以及对应的提示文本;步骤3.2:分析页面文本,去除子链接提示文本以外的可见叶子标签对应的文本,以符号[。!?],[]本身不算,每出现一次记5分和符号[,、:“”]每出现一次记1分的方式,计算得分,得分大于40的,直接记录当前页面为详情页面,完成处理;步骤3.3:按首页的分析方法,标记出子链接中的疑似目录页面;步骤3.4:分析找出分页元素,如果没有分页元素,转步骤3.9;步骤3.5:从分页元素中找出下一页元素,如果没有下一页元素,转步骤3.9;步骤3.6:操作点击下一页,页面加载完成后,分析获取页面包含的所有子链接;步骤3.7:计算出当前页面,即第1页子链接与第2页子链接的集合差,即是当前页的子链接而不是第2页的子链接的链接形成的集合,差集中的子链接都记录为详情页;如果差集为空,转步骤3.9;步骤3.8:计算出这个差集中的所有子链接对应的页面元素的XPath的最大公共XPath,当前页面确认为目录页;步骤3.9:按首页分析方法,标记出子链接中的详情;步骤3.10:如果有详情页面,计算出所详情页子链接对应的页面元素的XPath的最大公共XPath,当前页面确认为目录页;步骤3.11:对详情页外的子链接,按首页的分析方法进行分析;步骤3.12:未确定为目录页或详情页的子链接,需要参与进一步处理;所述对不确定页面的处理流程包括如下步骤:步骤4.1:使用浏览器内核加载页面,分析获取页面中包含的所有子链接,如果符合详情页特征,则记录为详情页;步骤4.2:分析页面结构,如果符合详情页特征,则记录为详情页;步骤4.3:其余的按疑似目录页进行处理;所述分析找出分页元素过程包括如下步骤:步骤5.1:分析页面找出所有tagname为“a”、“input”、“span”、“li”的元素;步骤5.2:取出这些元素的text和其它属性对应的文本信息;步骤5.3:如果有属性的内容等于“上一页”、“下一页”、“«上一页”、“下一页»”、“前一页”、“后一页”、“上一页”、“下一页”、“前页”、“后页”、“上页”、“下页”、“尾页”、“末页”、“前页”、“后页”、“上页”、“下页”、“尾页”、“末页”、“”、“”、“”、“”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”中的一个,则记录它的XPath,会得到多个这样的XPath;步骤5.4:计算这些XPath的最大公共XPath;步骤5.5:根据这个XPath取出分页元素;所述分析找出下一页元素流程包括如下步骤:步骤6.1:分析分页元素找出所有tagname为“a”、“input”、“span”、“li”的元素;步骤6.2:取出这些元素的text和其它属性对应的文本信息;步骤6.3:如果有属性的内容等于“下一页”、“下一页»”、“后一页”、“下一页”、“后页”、“下页”、“后页”、“下页”、“”、“”中的一个,则这个元素就是要找的元素;所述最大公共XPath计算过程包括如下步骤:步骤7.1:如果只有一个XPath,截取从头到最后一个的子串作为最大公共XPath;步骤7.2:计算出每一个XPath,与其它XPath的最大公共子串;步骤7.3:以最大公共子串为key,value用来记录key出现的次数;以出现次数最多的最大公共子串作为最大公共XPath。

全文数据:

权利要求:

百度查询: 江苏省未来网络创新研究院 一种自动识别网站目录页的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。