【发明授权】一种自动识别网站目录页的方法_江苏省未来网络创新研究院_202011616331.X

导航：龙图腾网> 最新专利技术> 一种自动识别网站目录页的方法_江苏省未来网络创新研究院_202011616331.X

申请/专利权人：江苏省未来网络创新研究院

申请日：2020-12-30

公开（公告）日：2024-05-31

公开（公告）号：CN113221031B

主分类号：G06F16/954

分类号：G06F16/954;G06F16/957;G06F16/958

优先权：

专利状态码：有效-授权

法律状态：2024.05.31#授权;2021.08.24#实质审查的生效;2021.08.06#公开

摘要：本发明提供了一种网站目录页自动识别的实现方法，包括以下几个流程：对网站首页的处理流程、对详情页面的处理流程、对疑似目录页的处理流程、对不确定页面的处理流程、分析找出分页元素过程、分析找出下一页元素流程、最大公共XPath计算过程。使用本发明提供的网站目录页自动识别的实现方法，找出一个网站的所有目录页只需要10到20分钟即可完成。可以用于各种网站的目录页的识别，具有广泛的应用前景。

主权项：1.一种自动识别网站目录页的方法，其特征在于，包括以下几个流程：对网站首页的处理流程、对详情页面的处理流程、对疑似目录页的处理流程、对不确定页面的处理流程、分析找出分页元素过程、分析找出下一页元素流程、最大公共XPath计算过程；所述对网站首页的处理流程包括如下步骤：步骤1.1：使用浏览器内核加载页面，分析获取页面中包含的所有子链接以及对应的提示文本；步骤1.2：分析所有子链接的提示文本，找出提示文本包含“更多”、“更多》”、“更多”且提示文本长度小于6的子链接，记录为疑似目录页；步骤1.3：分析所有未处理子链接的提示文本，找出长度小于等于6，且包含“政府”、“信息”、“政策”、“解读”、“制度”、“指南”、“公开”、“公示”、“通告”、“人事”、“年报”、“公报”、“机构”、“领导”、“部门”、“省”、“市”、“州”、“县”、“区”、“乡”、“镇”、“街”、“街道”、“办”、“委”、“局”、“在线”、“服务”、“互动”、“回应”、“政务”、“概览”、“动态”、“民生”、“就业”、“创业”、“资讯”、“走进”、“政民”、“便民”、“利企”、“新闻”、“中心”、“交流”、“快讯”、“国务院”、“文件”、“办事”、“专题”、“专栏”、“要闻”、“事务”、“民族”、“宗教”、“党建”、“公众”、“安全”、“大厅”、“目录”，“统计”，“规划”，“财政”，“简介”关键字的比例60%的子链接，记录为疑似目录页；步骤1.4：分析疑似目录页以外的子链接，出现疑似情况的，将子链接记录为详情页面；步骤1.5：剩下的子链接，都记录为不确定页面；所述步骤1.4中，所述疑似情况包括：子链接的地址本身包含日期格式信息；子链接的提示文本长度大于20；子链接的提示文本中包含日期格式信息；子链接的提示文本中包含：！，、（）“”《》【】[]符号；子链接所在元素的父元素的整体文本内容，不包含子链接的提示文本，包含日期格式信息；所述对详情页面的处理流程包括如下步骤：步骤2.1：使用浏览器内核加载页面，分析获取页面中包含的所有子链接，提取子链接特征，保存；步骤2.2：分析页面结构，提取页面结构特征，保存；步骤2.3：确定后面遇到的不确定页面是不是详情面；所述对疑似目录页的处理流程包括如下步骤：步骤3.1：使用浏览器内核加载页面，分析获取页面中包含的所有子链接以及对应的提示文本；步骤3.2：分析页面文本，去除子链接提示文本以外的可见叶子标签对应的文本，以符号[。！？]，[]本身不算，每出现一次记5分和符号[，、：“”]每出现一次记1分的方式，计算得分，得分大于40的，直接记录当前页面为详情页面，完成处理；步骤3.3：按首页的分析方法，标记出子链接中的疑似目录页面；步骤3.4：分析找出分页元素，如果没有分页元素，转步骤3.9；步骤3.5：从分页元素中找出下一页元素，如果没有下一页元素，转步骤3.9；步骤3.6：操作点击下一页，页面加载完成后，分析获取页面包含的所有子链接；步骤3.7：计算出当前页面，即第1页子链接与第2页子链接的集合差，即是当前页的子链接而不是第2页的子链接的链接形成的集合，差集中的子链接都记录为详情页；如果差集为空，转步骤3.9；步骤3.8：计算出这个差集中的所有子链接对应的页面元素的XPath的最大公共XPath，当前页面确认为目录页；步骤3.9：按首页分析方法，标记出子链接中的详情；步骤3.10：如果有详情页面，计算出所详情页子链接对应的页面元素的XPath的最大公共XPath，当前页面确认为目录页；步骤3.11：对详情页外的子链接，按首页的分析方法进行分析；步骤3.12：未确定为目录页或详情页的子链接，需要参与进一步处理；所述对不确定页面的处理流程包括如下步骤：步骤4.1：使用浏览器内核加载页面，分析获取页面中包含的所有子链接，如果符合详情页特征，则记录为详情页；步骤4.2：分析页面结构，如果符合详情页特征，则记录为详情页；步骤4.3：其余的按疑似目录页进行处理；所述分析找出分页元素过程包括如下步骤：步骤5.1：分析页面找出所有tagname为“a”、“input”、“span”、“li”的元素；步骤5.2：取出这些元素的text和其它属性对应的文本信息；步骤5.3：如果有属性的内容等于“上一页”、“下一页”、“«上一页”、“下一页»”、“前一页”、“后一页”、“上一页”、“下一页”、“前页”、“后页”、“上页”、“下页”、“尾页”、“末页”、“前页”、“后页”、“上页”、“下页”、“尾页”、“末页”、“”、“”、“”、“”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”中的一个，则记录它的XPath，会得到多个这样的XPath；步骤5.4：计算这些XPath的最大公共XPath；步骤5.5：根据这个XPath取出分页元素；所述分析找出下一页元素流程包括如下步骤：步骤6.1：分析分页元素找出所有tagname为“a”、“input”、“span”、“li”的元素；步骤6.2：取出这些元素的text和其它属性对应的文本信息；步骤6.3：如果有属性的内容等于“下一页”、“下一页»”、“后一页”、“下一页”、“后页”、“下页”、“后页”、“下页”、“”、“”中的一个，则这个元素就是要找的元素；所述最大公共XPath计算过程包括如下步骤：步骤7.1：如果只有一个XPath，截取从头到最后一个的子串作为最大公共XPath；步骤7.2：计算出每一个XPath，与其它XPath的最大公共子串；步骤7.3：以最大公共子串为key，value用来记录key出现的次数；以出现次数最多的最大公共子串作为最大公共XPath。

全文数据：

权利要求：

百度查询：江苏省未来网络创新研究院一种自动识别网站目录页的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：光学系统和包括该光学系统的相机模块_LG伊诺特有限公司_202280073239.4

下一篇：一种油溶性石墨烯的制备方法_重庆烯达科技有限公司_202410279749.8

相关技术

光学系统和包括该光学系统的相机模块_LG伊诺特有限公司_202280073239.4

一种油溶性石墨烯的制备方法_重庆烯达科技有限公司_202410279749.8

一种悬索桥用超硬复合板及其制备工艺_德阳天元重工股份有限公司_202410240910.0

一种硅光器件及制造方法_上海集成电路研发中心有限公司_202211648345.9

一种机房巡检机器人控制方法及系统_广州申迪智能科技有限公司_202311823017.2

可交联聚烯烃组合物_SABIC环球技术有限责任公司_202280072879.3

数据处理方法、装置、电子设备及存储介质_小红书科技有限公司_202311645889.4

一种倾斜电路板焊点视觉反馈高精度点触方法_清华大学天津高端装备研究院_202410068626.X

由独立组分生产的果仁酱仿品_航行食品股份有限公司_202280059657.8

一种糜子抗性淀粉的制备方法及应用_西北大学_202410294077.8

一种基于生物技术的实验室用空气过滤装置_汇智赢华医疗科技研发(北京)有限公司_202410305488.2

显示装置和用于制造该显示装置的方法_三星显示有限公司_202311264824.5

识别相关技术

语音识别方法、语音识别装置及系统_华为技术有限公司_202180104424.0

射频识别设备_中国铁塔股份有限公司_202410245003.5

外界识别装置_日立安斯泰莫株式会社_202280075224.1

人脸识别方法_广东电网有限责任公司_202410308502.4

散货体积快速识别设备_北京盛华核安科技有限公司_202322783539.6

识别显示单元的用户_皇家飞利浦有限公司_201980066971.7

识别方法及装置_北京猿力未来科技有限公司_202010640068.1

射频识别读取器_弗里森斯有限公司_202280075205.9

一种基于视觉识别的区域标注表单识别方法_北京长河数智科技有限责任公司_202311742200.X

交易识别模型的训练方法、异常交易识别方法和装置_中国工商银行股份有限公司_202410358565.0

网站相关技术

域名生成模型的训练方法、钓鱼网站发现方法及相关装置_鹏城实验室_202410282760.X

涉诈网站自动处理的方法、装置、设备及介质_恒安嘉新(北京)科技股份公司_202111297216.5

网站管理方法、装置、存储介质以及电子设备_北京金山云网络技术有限公司_202211651449.5

一种用于检测网站后台页面弱口令的方法、系统及装置_新基信息技术集团股份有限公司_202410634752.7

门户网站访问方法、装置、计算机设备和存储介质_南方电网数字平台科技(广东)有限公司_202410402846.1

一种网站分类模型训练方法、装置、设备及存储介质_重庆数智逻辑科技有限公司_202410402122.7

一种网站中视频知识点播放入口定义和播放控制的方法_青岛优云智联科技有限公司_202210761598.0

网站页面的测试方法、装置、终端设备及介质_平安科技(深圳)有限公司_201910517948.7

一种国际国内web网站访问自动分流控制装置_上海地面通信息网络股份有限公司_202110811276.8

网站有效性检测方法、装置、设备及存储介质_亚数信息科技(上海)有限公司_202310829792.2

方法相关技术

配置方法_意法半导体(大西部)公司_202311748134.7

设备控制方法方法和装置_珠海格力电器股份有限公司_202111537707.2

模型预训练方法、模型训练方法、对象处理方法及装置_北京百度网讯科技有限公司_202310701200.9

脱水方法_赛纳塔生物有限公司_202280073278.4

任务处理方法、法律问答方法及任务处理模型训练方法_阿里巴巴(中国)有限公司_202410660148.1

移动台、基站、发送方法及接收方法_松下电器(美国)知识产权公司_201980043653.9

模型构建方法、图像分割方法、装置、设备、介质_北京字跳网络技术有限公司_202211634709.8

测试结构及其形成方法及测试方法_中芯国际集成电路制造(北京)有限公司_202211638350.1

消息发送方法、装置和资源分配方法、装置_北京小米移动软件有限公司_201880000686.0

窗口插件配置方法、窗口数据采集方法及装置_北京字节跳动网络技术有限公司_202111209776.0

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种自动识别网站目录页的方法_江苏省未来网络创新研究院_202011616331.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务