首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种优化卷积神经网络和链接综合优先级的主题爬虫方法 

申请/专利权人:广东外语外贸大学

申请日:2024-03-06

公开(公告)日:2024-06-25

公开(公告)号:CN118245655A

主分类号:G06F16/951

分类号:G06F16/951;G06N3/0464;G06F16/906

优先权:

专利状态码:在审-公开

法律状态:2024.06.25#公开

摘要:本发明提供了一种优化卷积神经网络和链接综合优先级的主题爬虫方法,具体涉及信息检索技术领域。一种优化卷积神经网络和链接综合优先级的主题爬虫方法,包括以下步骤:步骤1:通过LDA提取网页文本的主题概率分布片,步骤2:再采用Word2vec构建网页文本词向量矩阵经过卷积神经网络卷积层后得到卷积语义特征,步骤3:再将主题概率分布与卷积语义特征进行拼接作为网页文本整体的信息提取,最后经过最大池化后放入全连接层预测输出网页的主题分类结果片。本发明的有益效果在于:主题相似度计算方法成功提高了对于网页的分类准确率,而链接综合优先度计算方法不仅解决了主题漂移的问题,而且进一步提高了爬虫的全局搜索性能。

主权项:1.一种优化卷积神经网络和链接综合优先级的主题爬虫方法,其特征在于,包括以下步骤:步骤1:通过LDA提取网页文本的主题概率分布片;步骤2:再采用Word2vec构建网页文本词向量矩阵经过卷积神经网络卷积层后得到卷积语义特征;步骤3:再将主题概率分布与卷积语义特征进行拼接作为网页文本整体的信息提取,最后经过最大池化后放入全连接层预测输出网页的主题分类结果片;步骤4:选用不同层面的评价指标多方面的概括链接的信息,评价指标包括模型分类器对当前网页的分类结果、模型分类器指向网页链接的分类结果、链接上下文主题关联的值以及链接锚文本主题的相关性;基于LDA和Word2vec的卷积神经网络模型包括输入层、卷积层、池化层和输出层。

全文数据:

权利要求:

百度查询: 广东外语外贸大学 一种优化卷积神经网络和链接综合优先级的主题爬虫方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。